Folha testa robôs de IA em busca por fatos e mais tarefas – 11/02/2025 – Tec

Qual é o melhor chatbot de IA? A resposta é mais complexa do que parece, porque depende da tarefa solicitada e da expectativa do usuário. A Folha testou porquê os modelos mais populares, em suas versões gratuitas, comportam-se diante das mesmas instruções.

De olho em lançamentos recentes, a reportagem testou também o Qwen 2.5 Max, da chinesa Alibaba, que se gaba ao declarar que “supera quase todos os GPT-4o, DeepSeek-V3 e Llama-3.1-405B”.

ChatGPT, Gemini, Perplexity, DeepSeek, Claude e Microsoft Copilot completam a lista das ferramentas avaliadas.

Todos são modelos de processamento de linguagem oriundo capazes de entender e gerar respostas convincentes, além de executarem outras tarefas.

Os testes inferior são unicamente amostras e as respostas podem mudar de concordância com a interação do usuário e as atualizações das plataformas.

FATOS RECENTES

Um resumo do clássico entre Santos e São Paulo pela 6ª rodada do Campeonato Paulista 2025 foi pedido a todos os chatbots. As instruções foram as seguintes:

“Faça um resumo do último jogo entre Santos e São Paulo pelo Campeonato Paulista 2025. Traga informações sobre o placar, treinadores e quem fez gols. Diga onde foi o jogo e se houve alguma expulsão ou estreia de qualquer jogador em um dos times”.

Claude não tem dados atualizados em tempo real, com entrada à web, e não respondeu.

ChatGPT traz um resumo correto e sucinto com todas as informações solicitadas. No final, sugere link do Youtube do meato solene do Campeonato Paulista sobre a partida.

Perplexity apresenta resumo breve com todas as informações pedidas, além de outros detalhes relacionados. Derrapa, porém, ao expressar que Gabriel Bontempo estreou no Santos nesta partida –o jogador começou no time profissional na guia contra o Velo Club, em janeiro. Ponto positivo é mostrar com destaque links de fontes de informações, além de sugestões de vídeos.

DeepSeek (R1) faz resumo detalhado e oferece informações extras, mas comete o mesmo miragem sobre a estreia de Gabriel e relata unicamente um dos cartões amarelos da partida.

O resumo do Copilot destaca corretamente todas as informações solicitadas e traz links discretos das fontes. Confunde-se ao declarar que Neymar ocupava um dos camarotes na Vila Belmiro –o jogador assistiu à partida em sua mansão, em Mangaratiba (RJ).

Gemini, em um resumo prolixo, acerta o placar, o sítio do jogo e aponta Guilherme porquê responsável de dois gols santistas. Só. O que vem pela frente é uma sequência de falhas, pois erra quem anotou o gol são-paulino (Lucas Moura) e o segundo gol do Santos (Gabriel Bontempo), além de omitir a expulsão do técnico Pedro Caixinha e errar os nomes de toda a arbitragem, de todos os jogadores que levaram cartões amarelos e as escalações e treinadores de ambas as equipes.

Qwen, na mesma toada, cita “efeito Neymar” e acerta unicamente o placar e o sítio do jogo. Comete equívocos sobre a data, quem marcou gols e os nomes dos técnicos, além de ignorar outras respostas solicitadas.

Quem foi melhor: ChatGPT

FATOS HISTÓRICOS

O pedido para as IAs foi o seguinte:

“Faça um resumo sobre o lançamento do Projecto Real no Brasil. Traga informações porquê ano de lançamento, quem era o presidente, o ministro da rancho e qual era a moeda vigente até portanto. Diga também porquê estava a inflação no país naquela estação”.

Todos os modelos acatam as solicitações sem errar os fatos. Enquanto ChatGPT, Copilot e Perplexity trazem três parágrafos, DeepSeek, Qwen e Gemini se alongam com cronologia, tópicos sobre a equipe econômica e detalhes sobre o contexto histórico da estação.

Quem foi melhor: todos vão muito.

Dica: ao nomear um papel para o robô, a chance de obter uma resposta que vai ao encontro do que o usuário deseja aumenta. Exemplo: “Sou um estudante do ensino médio e você é um bom professor de economia, faça um resumo para que eu estude sobre [o assunto desejado]”

ASSUNTOS POLÍTICOS

A reportagem pediu aos chatbots que respondessem sobre as eleições presidenciais brasileiras de 2022. A instrução foi:

“Uma vez que foi a disputa presidencial no Brasil em 2022? Conte quem eram os principais candidatos e quem venceu a disputa. Especifique quando ocorreu o pleito e a que horas veio o resultado. Houve qualquer tipo de suspeição ou protesto sobre por secção dos apoiadores?

Gemini é o único protótipo que não aborda questões relacionadas à política: “No momento, não posso ajudar com respostas sobre eleições e figuras políticas”, diz o chatbot.

No entanto, se o tópico envolver a China, é a vez e DeepSeek e Qwen se calarem.

Todos os demais fornecem resultados semelhantes. Somente o Copilot não menciona os ataques em 8 de janeiro de 2023 em seu resumo. Outra diferença aparece em relação ao horário de divulgação do resultado. Enquanto ChatGPT, Perplexity e Copilot citam 19h57 (horário em que, com 98,91% das urnas apuradas, Lula foi considerado eleito), Qwen, DeepSeek e Claude informam dissemelhante.

Quem foi melhor: ChatGPT e Perplexity, mas… apesar da discrepância em relação aos horários, as IAs chinesas abastecem os resumos com mais detalhes, enquanto ChatGPT e Copilot suprem o leitor com textos mais sucintos.

Dica: em todas as pesquisas, tenha em mente que inteligências artificiais generativas cometem erros e possuem vieses. Para assuntos delicados, porquê política, vale redobrar o desvelo.

CRIAÇÃO DE IMAGENS

Gemini, ChatGPT, Copilot, Qwen e Claude criam imagem por meio de instruções simples em texto no próprio chat. É preciso permanecer prudente aos limites oferecidos nos planos gratuitos em cada utensílio. Eis o pedido:

“Faça uma imagem de um menino em formato de Lego, com corpo amarelo e roupas brancas. Mostre o corpo inteiro dele. Ele tem cabelo encaracolado e preto, sorri e possui sardas no rosto. Estilo 3D, fundo simples”.

Veja os resultados:

Quem foi melhor: Copilot

ANÁLISE DE DOCUMENTOS

O edital do Enem 2024, disponível em um registro de PDF de seis páginas, foi sobrecarregado nas plataformas —exceto no Gemini, que não aceita envio de documento. Algumas perguntas acerca do teor foram realizadas.

Para o Claude, o documento em questão excede o limite sumo suportável. DeepSeek, por sua vez, retorna erro em todas as tentativas de remissão do texto.

Qwen, ChatGPT, Copilot e Perplexity têm desempenhos semelhantes, com boas soluções para as questões. Destaca-se a última utensílio, que permite ao usuário clicar sobre temas em destaque, porquê as áreas de conhecimento do vistoria, para saber mais.

Quem foi melhor: Perplexity

FONTES DAS INFORMAÇÕES

Desta vez, a solicitação foi sucinta: “Aborde em poucas palavras o acidente envolvendo dois aviões nos EUA, em janeiro de 2025″.

Claude não fornece links para fontes porque não tenho entrada direto à internet ou a um banco de dados de referências.

Perplexity, pioneira ao mostrar as fontes nos resultados, é a que as exibe com maior destaque.

De forma mais acanhada, Copilot, DeepSeek e Qwen numeram e distribuem as fontes ao longo do texto, fazendo referência aos links originais. ChatGPT também indica fontes nas respostas por meio de discretas URLs. É generalidade que o protótipo da OpenAI mostre uma manancial única também no final de um texto mais longo.

Gemini pode ou não apresentar links úteis para consulta ao final de um resultado. Se o usuário fizer a solicitação diretamente no prompt, o robô pode obedecer.

Ao pedir que os robôs usassem porquê manancial unicamente a Folha, Gemini diz que o jornal não publicou zero a saudação. O que não é verdade.

As outras plataformas trazem resumos factuais sobre o acidente, mas incluem outras fontes não solicitadas. O único que respeitou o que havia sido ordenado foi o Copilot.

Quem foi melhor: Copilot e Perplexity

RECURSO POR VOZ

Fazer perguntas e dar instruções usando a voz é verosímil unicamente no ChatGPT, no Gemini (aplicativo) e no Copilot. Há um limite de tempo de uso, por vezes não especificado, dos recursos, sobretudo nas versões gratuitas.

Há falhas em todas as conversas e o soído do envolvente pode aumentar os problemas. Frases inacabadas ou repetidas são problemas comuns. Nestes quesitos, Gemini consegue terminar frases com maior frequência, usando um assistente de voz em português e com sotaque brasiliano.

Quem foi melhor: Gemini

CONTAS MATEMÁTICAS

Um manobra de matemática tirado da prova da Fuvest de 2003 foi enviado a todos os modelos de IA. Todos acertam e mostram o passo a passo de porquê chegaram à resposta.

Um caminhão transporta maçãs, peras e laranjas, num totalidade de 10.000 frutas. As frutas estão condicionadas em caixas (cada caixa só contém um tipo de fruta), sendo que cada caixa de maçãs, peras e laranjas, tem, respectivamente 50 maçãs, 60 peras e 100 laranjas e custam, respectivamente, 20, 40 e 10 reais. Se a trouxa do caminhão tem 140 caixas e custa 3.300 reais, calcule quantas maçãs, peras e laranjas estão sendo transportadas.

Resposta final: O caminhão está transportando 2.000 maçãs, 3.000 peras e 5.000 laranjas.

Quem foi melhor: todos são equivalentes.

A geração de tabelas a partir de dados fornecidos pelo usuário é tarefa que todos os modelos desempenham muito. Quanto mais detalhes nas instruções, melhor. O Qwen, porém, não permite o envio de imagens, somente dados estruturados em texto.

É necessário verificar o limite de envio de imagens nos demais modelos gratuitos, que varia de plataforma para plataforma e de concordância com o uso.

A geração de gráficos provenientes das tabelas, porém, só é verosímil no Claude.

Quem foi melhor: Claude

PLANEJAMENTO DE VIAGEM

Muita gente usa essas ferramentas para ajudar a montar roteiros de viagem, todavia, é preciso estar prudente em relação às datas e aos horários de funcionamento de estabelecimentos e atrações. O teste, cá, foi:

Planeje uma viagem de 3 dias (sexta, sábado e domingo) para São Paulo, capital. Considere que um parelha e uma menino de 5 anos viajarão juntos para o rumo. No sábado à noite, considere um passeio unicamente para o parelha. Inclua na programação pontos turísticos não óbvios, gastronomia sítio e atrações gratuitas.

Qwen e Perplexity sugerem um sítio para jantar que fecha às 16h, enquanto Copilot indica um passeio noturno em um museu que encerra as atividades às 17h.

Gemini apresenta roteiro detalhado com horários, mas não considera as distâncias —e o trânsito quase onipresente da cidade. Imagine, por exemplo, iniciar às 15h uma jornada pelo Viaduto do Chá, no meio, e chegar às 16h ao Beco do Batman, na zona oeste, em plena sexta-feira. Só mediante teletransporte, mas isso nenhuma das sete ferramentas é capaz de fazer (ainda).

Quem foi melhor: DeepSeek e ChatGPT

EM RESUMO

Folha

FATOS RECENTES

FATOS HISTÓRICOS

ASSUNTOS POLÍTICOS

CRIAÇÃO DE IMAGENS

ANÁLISE DE DOCUMENTOS

FONTES DAS INFORMAÇÕES

RECURSO POR VOZ

CONTAS MATEMÁTICAS

PLANEJAMENTO DE VIAGEM

EM RESUMO

Relacionados

Israel aposta em startups contra a crise climática – 17/08/2024 – Ambiente

Worldcoin: Como é o processo para ‘vender a íris’ – 16/01/2025 – Tec

Google expande IA na busca com aba específica ‘AI Mode’ – 20/05/2025 – Tec

Deixe um comentário Cancelar resposta