Resumos feitos por IA estão ficando piores, mostra estudo

Resumos feitos por IA estão ficando piores, mostra estudo

Inteligência artificial tem cometido erros no resumo de textos (ilustração: Vitor Pádua/Tecnoblog)

Resumo

Um estudo publicado na Royal Society analisou 5 mil resumos científicos gerados por 10 chatbots, revelando que até 73% continham imprecisões, como omissões e distorções.
Modelos mais recentes, como ChatGPT-4o e LLaMA 3.3 70B, mostraram maior taxa de erros, questionando a ideia de que versões novas são sempre mais confiáveis.

Investigação da BBC revelou que 51% dos resumos de notícias produzidos por IA continham erros relevantes.

O discurso das empresas de tecnologia costuma ser otimista: a inteligência artificial promete transformar o trabalho, acelerar descobertas científicas e facilitar o acesso à informação. No entanto, uma nova pesquisa coloca em xeque parte dessas promessas, especialmente quando se trata da capacidade dos modelos de IA em resumir textos de forma precisa.

Um estudo publicado na revista científica Royal Society analisou quase 5 mil resumos de pesquisas científicas feitos por dez chatbots amplamente utilizados — entre eles, ChatGPT-4o, ChatGPT-4.5, DeepSeek e LLaMA 3.3 70B. A conclusão foi de que até 73% desses resumos apresentaram imprecisões. Os erros incluíam omissão de informações importantes, generalizações excessivas e conclusões distorcidas em relação ao conteúdo original.

A IA está piorando em vez de melhorar?

Modelos mais novos do ChatGPT têm cometido mais erros que as versões anteriores (ilustração: Vitor Pádua/Tecnoblog)

De forma surpreendente, o estudo revelou que quanto mais recente o modelo de IA, maior a taxa de erros. Isso contraria o discurso predominante de que os sistemas estão ficando cada vez mais inteligentes e confiáveis.

Os pesquisadores alertam que os chatbots tendem a omitir detalhes cruciais que limitam o escopo das conclusões científicas, levando o leitor a entender resultados de forma mais ampla — e equivocada — do que o estudo permite.

O problema se agrava à medida que esses modelos se tornam mais populares. O levantamento mostra, por exemplo, que a utilização dos modelos ChatGPT quase dobrou entre adolescentes dos Estados Unidos entre 2023 e 2025.

No entanto, o ChatGPT-4o foi nove vezes mais propenso a omitir dados essenciais do que versões anteriores, como o ChatGPT-4 Turbo. O LLaMA 3.3 70B apresentou um índice ainda mais alarmante: foi 36 vezes mais propenso a gerar resumos com generalizações incorretas.

BBC detectou erros em resumos de notícias

Apple suspendeu geração de notícias da Apple Intelligence após erros em resumos e uso indevido da marca da BBC (foto: Thássius Veloso/Tecnoblog)

Os problemas não se restringem ao meio científico. Uma investigação da BBC avaliou a qualidade de resumos de notícias feitos por quatro chatbots — ChatGPT, Copilot, Gemini e Perplexity. O resultado mostrou que 51% das respostas tinham problemas relevantes, incluindo erros factuais, números incorretos, datas erradas e até falas distorcidas.

Em janeiro deste ano, a Apple suspendeu o recurso de geração de notícias da Apple Intelligence após casos de alucinações em resumos. Além das informações falsas, alguns textos saíram com o logo da BBC, sugerindo que eram conteúdos oficiais do veículo.

Outros exemplos incluem o Gemini, que afirmou incorretamente que o NHS (sistema de saúde britânico) não recomenda o uso de vape como auxílio para parar de fumar. Já o ChatGPT e o Copilot disseram que Rishi Sunak e Nicola Sturgeon ainda estavam no cargo, mesmo após ambos terem deixado seus postos. O Perplexity chegou a atribuir declarações falsas à BBC em uma reportagem sobre o Oriente Médio.

Diante desses resultados, a CEO da BBC News, Deborah Turness, alertou que as empresas de tecnologia estão “brincando com fogo” e defendeu uma revisão urgente no uso desses modelos para gerar resumos de notícias. Ela destacou que, em tempos de alta desinformação, uma manchete distorcida por IA pode causar impactos significativos no mundo real.

Apesar das empresas afirmarem que estão trabalhando para melhorar os sistemas — inclusive implementando controles como o robots.txt, que limita o acesso dos bots a determinados conteúdos —, os pesquisadores reforçam que os erros são estruturais. O debate tem sido focado nos riscos de usar IA em áreas que exigem alta precisão, como jornalismo, medicina e pesquisa científica.

Com informações do Futurism e da BBC
Resumos feitos por IA estão ficando piores, mostra estudo

Resumos feitos por IA estão ficando piores, mostra estudo
Fonte: Tecnoblog