Capacidade de raciocínio da IA é “miragem”, dizem pesquisadores

Capacidade de raciocínio da IA é “miragem”, dizem pesquisadores

Técnicas presentes em assistentes de IA não são raciocínio real, dizem acadêmicos (ilustração: Vitor Pádua/Tecnoblog)

Resumo

Pesquisadores mostram que modelos de linguagem falham em resolver problemas que não estavam em seu do treinamento.
IAs podem gerar raciocínios que parecem corretos, mas apresentam erros lógicos.
Técnicas atuais, como cadeia de pensamentos, têm limitações e podem levar a respostas incorretas.

Um artigo escrito por pesquisadores da Universidade do Estado do Arizona, nos Estados Unidos, sugere que a capacidade de raciocínio de modelos de linguagem em larga escala (LLMs) é apenas uma “frágil miragem”, incapaz de resolver problemas lógicos que não fizeram parte de seu treinamento.

Nos últimos anos, ChatGPT, Gemini e outros assistentes com inteligência artificial passaram a contar com capacidades de “raciocínio simulado”, criando uma “cadeia de pensamentos” para destrinchar prompts em uma sequência de passos lógicos, que são apresentados ao usuário. No entanto, este método parece ter limitações.

IA tem dificuldade para resolver problemas novos

O trabalho dos cientistas ainda não foi revisado por pares e está disponível na plataforma Arxiv. Para avaliar a capacidade de raciocínio de um LLM, os pesquisadores criaram um ambiente de treinamento de IA com transformações simples de texto, como trocar letras de palavras para cifrá-las.

Logo em seguida, o LLM teve que realizar diversas tarefas. Algumas eram muito parecidas com as vistas no treinamento, enquanto outras precisavam combinar várias transformações para formar uma operação nova.

Problemas fora da base usada no treinamento viram dor de cabeça para IA (ilustração: Vitor Pádua/Tecnoblog)

Nos resultados, os modelos começaram a falhar quando precisaram lidar com novas transformações. Por exemplo: um modelo treinado com testes de “deslocar” letras (como trocar todas as letras pela seguinte no alfabeto) não sabia realizar tarefas que envolviam embaralhar a ordem das letras na própria palavra. Além disso, se o modelo tinha sido treinado com palavras de quatro letras, ele tinha dificuldades para resolver problemas com palavras de três ou cinco letras.

A IA até tentava generalizar regras lógicas com base em padrões observados durante o treinamento e criava linhas de raciocínio corretas, mas errava as respostas. O oposto também acontecia, mas com menos frequência: em alguns casos, o modelo chegava a uma resposta certa, mas usando encadeamentos incoerentes. Por fim, quanto maior o prompt e o número de passos necessário para chegar à resposta correta, pior era o desempenho do modelo.

Uma possível solução para isso é introduzir uma pequena quantidade de dados relacionada a diferentes tipos de problemas, mas os pesquisadores consideram que essa estratégia é “insustentável e reativa”.

Para eles, a conclusão é de que a técnica de cadeia de pensamentos pode produzir resultados convincentes, mas com falhas lógicas. Isso pode levar a riscos reais, caso o usuário confie na solução apresentada sem verificar se está tudo certo.

Outros estudos dizem que IA não pensa

Não é a primeira vez que cientistas chegam a esses resultados. Como lembra o Decoder, pesquisadores ligados à Apple já publicaram um artigo que aponta que LLMs usam reconhecimento de padrões e não planejamento simbólico ou compreensão estrutural.

Outros estudos levaram a resultados parecidos: acadêmicos ligados a duas universidades chinesas descobriram que o aprendizado por reforço com recompensas verificáveis, bastante usado na IA, não ajuda os modelos a desenvolver estratégias para resolver problemas.

Já cientistas da Universidade de Nova York descobriram que modelos de raciocínio não quebravam tarefas em um número suficiente de passos.

Por outro lado, críticos dizem que essas pesquisas são muito simplistas, pois não consideram que LLMs podem gerar códigos de programação para resolver problemas, ou ainda recorrer a ferramentas externas para buscar soluções.

Com informações do Ars Technica e do Decoder
Capacidade de raciocínio da IA é “miragem”, dizem pesquisadores

Capacidade de raciocínio da IA é “miragem”, dizem pesquisadores
Fonte: Tecnoblog