Meta é acusada de manipular benchmarks de IA do Llama 4
Meta é acusada de manipular benchmarks de IA do Llama 4
Resultados do Llama 4 em testes chamaram a atenção (ilustração: Vitor Pádua/Tecnoblog)
Resumo
Meta enviou para um teste de benchmarking no LMArena uma versão do Llama 4 diferente da que foi disponibilizada ao público, segundo especialistas em IA.
A empresa confirmou o uso da versão experimental, afirmando que aplica esse método a diversas “variantes customizadas”.
O LMArena criticou a Meta pela falta de transparência e anunciou que incluirá a versão final do Llama 4 Maverick nas votações.
Especialistas em inteligência artificial observaram que a Meta enviou para um teste de benchmarking uma versão do Llama 4 diferente da que foi liberada para o público. A empresa confirma ter usado uma versão experimental, mas diz fazer o mesmo com muitas variantes customizadas.
O que a Meta fez para provocar a polêmica?
Na documentação publicada com o lançamento do Llama 4, a Meta afirma que o teste LMArena foi feito usando uma versão experimental do modelo, “otimizada para conversacionalidade”, nas palavras da própria empresa.
O resultado do Llama 4 no LMArena é muito bom: o modelo é o atual segundo colocado na pontuação Elo. Com 1.417 pontos, ele está acima do 4o da OpenAI e abaixo apenas do Gemini 2.5 Pro, do Google.
Llama 4 foi bem em “batalhas” contra outros modelos de IA (ilustração: Vitor Pádua/Tecnoblog)
O LMArena é uma ferramenta de benchmarking de código aberto e colaborativa. Nos testes, usuários fazem uma mesma pergunta para dois modelos de IA distintos e votam em qual deu a melhor resposta. Quanto maior o número de vitórias na “arena”, maior a pontuação Elo (sim, o mesmo sistema de pontuação usado no xadrez, por exemplo).
O que a Meta diz sobre isso?
Em um email enviado ao The Verge, a Meta confirma ter usado uma versão experimental do Llama 4, mas diz que faz testes “com todos os tipos de variantes customizadas”.
A Llama-4-Maverick-03-26-Experimental é uma dessas e “também teve um bom desempenho no LMArena”, nas palavras de um porta-voz da companhia. Agora, a Meta afirma estar animada para ver o que os desenvolvedores farão com o Llama 4 de código aberto, que pode ser customizado.
O que a LMArena vai fazer a respeito?
Apesar de a Meta minimizar os questionamentos, os administradores do LMArena disseram que “a interpretação da Meta de nossas políticas não corresponde ao que esperamos dos fornecedores de modelos” e que a empresa deveria ter deixado claro que o modelo usado era otimizado.
Por isso, a versão final do Llama 4 Maverick será adicionada às votações, e os resultados devem ser divulgados em breve.
Com informações do TechCrunch, Gizmodo e The Verge
Meta é acusada de manipular benchmarks de IA do Llama 4
Meta é acusada de manipular benchmarks de IA do Llama 4
Fonte: Tecnoblog