Category: Llama 4

Meta é acusada de manipular benchmarks de IA do Llama 4

Meta é acusada de manipular benchmarks de IA do Llama 4

Resultados do Llama 4 em testes chamaram a atenção (ilustração: Vitor Pádua/Tecnoblog)

Resumo

Meta enviou para um teste de benchmarking no LMArena uma versão do Llama 4 diferente da que foi disponibilizada ao público, segundo especialistas em IA.
A empresa confirmou o uso da versão experimental, afirmando que aplica esse método a diversas “variantes customizadas”.
O LMArena criticou a Meta pela falta de transparência e anunciou que incluirá a versão final do Llama 4 Maverick nas votações.

Especialistas em inteligência artificial observaram que a Meta enviou para um teste de benchmarking uma versão do Llama 4 diferente da que foi liberada para o público. A empresa confirma ter usado uma versão experimental, mas diz fazer o mesmo com muitas variantes customizadas.

O que a Meta fez para provocar a polêmica?

Na documentação publicada com o lançamento do Llama 4, a Meta afirma que o teste LMArena foi feito usando uma versão experimental do modelo, “otimizada para conversacionalidade”, nas palavras da própria empresa.

O resultado do Llama 4 no LMArena é muito bom: o modelo é o atual segundo colocado na pontuação Elo. Com 1.417 pontos, ele está acima do 4o da OpenAI e abaixo apenas do Gemini 2.5 Pro, do Google.

Llama 4 foi bem em “batalhas” contra outros modelos de IA (ilustração: Vitor Pádua/Tecnoblog)

O LMArena é uma ferramenta de benchmarking de código aberto e colaborativa. Nos testes, usuários fazem uma mesma pergunta para dois modelos de IA distintos e votam em qual deu a melhor resposta. Quanto maior o número de vitórias na “arena”, maior a pontuação Elo (sim, o mesmo sistema de pontuação usado no xadrez, por exemplo).

O que a Meta diz sobre isso?

Em um email enviado ao The Verge, a Meta confirma ter usado uma versão experimental do Llama 4, mas diz que faz testes “com todos os tipos de variantes customizadas”.

A Llama-4-Maverick-03-26-Experimental é uma dessas e “também teve um bom desempenho no LMArena”, nas palavras de um porta-voz da companhia. Agora, a Meta afirma estar animada para ver o que os desenvolvedores farão com o Llama 4 de código aberto, que pode ser customizado.

O que a LMArena vai fazer a respeito?

Apesar de a Meta minimizar os questionamentos, os administradores do LMArena disseram que “a interpretação da Meta de nossas políticas não corresponde ao que esperamos dos fornecedores de modelos” e que a empresa deveria ter deixado claro que o modelo usado era otimizado.

Por isso, a versão final do Llama 4 Maverick será adicionada às votações, e os resultados devem ser divulgados em breve.

Com informações do TechCrunch, Gizmodo e The Verge
Meta é acusada de manipular benchmarks de IA do Llama 4

Meta é acusada de manipular benchmarks de IA do Llama 4
Fonte: Tecnoblog

Llama 4 é anunciado pela Meta com três tipos de LLMs diferentes

Llama 4 é anunciado pela Meta com três tipos de LLMs diferentes

Meta lança novos modelos da geração Llama 4, incluindo um LLM professor de IAs (ilustração: Vitor Pádua/Tecnoblog)

A Meta anunciou na última sexta-feira (5) novos LLM do Llama 4, sua atual geração de modelo para IAs. O Llama 4 ganhou três novos modelos, cada um dedicado a uma atuação específica. Os modelos são o Maverick, Scout e Behemoth — este ainda em fase de treinamento.

Quais as especificações dos novos Llama 4?

O Llama 4 Scout tem 17 bilhões de parâmetros, janela de contexto de 10 milhões e foi treinado com 16 especialistas. Este LLM demanda menos capacidade de processamento. Como explica a Meta, ele pode ser utilizado com uma GPU Nvidia H100, aceleradora para executar tarefas de IA. O Llama 4 Scout é voltado para empresas ou profissionais que realizam tarefas menos complexas.  

Quanto maior a quantidade de parâmetros, maior a capacidade do LLM de processar prompts e dados para entregar uma resposta mais precisa. Por isso o Llama 4 Scout se encaixa como um modelo mais básico — dado o seu padrão para uso corporativo.

Gráfico da Meta mostra diferenças e especificações dos novos modelos do Llama 4 (imagem: divulgação)

O Llama 4 Maverick possui os mesmos 17 bilhões de parâmetros do Scout, mas foi treinado com 128 especialistas. Este LLM já necessita de um servidor H100 para ser utilizado, demandando mais processamento e gasto energético. O Maverick, ao contrário do Scout, atende empresas de porte médio à grande, que realizam mais atividades com processamento de dados.

Esses dois LLMs são versões reduzidas do Llama 4 Behemoth, que ainda não está disponível para testes. O Behemoth possui 288 bilhões de parâmetros e é desenvolvido para a criação de modelos derivados. Este LLM poderá ser usado por empresas para treinar ou criar seus próprios modelos.

Segundo a Meta, o Llama 4 Behemoth superou o GPT-4.5, Claude Sonnet 3.7 e o Gemini 2.0 Pro em benchmarks focados em ciências e matemática, como o Math-500 e GPQA Diamond — este é um teste em IAs respondem a questões de nível universitário em áreas de ciências.

O Llama 4 Scout e Llama 4 Maverick podem ser baixados no próprio site do LLM ou no Hugging Face. A Meta AI com o Llama 4 pode ser testada nos produtos da Meta, como WhatsApp ou Instagram Direct.

Com informações de Meta (1 e 2)
Llama 4 é anunciado pela Meta com três tipos de LLMs diferentes

Llama 4 é anunciado pela Meta com três tipos de LLMs diferentes
Fonte: Tecnoblog