Category: Modelo de linguagem grande

Executivos da Salesforce admitem perda de confiança na IA generativa

Executivos da Salesforce admitem perda de confiança na IA generativa

Sanjna Parulekar é VP sênior de marketing de produtos (imagem: reprodução/Salesforce)

Resumo

A Salesforce enfrenta problemas de confiabilidade com grandes modelos de linguagem e busca alternativas mais estáveis, afetando diretamente o produto Agentforce.
Executivos identificaram problemas como a deriva da IA e alucinações, levando a uma reavaliação estratégica que prioriza fundações de dados.
A empresa demitiu cerca de 4 mil funcionários e as ações caíram 34% desde dezembro de 2024, mas a expectativa é que o Agentforce gere mais de US$ 500 milhões em receita anual.

A Salesforce, uma das maiores empresas de software corporativo do mundo, está recuando na implementação agressiva de grandes modelos de linguagem (LLMs) após enfrentar problemas de confiabilidade. A companhia, que defende a transformação do ambiente de trabalho com uso da tecnologia, agora busca alternativas mais estáveis para os produtos e reconhece as limitações técnicas para tarefas complexas.

Segundo o jornal The Information, Sanjna Parulekar, vice-presidente sênior de marketing de produtos da companhia, admitiu que houve queda no otimismo sobre a IA. “Todos nós estávamos mais confiantes sobre grandes modelos de linguagem há um ano”, afirmou a executiva.

O reposicionamento afeta diretamente o Agentforce, principal aposta recente da Salesforce na área de IA. O produto vinha sendo apresentado como uma plataforma de agentes capazes de executar tarefas complexas de forma autônoma, mas agora deve depender menos de respostas abertas geradas por LLMs.

Salesforce deve diminuir uso de grandes modelos de linguagem (imagem: Raysonho/Wikimedia)

Aleatoriedade gerou ineficiência

Entre os problemas identificados está o chamado AI drift — ou deriva da IA. Em uma publicação recente, o executivo Phil Mui explicou que agentes baseados em modelos de linguagem tendem a perder o foco quando confrontados com interações humanas fora do fluxo esperado.

Um exemplo são os chatbots projetados para auxiliar no preenchimento de formulários. Ao receberem perguntas irrelevantes do cliente, esses sistemas costumam se distrair, reduzindo a eficiência do fluxo de trabalho corporativo.

Além da perda de foco, a questão das alucinações pesou na decisão. O CEO da Salesforce, Marc Benioff, afirmou em entrevista ao Business Insider que está reescrevendo a estratégia anual da empresa. A nova diretriz prioriza fundações de dados em detrimento dos modelos de IA isolados.

Marc Benioff, CEO e cofundador da Salesfoce (imagem: reprodução/The Logan Bartlett Show)

Para Benioff, operar esses sistemas sem o contexto adequado aumenta drasticamente o risco de erros. Ele considera que, no ambiente corporativo, inventar informações incorretas com alta confiança é inaceitável.

Apesar dos problemas técnicos, o CEO mantém grandes ambições para a marca do produto. Benioff chegou a sugerir que não ficaria surpreso se a própria companhia viesse a ser rebatizada com o nome do produto, Agentforce.

Salesforce diminuiu força de trabalho

A recalibragem da estratégia coincide com um momento de tensão na força de trabalho, após a Salesforce demitir cerca de 4 mil funcionários, principalmente da área de suporte, e atribuir parte do serviço a agentes de IA.

As ações da Salesforce registraram uma queda de aproximadamente 34% em relação ao pico atingido em dezembro de 2024, refletindo o ceticismo dos investidores quanto à capacidade da empresa de converter o hype da IA em resultados consistentes. Ainda assim, a projeção é de que a plataforma Agentforce gere mais de US$ 500 milhões em receita anual.
Executivos da Salesforce admitem perda de confiança na IA generativa

Executivos da Salesforce admitem perda de confiança na IA generativa
Fonte: Tecnoblog

Google descobre malware que usa IA para gerar novos códigos após invasão

Google descobre malware que usa IA para gerar novos códigos após invasão

Malware tenta usar LLM para roubar arquivos e escapar de antivírus (ilustração: Vitor Pádua/Tecnoblog)

Resumo

O Google identificou malwares que usam IA generativa, como o PromptFlux e o PromptSteal, para criar novos códigos e evitar detecção.
Especialistas consideram que os malwares com IA ainda são limitados e ineficazes, com prompts fracos e falhas frequentes.
O Google ajustou configurações do Gemini após descobrir falhas que permitiam gerar códigos maliciosos sob disfarce de hacker ético.

O Google publicou um relatório em que revela ter encontrado famílias de malware que usam inteligência artificial generativa durante a execução, criando novos códigos para roubar dados ou driblar sistemas de detecção.

Um exemplo é o PromptFlux. Ele usa a API do Gemini para reescrever seu código-fonte e evitar a detecção por sistemas de defesa. Outra amostra encontrada, o PromptSteal acessa um LLM hospedado no Hugging Face para gerar linhas de comando a serem executadas na máquina infectada, com o objetivo de roubar dados da vítima.

Já o PromptLock foi criado como parte de um estudo acadêmico que visava justamente analisar se os modelos de linguagem de larga escala (LLMs) são capazes de “planejar, adaptar e executar um ataque de ransomware”.

“Embora algumas implementações sejam experimentais, elas fornecem um indicador inicial de como as ameaças estão evoluindo e como podem integrar recursos de IA em futuras atividades de invasão”, diz o documento. “Os agentes estão indo além do ‘vibe coding’ e do patamar observado em 2024, de usar ferramentas de IA como suporte técnico.”

Ameaça existe, mas impacto real ainda é limitado

Apesar das descobertas, especialistas em cibersegurança consideram que não há nada de muito perigoso nos malwares criados com ajuda de inteligência artificial. O pesquisador Marcus Hutchins, famoso por sua atuação contra o ransomware WannaCry, aponta que os prompts presentes nas amostras analisadas pelo Google ainda são fracos ou inúteis.

IA ainda não representa impacto significativo no desenvolvimento de ameaças, avaliam especialistas (ilustração: Vitor Pádua/Tecnoblog)

“[O prompt] não especifica o que o bloco de código deve fazer ou como deve escapar de um antivírus. Ele parte da premissa de que o Gemini vai saber instintivamente como driblar as proteções (ele não sabe)”, escreveu Hutchins em sua página no LinkedIn.

Kevin Beaumont, também especialista no setor, tem uma avaliação semelhante. “Eu olhei as amostras. Muitas nem funcionam, falham imediatamente. Não tem nenhum perigo, se você tiver controles básicos de segurança”, comentou no post do colega.

O site Ars Technica conversou com profissionais de segurança. Um deles, que não quis se identificar, também minimizou o uso da tecnologia. “[A IA está] apenas ajudando autores de malware a fazer o que já faziam. Nada novo. A IA vai melhorar, mas não sabemos quando nem quanto”, pondera.

O próprio Google diz, no relatório, que o PromptFlux ainda é experimental, sem ser capaz de invadir o dispositivo ou a rede de uma vítima. E os pesquisadores responsáveis pelo PromptLock afirmaram que sua prova de conceito tinha claras limitações em técnicas como persistência, movimentação lateral e táticas de evasão avançadas.

No mesmo relatório, o Google revela ter encontrado uma falha nas proteções do Gemini. Um agente mal-intencionado conseguiu levar a IA a gerar códigos maliciosos se passando por um hacker ético, que estaria participando de uma competição de cibersegurança. A companhia diz ter ajustado as configurações para impedir ataques desse tipo.

Com informações do Ars Technica e da PCMag
Google descobre malware que usa IA para gerar novos códigos após invasão

Google descobre malware que usa IA para gerar novos códigos após invasão
Fonte: Tecnoblog

Capacidade de raciocínio da IA é “miragem”, dizem pesquisadores

Capacidade de raciocínio da IA é “miragem”, dizem pesquisadores

Técnicas presentes em assistentes de IA não são raciocínio real, dizem acadêmicos (ilustração: Vitor Pádua/Tecnoblog)

Resumo

Pesquisadores mostram que modelos de linguagem falham em resolver problemas que não estavam em seu do treinamento.
IAs podem gerar raciocínios que parecem corretos, mas apresentam erros lógicos.
Técnicas atuais, como cadeia de pensamentos, têm limitações e podem levar a respostas incorretas.

Um artigo escrito por pesquisadores da Universidade do Estado do Arizona, nos Estados Unidos, sugere que a capacidade de raciocínio de modelos de linguagem em larga escala (LLMs) é apenas uma “frágil miragem”, incapaz de resolver problemas lógicos que não fizeram parte de seu treinamento.

Nos últimos anos, ChatGPT, Gemini e outros assistentes com inteligência artificial passaram a contar com capacidades de “raciocínio simulado”, criando uma “cadeia de pensamentos” para destrinchar prompts em uma sequência de passos lógicos, que são apresentados ao usuário. No entanto, este método parece ter limitações.

IA tem dificuldade para resolver problemas novos

O trabalho dos cientistas ainda não foi revisado por pares e está disponível na plataforma Arxiv. Para avaliar a capacidade de raciocínio de um LLM, os pesquisadores criaram um ambiente de treinamento de IA com transformações simples de texto, como trocar letras de palavras para cifrá-las.

Logo em seguida, o LLM teve que realizar diversas tarefas. Algumas eram muito parecidas com as vistas no treinamento, enquanto outras precisavam combinar várias transformações para formar uma operação nova.

Problemas fora da base usada no treinamento viram dor de cabeça para IA (ilustração: Vitor Pádua/Tecnoblog)

Nos resultados, os modelos começaram a falhar quando precisaram lidar com novas transformações. Por exemplo: um modelo treinado com testes de “deslocar” letras (como trocar todas as letras pela seguinte no alfabeto) não sabia realizar tarefas que envolviam embaralhar a ordem das letras na própria palavra. Além disso, se o modelo tinha sido treinado com palavras de quatro letras, ele tinha dificuldades para resolver problemas com palavras de três ou cinco letras.

A IA até tentava generalizar regras lógicas com base em padrões observados durante o treinamento e criava linhas de raciocínio corretas, mas errava as respostas. O oposto também acontecia, mas com menos frequência: em alguns casos, o modelo chegava a uma resposta certa, mas usando encadeamentos incoerentes. Por fim, quanto maior o prompt e o número de passos necessário para chegar à resposta correta, pior era o desempenho do modelo.

Uma possível solução para isso é introduzir uma pequena quantidade de dados relacionada a diferentes tipos de problemas, mas os pesquisadores consideram que essa estratégia é “insustentável e reativa”.

Para eles, a conclusão é de que a técnica de cadeia de pensamentos pode produzir resultados convincentes, mas com falhas lógicas. Isso pode levar a riscos reais, caso o usuário confie na solução apresentada sem verificar se está tudo certo.

Outros estudos dizem que IA não pensa

Não é a primeira vez que cientistas chegam a esses resultados. Como lembra o Decoder, pesquisadores ligados à Apple já publicaram um artigo que aponta que LLMs usam reconhecimento de padrões e não planejamento simbólico ou compreensão estrutural.

Outros estudos levaram a resultados parecidos: acadêmicos ligados a duas universidades chinesas descobriram que o aprendizado por reforço com recompensas verificáveis, bastante usado na IA, não ajuda os modelos a desenvolver estratégias para resolver problemas.

Já cientistas da Universidade de Nova York descobriram que modelos de raciocínio não quebravam tarefas em um número suficiente de passos.

Por outro lado, críticos dizem que essas pesquisas são muito simplistas, pois não consideram que LLMs podem gerar códigos de programação para resolver problemas, ou ainda recorrer a ferramentas externas para buscar soluções.

Com informações do Ars Technica e do Decoder
Capacidade de raciocínio da IA é “miragem”, dizem pesquisadores

Capacidade de raciocínio da IA é “miragem”, dizem pesquisadores
Fonte: Tecnoblog

OpenAI adia lançamento do GPT-5 por mais alguns meses

OpenAI adia lançamento do GPT-5 por mais alguns meses

Vai demorar mais alguns meses para o ChatGPT estrear o LLM GPT-5 (ilustração: Vitor Pádua/Tecnoblog)

Resumo

OpenAI adiou o lançamento do GPT-5 para integrá-lo melhor ao ecossistema atual, segundo o CEO Sam Altman.
O novo modelo deve unificar LLMs anteriores e trazer recursos como voz integrada, Canvas e Deep Research.
Enquanto isso, os modelos de raciocínio o3 e o4-mini, voltados para programação, ciência e matemática, serão lançados nas próximas semanas.

A OpenAI vai adiar o lançamento do LLM GPT-5, modelo de IA generativa que será utilizado no ChatGPT. O adiamento do GPT-5 foi anunciado por Sam Altman, CEO da OpenAI, em uma publicação no X. Segundo Altman, o próximo LLM da empresa será “muito melhor do que pensado originalmente”.

Por que a OpenAI adiou o lançamento do GPT-5?

Segundo Sam Altman, um dos motivos para adiar o lançamento do GPT-5 por mais alguns meses foi a dificuldade em integrar de modo mais suave o LLM com o sistema existente. Altman ainda explica no tweet que a empresa espera ter capacidade suficiente para atender à demanda após o lançamento do GPT-5.

Sam Altman publicou no X que GPT-5 será adiado (imagem: Felipe Freitas/Tecnoblog)

O CEO da OpenAI diz que a empresa espera uma “demanda sem precedentes” com a estreia do novo LLM. A previsão da empresa faz sentido quando analisamos as declarações de Altman, outros membros da OpenAI e fontes anônimas de jornalistas. O CEO já revelou que o GPT-5 terá vários recursos, como voz integrada, uso do Canvas, busca, Deep Research e integrará todos os outros LLMs da empresa.

Essa integração do LLM funcionará assim: em vez de você selecionar qual modelo usar, a IA vai identificar pela complexidade do prompt qual o LLM ideal para entregar a resposta desejada. Para a OpenAI isso é ótimo, já que não precisará escolher uma versão cara do GPT para responder ao usuário quanto é 1+1.

O GPT-5 também terá diferentes níveis de inteligência — que podemos chamar de desempenho. Quem usa o ChatGPT gratuito terá acesso ao LLM com um nível padrão de inteligência. Assinantes do Plus usarão um GPT-5 mais inteligente, enquanto membros do Pro terão a versão ainda mais inteligente, com o máximo de capacidade do modelo.

LLMs o3 e o4-mini chegam em breve

No mesmo tweet em que informa o adiamento do GPT-5, Altman revela que os modelos o3 e o4-mini serão lançados nas próximas semanas. Esses LLM integram a família de modelos de raciocínio da OpenAI, voltados para tarefas de programação, ciência e matemática — além de mostrar a linha de raciocínio usada para chegar na resposta.

Com informações do TechCrunch
OpenAI adia lançamento do GPT-5 por mais alguns meses

OpenAI adia lançamento do GPT-5 por mais alguns meses
Fonte: Tecnoblog

Llama 4 é anunciado pela Meta com três tipos de LLMs diferentes

Llama 4 é anunciado pela Meta com três tipos de LLMs diferentes

Meta lança novos modelos da geração Llama 4, incluindo um LLM professor de IAs (ilustração: Vitor Pádua/Tecnoblog)

A Meta anunciou na última sexta-feira (5) novos LLM do Llama 4, sua atual geração de modelo para IAs. O Llama 4 ganhou três novos modelos, cada um dedicado a uma atuação específica. Os modelos são o Maverick, Scout e Behemoth — este ainda em fase de treinamento.

Quais as especificações dos novos Llama 4?

O Llama 4 Scout tem 17 bilhões de parâmetros, janela de contexto de 10 milhões e foi treinado com 16 especialistas. Este LLM demanda menos capacidade de processamento. Como explica a Meta, ele pode ser utilizado com uma GPU Nvidia H100, aceleradora para executar tarefas de IA. O Llama 4 Scout é voltado para empresas ou profissionais que realizam tarefas menos complexas.  

Quanto maior a quantidade de parâmetros, maior a capacidade do LLM de processar prompts e dados para entregar uma resposta mais precisa. Por isso o Llama 4 Scout se encaixa como um modelo mais básico — dado o seu padrão para uso corporativo.

Gráfico da Meta mostra diferenças e especificações dos novos modelos do Llama 4 (imagem: divulgação)

O Llama 4 Maverick possui os mesmos 17 bilhões de parâmetros do Scout, mas foi treinado com 128 especialistas. Este LLM já necessita de um servidor H100 para ser utilizado, demandando mais processamento e gasto energético. O Maverick, ao contrário do Scout, atende empresas de porte médio à grande, que realizam mais atividades com processamento de dados.

Esses dois LLMs são versões reduzidas do Llama 4 Behemoth, que ainda não está disponível para testes. O Behemoth possui 288 bilhões de parâmetros e é desenvolvido para a criação de modelos derivados. Este LLM poderá ser usado por empresas para treinar ou criar seus próprios modelos.

Segundo a Meta, o Llama 4 Behemoth superou o GPT-4.5, Claude Sonnet 3.7 e o Gemini 2.0 Pro em benchmarks focados em ciências e matemática, como o Math-500 e GPQA Diamond — este é um teste em IAs respondem a questões de nível universitário em áreas de ciências.

O Llama 4 Scout e Llama 4 Maverick podem ser baixados no próprio site do LLM ou no Hugging Face. A Meta AI com o Llama 4 pode ser testada nos produtos da Meta, como WhatsApp ou Instagram Direct.

Com informações de Meta (1 e 2)
Llama 4 é anunciado pela Meta com três tipos de LLMs diferentes

Llama 4 é anunciado pela Meta com três tipos de LLMs diferentes
Fonte: Tecnoblog

Europa anuncia OpenEuroLLM para brigar com EUA e China em IA

Europa anuncia OpenEuroLLM para brigar com EUA e China em IA

Europa anuncia OpenEuroLLM para brigar com EUA e China em IA (ilustração: Vitor Pádua/Tecnoblog)

Resumo

A União Europeia anunciou a OpenEuroLLM, uma iniciativa para desenvolver modelos avançados de inteligência artificial de código aberto.
Liderada por Peter Sarlin, da Silo AI, a aliança terá início em fevereiro de 2025, com financiamento da Comissão Europeia e a participação de mais de 20 instituições e empresas.
O projeto contará com um orçamento inicial de 52 milhões de euros (cerca de R$ 311 milhões), focando em infraestruturas digitais e IA.
A iniciativa surge como resposta ao avanço dos Estados Unidos e da China no setor de inteligência artificial.

A União Europeia não quer ficar para trás dos Estados Unidos e da China quando o assunto é inteligência artificial. Por isso, o bloco anunciou uma aliança para desenvolver LLMs avançados e com código aberto: a OpenEuroLLM.

O projeto apoiará ou contará com o apoio de startups, centros de pesquisa, instituições de ensino e organizações especializadas em computação de alto desempenho que tenham sede em países da União Europeia.

De acordo com o anúncio oficial, mais de 20 instituições de pesquisa e empresas da região já fazem parte da iniciativa, que terá a missão de construir uma “família base de modelos de larga escala de alto desempenho, multilíngues e de grande porte para serviços comerciais, industriais e públicos”.

A OpenEuroLLM será comandada por Peter Sarlin, cofundador de Silo AI, empresa com sede na Finlândia especializada em inteligência artificial, mas que foi adquirida pela AMD em julho de 2024 por US$ 665 milhões (R$ 3,86 bilhões, na conversão atual).

Por que a OpenEuroLLM foi criada?

Segundo a própria entidade, o projeto foi criado com o intuito de “melhorar a competitividade e a soberania digital da Europa”.

Não é um discurso raso. De um lado, a União Europeia vê organizações americanas, com destaque para a OpenAI, dominando a cena da inteligência artificial.

Como se não bastasse, os Estados Unidos anunciaram o Stargate Project logo após a posse de Donald Trump como presidente do país. A iniciativa investirá US$ 500 bilhões para deixar os Estados Unidos na vanguarda da IA.

De outro lado, a Europa vê a DeepSeek se destacando como uma força chinesa em IA. Ainda que essa plataforma esteja sob questionamentos a respeitos dos custos reduzidos e do desempenho melhorado que afirma ter, o projeto mostra que a China não está alheia a todo esse movimento.

Bandeiras da União Europeia (foto: Thijs ter Haar/Wikimedia Commons)

Oficialmente, a OpenEuroLLM iniciou suas atividades em 1º de fevereiro de 2025 com base em um financiamento concedido pela Comissão Europeia por meio do Programa Europa Digital.

Os LLMs a serem desenvolvidos na OpenEuroLLM deverão seguir a estrutura regulatória da Europa, bem como alguns preceitos estabelecidos pela Comissão Europeia, entre eles, a “diversidade linguística e cultural”, de modo que todo o continente possa ser beneficiado pelos projetos que saírem de lá.

Ao TNW, Peter Sarlin declarou:

Isso não é sobre criar um chatbot de propósito geral, mas sobre construir a infraestrutura digital e de IA para permitir que companhias europeias inovem em IA.

Peter Sarlin, líder da OpenEuroLLM

Ainda de acordo com Sarlin, a fase inicial do projeto contará com um orçamento de 52 milhões de euros (R$ 311 milhões). Fiquemos de olho.
Europa anuncia OpenEuroLLM para brigar com EUA e China em IA

Europa anuncia OpenEuroLLM para brigar com EUA e China em IA
Fonte: Tecnoblog

OpenAI anuncia Deep Research para ser seu analista de mercado

OpenAI anuncia Deep Research para ser seu analista de mercado

Segundo a OpenAI, o novo LLM desenvolvido para a ferramenta é mais um passo na busca pela inteligência artificial geral (imagem: Vitor Pádua/Tecnoblog)

Resumo

A OpenAI lançou o Deep Research, um agente de IA para análises complexas baseado no LLM o3.
Na prática, a ferramenta atua como um analista de mercado, processando rapidamente informações que levariam horas para um humano, a partir de prompts dos usuários.
Contudo, o Deep Research ainda está em fase de testes e não é totalmente confiável, com a própria OpenAI alertando que a IA pode não diferenciar rumores e informações precisas.

A OpenAI anunciou neste domingo (02/02) o Deep Research, novo agente de IA capaz de realizar buscas na internet para tarefas complexas. Apesar da funcionalidade, o produto não é um concorrente do Google ou uma nova versão do ChatGPT Search, ferramenta de pesquisa da OpenAI. O Deep Research está disponível para assinantes do ChatGPT Pro, mas será liberado em breve para os planos Plus e Team.

Como funciona o Deep Research?

No vídeo da sua demonstração, vemos que, entre as funções do Deep Research, está a de realizar análises de determinados assuntos após receber prompts dos usuários. Segundo a OpenAI, o Deep Research realiza em minutos tarefas que demorariam horas para serem feitas por pessoas. Este recurso utiliza o LLM o3 da própria empresa.

Deep Research pode levar até 30 minutos para gerar análise, mas aponta as fontes usadas (imagem: Felipe Freitas/Tecnoblog)

Por exemplo, se você quer uma análise da evolução da logística nos últimos anos, basta pedir que o Deep Research realize essa pesquisa. A IA pesquisa fontes online, usando páginas da web, PDFs e até imagens — o usuário também pode subir arquivos para complementar a pesquisa. Basicamente, o Deep Research funciona nesse cenário como um analista de mercado.

Para chegar no Deep Research, a OpenAI desenvolveu esse novo LLM o3, focado justamente na realização dessas tarefas de análise de dados e navegação em páginas da web. De acordo com a OpenAI, este LLM é mais um passo da empresa na busca pela inteligência artificial geral (AGI).

Deep Research não é 100% confiável

OpenAI diz que o Deep Research pode sofrer com alucinações (ilustração: Vitor Pádua/Tecnoblog)

Naturalmente, como ocorre com os resultados das respostas das inteligências artificiais, a análise gerada pela Deep Research não é completamente confiável. Na própria página do anúncio da ferramenta, a OpenAI destaca que ela pode alucinar ou gerar inferências erradas sobre o tópico desejado.

O Deep Research pode ter dificuldades em diferenciar rumores de informações precisas. Sendo uma ferramenta em estágio inicial, é natural existir problemas desse tipo. Contudo, a OpenAI afirma que os casos de alucinações e inferências erradas são menores do que os modelos no ChatGPT.

Por enquanto, os usuários do ChatGPT Pro podem usar 100 prompts do Deep Research por mês. A OpenAI reforça que seguirá aprimorando o recurso continuamente nos próximos meses.
OpenAI anuncia Deep Research para ser seu analista de mercado

OpenAI anuncia Deep Research para ser seu analista de mercado
Fonte: Tecnoblog

DeepSeek apresenta Janus-Pro-7B, novo gerador de imagens de IA

DeepSeek apresenta Janus-Pro-7B, novo gerador de imagens de IA

DeepSeek promete abalar mercado de IA novamente com novo LLM para geração de imagens (foto: Giovanni Santa Rosa/Tecnoblog)

A DeepSeek lançou nesta semana o Janus-Pro-7B, seu modelo de IA generativa de imagens. Segundo a empresa, com dados de benchmarkings, o desempenho da sua IA para imagens supera concorrentes como Dall-E 3 da OpenAI e Stable Diffusion da Stable AI. O Janus-Pro-7B é uma atualização do Janus, lançado pela DeepSeek no passado — e mostrando um grande salto de desempenho.

O modelo de imagem generativa da DeepSeek pode ser baixado no Hugging Face, uma espécie de GitHub para projetos de inteligência artificial e machine learning. É necessário ter um certo conhecimento de programação para rodar o Janus-Pro-7B, visto que ele não é disponibilizado em uma interface fácil de ser usada como DeepSeek, ChatGPT e Copilot.

DeepSeek mostrou comparitivo entre primeira versão do Janus e Janus-Pro-7B (imagem: divulgação)

Além de gerar imagens, o Janus-Pro-7B é capaz de analisar arquivos visuais. Essa funcionalidade é similar ao que faz o Gemini Live e o Google Lens, permitindo que você traduza um texto ou compreenda aquele placa com uma fonte de péssima legibilidade.

Como o Janus-Pro-7B foi treinado?

Segundo a Reuters, que teve acesso à parte da documentação técnica do Janus-Pro-7B, parte do treinamento do modelo usou 72 milhões de imagens sintéticas de alta qualidade. A equipe da DeepSeek então combinou a análise dessas fotos geradas por IA com dados reais.

A empresa destaca que esse método permite a criação de imagens mais realistas e mais ricas em detalhes.

O que é a DeepSeek?

A DeepSeek é uma empresa de inteligência artificial chinesa que está abalando o mercado dessa tecnologia. A empresa afirma que desenvolveu a sua IA generativa gastando menos de US$ 6 milhões (R$ 36 milhões). Esse valor é muito inferior aos US$ 100 milhões (R$ 600 milhões) captados pela OpenAI para desenvolver o LLM GPT-4.

LLM R1 da DeepSeek balançou as estruturas do mercado de IA e derrubou ações de empresas americanas (foto: Giovanni Santa Rosa/Tecnoblog)

O LLM usado pela DeepSeek é o R1, que teve seu código aberto. A empresa chinesa diz que o desempenho do modelo está no mesmo nível dos LLM da OpenAI e Anthropic (criadora do Claude). Porém, assim como as IAs continuam engatinhando (apesar dos avanços nos últimos anos), os sistemas de benchmarking não são padronizados, o que afeta a confiabilidade de testes — não é como pegar uma GPU e rodar o 3DMark.

Esses relatos de menor custo na fabricação fez cair as ações de diversas empresas americanas, principalmente da Nvidia. A fabricante é a maior fornecedora de placas aceleradoras para o desenvolvimento de IAs, o que a tornou uma das empresas mais valiosas do ramo.

Com a possibilidade de gerar LLMs mais baratos levantada pela DeepSeek, o mercado entendeu que a Nvidia pode não ter todo esse poderio no ramo de placas para IAs.

Com informações de Live Science e Reuters
DeepSeek apresenta Janus-Pro-7B, novo gerador de imagens de IA

DeepSeek apresenta Janus-Pro-7B, novo gerador de imagens de IA
Fonte: Tecnoblog

Waymo quer usar o Gemini na direção autônoma de seus robotaxis

Waymo quer usar o Gemini na direção autônoma de seus robotaxis

Waymo quer desenvolver novo sistema de direção autônoma usando o LLM Gemini (Imagem: Divulgação/Waymo)

A Waymo, serviço de táxi autônomo do Google, publicou um artigo no qual revela que usará o Gemini para uma nova tecnologia de direção autônoma. O Gemini é tanto o nome da IA generativa da big tech quanto do LLM, o motor dessas tecnologias. No caso, a empresa de robotáxi usará o LLM para o desenvolvimento do seu novo sistema de direção.

Por que essa decisão da Waymo é importante?

Com este anúncio, o Waymo sugere que as IAs generativas e seus LLMs podem ganhar uma nova função. Atualmente, o uso dessa tecnologia está associado a chatbots, respostas por email, geração de imagens, vídeos e aplicações profissionais — o próprio Gemini tem integrações ao Google Drive, assim como o Copilot no Microsoft 365.

O uso de uma IA generativa pode corrigir as limitações dos modelos atuais, baseados em algoritmos predefinidos, que são mais difíceis em se adaptar e lidar com novos cenários. Já os LLMs são capazes de aprender com o tempo e podem “decorar” parâmetros.

Uso de LLM de IAs generativas pode permitir que carros autônomos sejam mais ágeis em se adaptar a novos cenários de direção (Imagem: Vitor Pádua/Tecnoblog)

Obviamente, o LLM Gemini servirá como base e será adaptado para direção autônoma. Ainda assim, o fato de o Gemini ser generalista é visto como um ponto positivo. No artigo, a Waymo destaca que o LLM tem um “rico conhecimento de mundo” (como passar cola na pizza para grudar o queijo) e que o raciocínio em cadeia de conhecimento é superior aos algoritmos, já que busca imitar o raciocínio humano.

A ideia da Waymo é usar essas vantagens para criar o Modelo Multimodal de Ponta a Ponta para Direção Autônoma (EMMA em inglês). Segundo a empresa, os primeiros testes do EMMA foram positivos, demostrando uma “excelente capacidade” (aspas da Waymo) de prever trajetórias, detectar objetos e compreender a via.

A Waymo também destaca as falhas e limitações da tecnologia no momento, como a falta de integração com imagens 3D geradas pelo LiDAR e radares do veículo. Entretanto, a empresa não cita as alucinações de IA.

Ainda há um longo caminho para testes, desenvolvimentos e aprovação de órgãos competentes, mas já podemos imaginar alguns cenários futurísticos. Por exemplo, a EMMA decorando que em determinado local do trajeto há uma via rápida com saída de veículos lentos, o que a levaria a trocar de faixa para diminuir o risco de uma freada brusca.

Com informações: The Verge e Android Headlines
Waymo quer usar o Gemini na direção autônoma de seus robotaxis

Waymo quer usar o Gemini na direção autônoma de seus robotaxis
Fonte: Tecnoblog

Novo modelo de IA da OpenAI chega em dezembro, diz site

Novo modelo de IA da OpenAI chega em dezembro, diz site

OpenAI pode lançar um LLM mais potente em dezembro e abandonar a nomenclatura GPT nos modelos de IA (Imagem: Vitor Pádua / Tecnoblog)

A OpenAI pode lançar um novo modelo de IA, que seria altamente mais potente que o GPT-4, em dezembro. A informação foi apurada pelo The Verge em contato com uma fonte próxima do caso. O novo LLM, que pode se chamar Orion, não estrearia diretamente no ChatGPT, mas seria liberado para empresas parceiras criarem programas com ele antes de ser liberado para o público.

Em outros momentos, um funcionário da OpenAI chegou a comentar que o sucessor do GPT-4 teria até 100 vezes mais capacidade computacional. Vale lembrar que o GPT-4o é uma atualização do GPT-4, não uma nova geração. Já o GPT o1 é um LLM voltado para a resolução de problemas matemáticos.

Quem serão os primeiros a usar o Orion?

Microsoft deve estrear o Orion no Azure já no mesmo de novembro (Imagem: Vitor Pádua / Tecnoblog)

Segundo outra fonte ouvida pelo The Verge, a OpenAI fornecerá o Orion para que empresas criem seus produtos e recursos com o LLM. E sim, a Microsoft, maior investidora da OpenAI, será uma das primeiras a estrear o Orion. A fonte afirma que a big tech já trabalha em integrar o LLM no Azure já em novembro.

O treinamento do Orion, segundo apurou o site, terminou em setembro. Neste mesmo mês, Sam Altman, CEO da OpenAI, publicou uma mensagem nada misteriosa no X. Altman escreveu um “poema” no qual diz estar empolgado para ver as constelações de inverno ascenderem aos céus.

Bem, a constelação de Orion fica mais visível durante o mês de janeiro, inverno no hemisfério norte. Ainda que a fonte afirme que o lançamento do LLM será realizado em dezembro, a chegada em janeiro não seria nada fora da curva. Ou a estreia do Orion pode acontecer em dezembro nas empresas parceiras e em janeiro no ChatGPT.

Com informações: The Verge
Novo modelo de IA da OpenAI chega em dezembro, diz site

Novo modelo de IA da OpenAI chega em dezembro, diz site
Fonte: Tecnoblog