Category: Inteligência Artificial

iOS 18: Apple pode colocar IA para transcrição nos apps Gravador e Notas

iOS 18: Apple pode colocar IA para transcrição nos apps Gravador e Notas

iOS 18, nova versão do sistema operacional da Apple para o iPhone, será apresentado em junho (Imagem: Vitor Pádua / Tecnoblog)

A Apple estaria preparando um recurso com inteligência artificial para transcrever áudio em tempo real no Gravador e no Notas. A novidade deve ser lançada no iOS 18, que deve vir com muita IA embarcada, pelo que os rumores apontam.

O site AppleInsider falou com pessoas familiarizadas com o assunto e obteve esta informação. O novo recurso pode transformar o Gravador em um lugar para anotações rápidas, já que não seria mais necessário ouvir os áudios para retomar o conteúdo.

iOS 17, que estreou no iPhone 15, não trouxe muitas novidades envolvendo IA (Imagem: Thássius Veloso / Tecnoblog)

Já o app Notas, atualmente, não conta com recurso de gravação de áudio — esta seria mais uma nova ferramenta do iOS 18. Além de transcrições, ele também deve receber a opção de usar IA para gerar resumos do que foi dito.

IA estará em mais produtos da Apple ainda este ano

Enquanto OpenAI, Microsoft, Meta e Google apresentaram muitas ferramentas com inteligência artificial generativa ao longo dos últimos dois anos, a Apple adotou uma postura mais tímida no assunto. Isso, porém, está para mudar.

Tim Cook, CEO da empresa, falou sobre o assunto nas últimas duas conferências com investidores. Em fevereiro, ele disse que a Apple mostraria novidades “mais tarde, ainda este ano”, o que leva a crer que o iOS 18 (a ser apresentado em 10 de junho, na WWDC 2024) e o iPhone 16 (a ser lançado em setembro, sem data definida até o momento) devem trazer recursos do tipo.

Por enquanto, os rumores indicam algumas novas ferramentas que usariam inteligência artificial para resumir páginas no Safari e mensagens de texto com a ajuda da Siri, por exemplo. Além disso, a Apple estaria em negociações com diferentes empresas, como OpenAI e Google, para tarefas mais pesadas de processamento.

Na mais recente conferência, Cook disse acreditar no “poder transformador” da IA. Ele acrescentou que a integração entre produtos e o foco em privacidade serão os diferenciais da Apple. Isso pode indicar que a empresa vai tentar rodar nos próprios aparelhos o que for possível, sem depender da troca de informações com a nuvem.

Com informações: The Verge, AppleInsider
iOS 18: Apple pode colocar IA para transcrição nos apps Gravador e Notas

iOS 18: Apple pode colocar IA para transcrição nos apps Gravador e Notas
Fonte: Tecnoblog

OpenAI reclama de violação de direitos autorais no Reddit

OpenAI reclama de violação de direitos autorais no Reddit

OpenAI pediu que r/ChatGPT removesse seu logo, mas chegou a um acordo com moderadores do fórum (Imagem: Vitor Pádua / Tecnoblog)

A OpenAI fez uma denúncia de violação de direitos autorais para o Reddit, pedindo que subfórum r/ChatGPT parasse de usar o logo da empresa. Os moderadores da comunidade divulgaram a mensagem enviada pelo Reddit, na qual eles tinham até o dia 16 de maio para trocar a imagem de perfil do subreddit (nome dado para os fóruns dentro da plataforma). Nesta sexta-feira, os moderadores divulgaram que chegaram a um acordo com a OpenAI.

O caso chamou a atenção da mídia e dos próprios usuários do r/ChatGPT pelo histórico judicial da OpenAI. A empresa é alvo de diversos processos e de críticas por ter usado conteúdo protegido por direitos autorais para treinar a sua inteligência artificial. No subreddit, usuários fizeram piadas e críticas com essa reclamação de violação de direitos autorais.

OpenAI reclama, mas libera uso do logo

Mensagem do Reddit para moderadores avisa que houve uma reclamação de direitos autorais pela imagem de perfil do fórum (Imagem: HOLUPREDICTIONS/Reddit)

A mensagem do Reddit para os moderadores do r/ChatGPT foi enviada na quinta-feira (9). Mas já nesta sexta-feira (10), os mods do fórum revelaram que a OpenAI autorizou o uso do logo. A única exigência da empresa é que a descrição do subreddit destaque que a imagem é usada com autorização e que todos os direitos da marca pertencem à OpenAI.

A condição da empresa é estranha, visto que antes mesmo do pedido de remoção da imagem o sub já informava que não tinha nenhuma relação com a OpenAI.

OpenAI autoriza uso de seu logo, mas desde que o r/ChatGPT informe que ela é a detentora dos direitos da imagem (Imagem: Reprodução/Reddit)

Críticas de usuários pelo pedido

O pedido de troca de imagem do fórum causou uma reação negativa dos usuários do r/ChatGPT. Alguns deles criticaram que a OpenAI, alvo de processos e acusações de treinar a sua IA com conteúdo protegido, estava agora reclamando de uso indevido de sua marca.

Na publicação do aviso, um usuário comentou que não seria inteligente a OpenAI começar a aplicar pedidos de proteção de seus direitos autorais. Outro disse que a empresa “realmente se importa com direitos autorais, quando são os dela”.

Autor de Game of Thrones processa a OpenAI

George R.R. Martin, autor de As Crônicas de Gelo e Fogo, adaptada para a TV em Game of Thrones, é um dos membros do sindicato de autores americanos (Authors Guild) que está como requerente em uma ação contra a OpenAI. O sindicato acusa a empresa de violar direitos autorais para treinar o ChatGPT.

O jornal New York Times também está processando a OpenAI. O veículo, assim como o Authors Guild, afirma que a empresa utilizou usou conteúdo protegido sob direitos autorais no desenvolvimento da sua IA.

As reclamações e críticas não ficam só na parte de texto. Artistas visuais também acusam a OpenAI de usar suas artes para treinar o Dall-E, IA generativa de imagens. Já o Google deu um aviso para a rival: usar seus vídeos para treinar a Sora viola a política de uso do YouTube.

Com informações: 404 Media e The Verge
OpenAI reclama de violação de direitos autorais no Reddit

OpenAI reclama de violação de direitos autorais no Reddit
Fonte: Tecnoblog

Autores comemoram e dubladores criticam audiolivros narrados por IA

Autores comemoram e dubladores criticam audiolivros narrados por IA

Custos de gravação de audiolivros são muito altos, argumentam autores independentes (Imagem: Dan Lefebvre / Unsplash)

A plataforma Audible, da Amazon, já oferece com mais de 40 mil audiolivros narrados com “voz virtual”. O número foi atingido seis meses após o lançamento de uma ferramenta de inteligência artificial para escritores autopublicados, que não contam com editoras e usam o serviço Kindle Direct Publishing. A alternativa divide opiniões: autores gostam, dubladores criticam e leitores (ou seriam ouvintes?) mostram preocupação.

O programa de voz virtual do Kindle Direct Publishing (KDP) foi anunciado em novembro de 2023. Ele está disponível apenas nos Estados Unidos para escritores convidados. Os autores podem escolher um preço entre US$ 3,99 e US$ 14,99, ficando com 40% da renda. Geralmente, os custos para transformar um título em audiolivro são proibitivamente altos para quem não conta com o suporte de uma editora, chegando a milhares de dólares nos Estados Unidos.

Audible está disponível no Brasil por R$ 19,99 mensais (Imagem: Reprodução / Tecnoblog)

Isso trouxe uma possibilidade de renda extra para os escritores autopublicados. Driblar este gasto e colocar o título em uma nova mídia pode ampliar os ganhos dos autores.

Além disso, o processo é rápido: o escritor Hassan Osman disse, em seu blog, que levou apenas 52 minutos para transformar um livro de 48 páginas em áudio. Depois disso, em apenas 72 horas ele já estava disponível na Amazon.

Leitores/ouvintes e narradores, porém, mostram desconforto com a novidade. Os consumidores reclamam que a Amazon não tem nenhuma opção para separar os livros narrados por IA dos gravados por humanos. No X (antigo Twitter), o narrador Roman de Ocampo disse que a tecnologia ainda não roubou todos os empregos, mas está tentando.

Editoras querem traduzir audiolivros usando IA

A jornalista Ashley Carman, da Bloomberg, diz que suas fontes da indústria editorial não parecem tão convencidas de que livros narrados por IA serão o futuro. Ela comenta que obras mais pessoais ou autobiográficas podem não ficar tão boas ao serem narradas com vozes virtuais, sem a emoção humana envolvida.

Há também casos em que o próprio narrador é um diferencial para o audiolivro. Orgulho e preconceito, clássico de Jane Austen, conta com uma versão em português gravada pela atriz Denise Fraga, por exemplo.

Um uso da IA que parece ser aceito, porém, é na hora de passar o conteúdo para outros idiomas. O grupo HarperCollins tem um acordo com a ElevenLabs para traduzir audiolivros em inglês com o auxílio da tecnologia.

Não seria o primeiro caso do tipo: o Spotify já começou a clonar vozes e traduzir podcasts, e você já deve ter se deparado com algum vídeo dublado automaticamente no YouTube.

Com informações: Bloomberg
Autores comemoram e dubladores criticam audiolivros narrados por IA

Autores comemoram e dubladores criticam audiolivros narrados por IA
Fonte: Tecnoblog

ChatGPT pode lançar buscador em breve para brigar com Google

ChatGPT pode lançar buscador em breve para brigar com Google

ChatGPT pode lançar buscador em breve para brigar com Google (imagem: Vitor Pádua/Tecnoblog)

Resumo

O ChatGPT pode lançar um mecanismo de busca na web, com um possível anúncio marcado para 9 de maio, após rumores fortalecidos pela descoberta de certificados SSL para o domínio search.chatgpt.com.
A especulação sobre a nova funcionalidade aumentou após publicações nas redes sociais, incluindo a menção ao domínio e à data pelo apresentador Pete Huang, conhecido por manter um podcast sobre IA.
O novo buscador do ChatGPT poderia ser uma colaboração com a Microsoft, aproveitando a integração anterior do ChatGPT ao Bing.
A proposta do buscador do ChatGPT seria oferecer conteúdo generativo como parte primária dos resultados de pesquisa, possivelmente complementando com resultados do Bing, uma abordagem que se assemelha a experimentos atuais do Google com sua Search Generative Experience.

O ChatGPT já era uma preocupação para o Google, mas pode se tornar um problema ainda maior. Isso porque existe uma forte suspeita de que a ferramenta de inteligência artificial (IA) generativa irá ganhar um mecanismo de busca na web em breve. Um anúncio oficial poderá ser feito já no próximo dia 9.

Os rumores ganharam força depois que um usuário do Reddit descobriu que certificados SSL foram criados recentemente para o domínio search.chatgpt.com. Se você acessar essa URL agora, verá apenas os dizeres “not found” (“não encontrado”). De todo modo, a mensagem deixa claro que o endereço é real.

Um segundo sinal vem do perfil de Pete Huang no X/Twitter. Pete comanda o podcast The Neuron, focado em IA, e publicou uma mensagem na rede social em que menciona o endereço search.chatgpt.com e a data 9 de maio.

Não há mais detalhes, mas é possível que alguma fonte do podcaster na OpenAI (organização responsável pelo ChatGPT, relembrando) tenha revelado essa como uma data de lançamento para o buscador.

Uma possível parceria com a Microsoft

Ainda que esteja longe de ser totalmente confiável, o ChatGPT gera conteúdos muito convincentes. Mas isso, por si só, não torna a OpenAI apta a criar um mecanismo de busca capaz de enfrentar o Google. Não em pouco tempo. A solução para isso pode estar em uma parceria com a Microsoft.

Microsoft Bing com ChatGPT (Imagem: reprodução/Owen Yin)

Em fevereiro, o site The Information declarou que a OpenAI está desenvolvendo um serviço de busca na web em parceria com o Bing.

Faz sentido. O ChatGPT foi integrado ao Bing há meses, mas atua como uma ferramenta secundária. Isso ajuda explicar o fato de a presença dessa IA generativa não ter feito a base de usuários do buscador da Microsoft aumentar de modo expressivo.

Já o buscador do ChatGPT poderia inverter essa dinâmica, priorizando conteúdo generativo nas buscas dos usuários e apresentando resultados do Bing como complemento.

Nesse sentido, o Android Authority sugere que o buscador do ChatGPT poderia fornecer resultados resumidos por inteligência artificial como prioridade. Seria uma abordagem semelhante à que o Google vem testando nos resultados de sua Search Generative Experience (SGE).

É esperar para ver.
ChatGPT pode lançar buscador em breve para brigar com Google

ChatGPT pode lançar buscador em breve para brigar com Google
Fonte: Tecnoblog

Medo do Google pode ter levado Microsoft a investir na OpenAI

Medo do Google pode ter levado Microsoft a investir na OpenAI

Em emails divulgados em processo contra o Google, Nadella cita preocupação de estar muito atrás do Google em IA (Imagem: Vitor Pádua / Tecnoblog)

Em email revelado nesta semana mostra que, possivelmente, o medo do Google fez a Microsoft investir na OpenAI, criadora do ChatGPT. Kevin Scott, chefe de tecnologia (CTO) da Microsoft, destacou em conversa com Satya Nadella, CEO da big tech, e Bill Gates como a rival estava avançado em inteligência artificial, além de destacar o projeto da OpenAI.

O email foi mostrado durante o processo antitruste contra o Google e possui uma enorme parte censurada Contudo, o título foi revelado: “reflexões sobre a OpenAI”, em tradução livre (“Thoughts on OpenAI, no original). Para bom entendedor meia palavra basta, só que a resposta de Nadella e o timing do investimento da Microsoft quase forma uma palavra completa.

No texto, enviado no dia 12 de junho de 2019, Scott explica seu ponto de vista sobre o desempenho do Google (com Deep Mind e Google Brain) e da OpenAI em processamento de linguagem natural (NLP). O CTO relata que a Microsoft tem dificuldades técnicas em replicar o desempenho da concorrente, lembrando que demorou seis meses para replicar o BERT, modelo do Google, enquanto a rival já estava estudando meios de escalonar a tecnologia e ampliar o treinamento.

Satya Nadella encaminha em cópia para a chefe de finanças (CFO) Amy Hood, dizendo que o email “explica por que eu quero que nós façamos isso e também por que nós teremos que garantir que a turma de infra execute”.

O “isso” que Nadella quer fazer não foi revelado — deve estar na parte censurada. Porém, um mês depois dessa troca de emails, a Microsoft anunciou um investimento de 1 US$ bilhão na OpenAI. O objetivo do aporte era ajudar no desenvolvimento de uma IA geral.

Foto divulgada pela Microsoft em julho de 2019 mostra Sam Altman, fundador da OpenAI, com Satya Nadella, semanas depois da troca de emails (Imagem: Divulgação/Microsoft)

Investimento da Microsoft rende frutos antes do Gemini

Tem um ditado que o mundo não gira, mas capota. Ao lermos os conteúdos dos emails, provavelmente esse foi o primeiro pensamento que veio à sua cabeça. Pouco depois do boom do lançamento do ChatGPT e do Bing Chat (agora Copilot), o Google acelerou seus projetos de IA e trouxe o Bard (hoje Gemini), para rivalizar com a OpenAI e Microsoft.

No início da corrida entre Gemini e ChatGPT, o Google estava muito atrás, com relatos de que seus funcionários acharam o lançamento da IA generativa e de busca muito apressada — além de outras críticas. Agora, o cenário está melhor para o Google, ainda que atrás da Microsoft. A empresa de Bill Gates está adiantada na oferta de serviços do Copilot integrado a seus outros produtos, como os programas do pacote Office (Word, Excel, PowerPoint) e o Windows 11.

Contudo, o LLM do Google é utilizado no Galaxy AI, IA da Samsung integrada aos smartphones Galaxys topo de linha, e será usado nos celulares da OnePlus e Oppo. A Big G está próxima de fechar um contrato com a Apple para licenciar o Gemini no iOS — só que a OpenAI também está dentro dessa disputa.

Com informações: Business Insider e The Verge
Medo do Google pode ter levado Microsoft a investir na OpenAI

Medo do Google pode ter levado Microsoft a investir na OpenAI
Fonte: Tecnoblog

Apple pode colocar IA no Safari para driblar propagandas

Apple pode colocar IA no Safari para driblar propagandas

Safari deve ganhar recursos de IA para bloqueio de anúncios (Imagem: Brett Jordan/Flickr)

Um dos principais rumores das próximas atualizações da Apple são os recursos de inteligência artificial, incluindo um novo módulo integrado no Safari. A nova versão do navegador para iPhone, Mac e iPad deve utilizar IA para permitir bloqueios mais avançados, incluindo publicidade online.

Um desses recursos é o Web Eraser — uma espécie de “borracha” para apagar determinados elementos de um site. Os usuários teriam a possibilidade de remover com facilidade imagens, textos, banners publicitários e até mesmo seções inteiras de uma página.

Uma das vantagens é que o Web Eraser conseguiria salvar as configurações do usuário e se aplicaria para futuras sessões da mesma página da web. Sendo assim, não seria necessário acionar o recurso a cada nova aba ou janela aberta de determinado site que você já acionou a ferramenta. Também é possível reverter as alterações a qualquer momento, caso queira.

Safari no iPhone (tmagem: Lucas Braga/Tecnoblog)

Como apontado pelo AppleInsider, já existe uma ferramenta similar ao Web Eraser para ocultar publicidade. O recurso está disponível no 1Blocker, que dá ao usuário a opção de clicar em um anúncio para escondê-lo.

Com foco em privacidade, o Safari já tem um bloqueio nativo para rastreadores de conteúdo, com bloqueio de determinadas plataformas. Assinantes do iCloud+ também têm acesso ao recurso de Retransmissão Privada, uma espécie de VPN que dificulta a identificação do usuário. Nem sempre funciona bem, no entanto.

IA no novo Safari deve trazer mais recursos

O Web Eraser não deve ser o único recurso de inteligência artificial a ser incorporado no Safari. O navegador da Apple também deve ter uma função de busca inteligente, que permitiria resumir páginas.

O recurso utiliza o modelo de linguagem grande (LLM), já utilizado por ferramentas como o ChatGPT, Google Bard e Microsoft Copilot. Com a atualização, a Apple pode se equiparar a alguns navegadores concorrentes que possuem IA embarcada, como o Microsoft Edge, Opera e Arc.

O novo Safari com inteligência artificial deve chegar ao iOS, iPadOS e macOS até o final do ano. Mais detalhes sobre a atualização devem ser divulgados oficialmente na WWDC 24, evento para desenvolvedores que ocorre no dia 10 de junho. Antes disso, a Apple deve anunciar um novo iPad na próxima terça-feira, 7 de maio.
Apple pode colocar IA no Safari para driblar propagandas

Apple pode colocar IA no Safari para driblar propagandas
Fonte: Tecnoblog

Google testa IA que ajuda usuário a praticar pronúncia em inglês

Google testa IA que ajuda usuário a praticar pronúncia em inglês

Google testa IA que ajuda usuário a praticar pronuncia em inglês (imagem: Vitor Pádua/Tecnoblog)

O Google Labs é uma plataforma que permite a qualquer pessoa interessada testar ferramentas experimentais da empresa, especialmente no âmbito da inteligência artificial (IA). Um dos experimentos mais recentes nessa área visa ajudar estudantes de inglês a praticar a pronúncia de frases no idioma.

Chamada de Speaking Practice, a novidade foi relatada pelo perfil howfxr, no X/Twitter. As capturas de tela divulgadas ali mostram a IA do Google iniciando uma conversação com a seguinte frase: “I’m sad because I lost my favorite sweater at the park yesterday” (“estou triste por perdi meu suéter favorito no parque ontem”).

Coube ao usuário dar sequência à conversa com uma frase que inclui as palavras love (amor), sad (triste) e sorry (sinto muito). A resposta deve ser falada, não digitada. A pronúncia é então avaliada pela IA do Google, que dá orientações para melhorá-la, se necessário.

Trata-se de uma abordagem interessante porque ela condiciona o usuário a elaborar uma sentença completa com palavras específicas. É diferente de outras ferramentas do tipo, que simplesmente pedem para o usuário repetir frases predefinidas e apontam se a pronúncia foi ruim, regular ou boa.

IA experimental do Google para treino de inglês (Capturas de tela: howfxr/X/Twitter)

O que o Google ganha com isso?

As frases que o Google gera nas conversações do Speaking Practice são criadas por inteligência artificial generativa. É de se presumir então que os exercícios ajudam a validar ou até a treinar o mecanismo.

É possível que a ferramenta também ajude o Google a refinar a compreensão de sotaques ou de variações linguísticas regionais. Isso pode ser usado para aumentar a capacidade do Google Assistente de entender comandos em inglês dados por falantes não nativos do idioma, por exemplo.

Por enquanto, disponível só em alguns países

No momento, o Speaking Practice está disponível no Google Labs para usuários na Argentina, Colômbia, Índia, Indonésia, México e Venezuela. Quem estiver em um desses países precisa apenas acessar o endereço labs.google e procurar pelo experimento correspondente.

Não há informação sobre quando ou se o Speaking Practice será liberado no Brasil. Mas, dada a utilidade que a ferramenta pode ter, esperamos que isso aconteça em breve.
Google testa IA que ajuda usuário a praticar pronúncia em inglês

Google testa IA que ajuda usuário a praticar pronúncia em inglês
Fonte: Tecnoblog

ChatGPT linkará artigos do Financial Times em suas respostas

ChatGPT linkará artigos do Financial Times em suas respostas

OpenAI e jornal Financial Times firmam parceria para treinamento do ChatGPT e créditos nas respostas da IA (Imagem: Vitor Pádua / Tecnoblog)

O Financial Times, jornal focado em economia, anunciou nesta segunda-feira (29) uma parceria com a OpenAI. Esse acordo entre as duas empresas permitirá que o ChatGPT responda aos usuários linkando artigos do jornal. Além disso, a IA generativa usará os conteúdos publicados pelo Financial Times para seu treinamento.

No comunicado, o jornal não divulgou os valores envolvidos nesse acordo. Contudo, dado o histórico das outras parcerias entre OpenAI e agências de notícia, é especulado que a empresa de IA fez um pagamento único pelo histórico de publicações.

Já os artigos atuais e futuros serão licenciados anualmente. Essa parte de licenciamento foi explicado pelo Financial Times, mas sem revelar a duração do acordo. O comunicado não informa quando o ChatGPT começará a divulgar os links do Financial Times em suas respostas. Nos testes feitos pelo Tecnoblog, não apareceu nenhum crédito para o site nos prompts usados.

OpenAI firmou acordo similar com outras empresas

OpenAI fez acordo parecido com outros veículos de notícias (Imagem: Vitor Pádua / Tecnoblog)

Em dezembro de 2023, a OpenAI firmou um acordo parecido com a Axel Springer (dona do Business Insider e Politico), Bild e Welt. A parceria também permitirá que a empresa de IA use os conteúdos desses veículos para treinamento do ChatGPT, além de dar créditos para os artigos nas respostas.

A ideia dessas parcerias é que o ChatGPT aprenda a partir de fontes mais confiáveis e com mais autoridade sobre determinados assuntos. Afinal, o modelo de linguagem é treinado a partir de conteúdos da internet, podendo usar como fonte sites de baixa qualidade.

Em fevereiro, a Microsoft e o site Semafor assinaram uma parceria para usar IA na criação de resumos de notícias. A inteligência artificial criará um análise das notícias, contextualizando os fatos e explicando eventos anteriores. Já a agência de notícias Associated Press tem um acordo que permite usar seus conteúdos para treinar o ChatGPT.

Parcerias contrastam com reação de outros jornais

O acordo da OpenAI com alguns veículos contrasta com os processos abertos pelo New York Times, The Intercept e outros jornais. Essas empresas acusam a OpenAI de violação de direitos autorais, usando seus artigos para treinar o ChatGPT.

Com informações: The Verge, The Financial Times e Reuters
ChatGPT linkará artigos do Financial Times em suas respostas

ChatGPT linkará artigos do Financial Times em suas respostas
Fonte: Tecnoblog

Adobe revela bizarra ferramenta IA de upscaling de vídeos

Adobe revela bizarra ferramenta IA de upscaling de vídeos

Modelo de IA para upscaling da Adobe mostra resultados em alta qualidade e com alto realismo (Imagem: Reprodução/Tecnoblog)

A Adobe divulgou um novo modelo de IA para upscaling de vídeos, o VideoGigaGAN. Esta aplicação ainda está na fase de desenvolvimento e foi apresentada pela empresa em um artigo de prévia de pesquisa, publicado no dia 18 de abril. O VideoGigaGAN promete melhorar em até oito vezes a qualidade dos vídeos enviados no prompt.

O GAN do nome do modelo significa Generative Adversial Networks (Redes Adversariais Gerativas em tradução direta), uma tecnologia usada para fotos e outras imagens estáticas. Sua aplicação em vídeo trazia alguns elementos que tremiam, além de falhas comum em vídeos gerados por IA — conhecidas como “alucinações de IA”.

Entre os autores do artigo estão dois membros da Universidade de Maryland, mas todos os outros são pesquisadores da própria Adobe. O paper pode ser acessado pelo Arxiv.

VideoGigaGAN mostra resultados altamente realistas

Os vídeos de demonstrações divulgados pela Adobe mostrando resultados altamente realistas. Além disso, na página da novidade no GitHub, o upscaling realmente consegue “recuperar” vídeos em qualidades baixíssimas, entregando uma maior resolução.

Nos exemplos da Adobe, os vídeos do prompt (aqueles que precisam ser melhorados) possuem 128 x 128 pixels. O VideoGigaGAN produz então vídeos com até 1024 x 1024 pixels de resolução — valores “próximos” a qualidade HD, mas que não estão no padrão definido para qualidade HD. Os vídeos usados como base aparecem com a sigla “GT” (ground truth) nos comparativos.

A Adobe divulgou também os testes do VideoGigaGAN para produzir vídeos de 512 x 512 pixels com prompts genéricos — vídeos que não passaram pelo processo de redução da qualidade como nos casos com GTs. Em ambas as resoluções, os resultados parecem bem naturais. No futuro próximo, além das dúvidas sobre imagens e vídeos gerados por IA, teremos o mistério de vídeos que passaram por upscaling de IA.

Recentemente, a Microsoft divulgou o desenvolvimento de um “deepfake” para não depender de webcams em videochamadas. Nas demonstrações da big tech, você consegue ver defeitos, como dentes crescendo enquanto o avatar fala. E por mais que o VideoGigaGAN seja uma tecnologia de upscaling e não geração, é comum que IAs de upscaling alucinem na melhoria de imagem.

Adobe Firefly 3 lançado na quarta-feira

Barco em uma praia; imagem gerada no site do Firefly, que ganhou uma nova versão na quarta-feira (Imagem: Emerson Alecrim/Tecnoblog)

Ainda no tópico IA e Adobe, a empresa anunciou nesta quarta-feira (23) o lançamento do Firefly Image 3.  O Firefly é a ferramenta de IA generativa de imagens da Adobe, que pode ser usada no Photoshop não só para a criação de imagem, mas também para auxiliar na edição de uma arte.

Com informações: The Verge
Adobe revela bizarra ferramenta IA de upscaling de vídeos

Adobe revela bizarra ferramenta IA de upscaling de vídeos
Fonte: Tecnoblog

Phi-3: Microsoft anuncia seu menor modelo de inteligência artificial

Phi-3: Microsoft anuncia seu menor modelo de inteligência artificial

Modelo Phi-3 Mini conta com 3,8 bilhões de parâmetros (Ilustração: Vitor Pádua/Tecnoblog)

A Microsoft se mantém na corrida pela inteligência artificial. Nesta terça-feira (dia 23/04), a empresa anunciou a linha de modelos de IA Phi-3, os menores já criados pela companhia. Essa característica deve se traduzir em maior eficiência quando forem usados em aplicações do dia a dia.

São três modelos distintos dentro da geração Microsoft Phi-3:

Phi-3 Mini com 3,8 bilhões de parâmetros

Phi-3 Small com 7,0 bilhões de parâmetros

Phi-3 Medium com 14,0 bilhões de parâmetros

Não custa lembrar: os “parâmetros“ fazem referência à capacidade de um modelo compreender instruções complexas, de acordo com o The Verge.

Por ora, a empresa liberou somente a versão Mini para desenvolvedores. É possível baixá-la no Azure AI Studio, no Hugging Face e no Ollama.

A disputa das LLMs

Eu participei de uma entrevista coletiva com o vice-presidente de GenAI, Sebastien Bubeck. Ele defendeu a proposta de “democratizar o acesso a LLMs com excelente capacidade”. O Phi-3 Mini está disponível para a comunidade de graça, assim como fez a Meta com o Llama-3 no dia 18/04.

De acordo com o executivo, o Phi-3 Mini é o primeiro modelo deste tamanho a suportar janela de contexto de 128 mil tokens.

Gigantes da tecnologia estão em busca do desenvolvimento de LLMs que tenham bom custo-benefício. Em outras palavras, que possam rodar bem em dispositivos do dia a dia, como smartphones e tablets. Numa extremidade estaria o Mistral Tiny, bem como o Phi-3 Mini. Os LLMs Llama-2 e Llama-3 seriam considerados intermediários. Na outra extremidade estariam o GPT-4 e o Claude-3 Opus.

Diretamente no smartphone

Sebastien Bubeck é especialista em GenAI (Foto: Divulgação/Microsoft)

Durante a reunião com jornalistas, Bubeck reforçou que o Phi-3 é o único modelo capaz de funcionar diretamente no telefone, sem necessidade de conexão com a internet. No entanto, ele me respondeu que nenhuma fabricante de smartphones é parceira da Microsoft neste anúncio. Teremos de aguardar para ver a adesão do mercado.

Hoje em dia, é notável a integração da Samsung com o Google. A empresa oferece a suíte Galaxy AI com alguns recursos desenvolvidos internamente e outros que dependem do gigante da internet. Já a Motorola está reforçando a aposta no Motorola AI, suíte de inteligência artificial presente no Edge 50, também com aplicações adquiridas de terceiros e dependentes da nuvem.

O Phi-3 foi treinado e otimizado para inglês. A Microsoft reconheceu que as capacidades dele em outros idiomas “são limitadas”. Por isso, a empresa incentiva que os consumidores utilizem o serviço Microsoft Translator para traduzir os prompts e as respostas.

E por fim: ao contrário do Gemini e outros modelos do mercado, o Phi-3 não é multimodal. Ele depende basicamente de texto escrito.
Phi-3: Microsoft anuncia seu menor modelo de inteligência artificial

Phi-3: Microsoft anuncia seu menor modelo de inteligência artificial
Fonte: Tecnoblog