Category: The New York Times

OpenAI contesta ordem judicial para entregar 20 milhões de conversas do ChatGPT

OpenAI contesta ordem judicial para entregar 20 milhões de conversas do ChatGPT

OpenAI enfrenta decisão judicial para entregar milhões de conversas (ilustração: Vitor Pádua/Tecnoblog)

Resumo

OpenAI tenta reverter uma ordem judicial que exige a entrega de 20 milhões de logs de conversas anonimizadas do ChatGPT.
A ordem judicial afirma que a privacidade será protegida por desidentificação exaustiva e outras salvaguardas.
O processo original acusa a OpenAI de usar indevidamente artigos jornalísticos para treinar o ChatGPT.

A OpenAI está tentando reverter judicialmente uma ordem que a obriga a entregar 20 milhões de logs de conversas anonimizadas do ChatGPT. A empresa entrou com o pedido ontem (12/11), argumentando que a entrega dos dados viola a privacidade dos usuários.

No pedido feito ao tribunal, a OpenAI afirma que “99,99%” das transcrições, solicitadas pelo New York Times em um processo sobre direitos autorais, não têm relação com o caso. A empresa alertou que a ordem afeta qualquer pessoa no mundo que usou o ChatGPT nos últimos três anos, que agora “deve enfrentar a possibilidade de que suas conversas pessoais sejam entregues ao Times”.

Provas de reprodução ilegal de conteúdo

ChatGPT estaria usando matérias de veículos de imprensa sem pagar (imagem: reprodução)

O processo original acusa a OpenAI de usar indevidamente milhões de artigos de veículos de imprensa para treinar os modelos que alimentam o ChatGPT. Vale lembrar que o NYT não se opõe completamente ao uso do conteúdo para treinamento de IA — desde que sejam pagos para isso, como no acordo fechado com a Amazon.

Neste caso, os veículos argumentam que os 20 milhões de logs de chat são necessários para:

Determinar se o ChatGPT está, de fato, reproduzindo conteúdo protegido por direitos autorais;

Rebater a alegação da OpenAI de que os jornais “hackearam” o chatbot para fabricar evidências.

Um porta-voz do NYT discorda sobre a privacidade dos usuários estar em risco, e afirma que o post no blog da OpenAI sobre o caso engana os usuários “propositalmente” e “omite os fatos”.

Segundo ele, a ordem judicial exige que a própria OpenAI forneça uma amostra de chats “anonimizados pela própria OpenAI”, protegidos por uma ordem legal.

O que a Justiça decidiu?

A ordem original foi emitida pela juíza Ona Wang. A magistrada afirmou, em decisão, que a privacidade dos usuários estaria protegida pela “desidentificação exaustiva” que a OpenAI realizaria nos dados, além de outras salvaguardas.

O prazo estipulado pela juíza para que a OpenAI entregue as transcrições termina nesta sexta-feira (14/11). No Brasil, a companhia enfrenta um processo parecido, movido pela Folha de S.Paulo em agosto deste ano.
OpenAI contesta ordem judicial para entregar 20 milhões de conversas do ChatGPT

OpenAI contesta ordem judicial para entregar 20 milhões de conversas do ChatGPT
Fonte: Tecnoblog

New York Times fecha acordo com Amazon para licenciar conteúdo em IA

New York Times fecha acordo com Amazon para licenciar conteúdo em IA

New York Times enxerga o acordo como valorização das produções da empresa (foto: Joe ShlabotnikSeguir/Flickr)

Resumo

O New York Times fechou um acordo com a Amazon para licenciar conteúdo para treinamento de modelos de IA.
A Amazon exibirá materiais do jornal em produtos como a assistente virtual Alexa, incluindo links diretos para as produções originais do NYT.
O acordo acontece em meio a um processo movido pelo NYT contra OpenAI e Microsoft, acusadas de uso ilegal de artigos e violação de direitos autorais.

O New York Times anunciou nesta quinta-feira (29/05) um acordo com a Amazon que autoriza o uso de seu conteúdo para o treinamento de modelos de IA. Em troca, a empresa de Jeff Bezos incorporará reportagens, receitas e matérias esportivas do jornal em seus produtos.

A parceria entre as duas empresas ocorre dois anos após o veículo de imprensa processar a OpenAI e a Microsoft por suposta violação de direitos autorais. O NYT alega que milhões de seus artigos foram usados ilegalmente e sem compensação nos chatbots.

Como a Amazon usará o conteúdo do jornal?

Alexa deve ser um dos canais usados para promover conteúdo do NYT (foto: Thássius Veloso/Tecnoblog)

Segundo o comunicado conjunto, o acordo visa tornar as produções originais do New York Times mais acessíveis aos clientes, enquanto a Amazon licenciará esse conteúdo para treinar seus próprios modelos de IA.

A estratégia inclui a exibição de trechos de material do Times e das editorias de culinária (NYT Cooking) e esportes (The Athletic) em produtos como a assistente virtual Alexa — que ganhou uma nova versão com inteligência artificial em abril, o Alexa+ — com links diretos para as produções do jornal.

No anúncio, as duas empresas destacaram um “compromisso compartilhado de servir aos clientes com notícias globais e perspectivas dentro dos produtos de IA da Amazon”.

Em um memorando interno, a CEO da New York Times Company, Meredith Kopit Levien, alinhou a nova parceria à postura institucional do jornal, que processa a OpenAI por uso indevido de seu conteúdo. Segundo Meredith, o acordo com a Amazon “é consistente com nosso princípio de longa data de que o jornalismo de alta qualidade vale a pena ser pago”.

Empresas de IA ampliam parcerias com veículos de imprensa

O acordo do New York Times é mais um entre conglomerados de mídia e empresas de inteligência artificial. Desde 2023, quando a Associated Press firmou parceria com a OpenAI, gigantes como Microsoft e Google, além de startups como a Mistral AI, passaram a licenciar conteúdo jornalístico para treinar seus modelos.

Na outra ponta, veículos como The Wall Street Journal, The Guardian, Financial Times, Reuters e Vogue aceitaram o uso de seus materiais em troca de presença ativa no ChatGPT, Copilot e Gemini.

No mês passado, o Washington Post — também de propriedade de Jeff Bezos — fechou uma “parceria estratégica” com a OpenAI para incluir seu conteúdo nas respostas do ChatGPT.

Com informações do New York Times e The Verge
New York Times fecha acordo com Amazon para licenciar conteúdo em IA

New York Times fecha acordo com Amazon para licenciar conteúdo em IA
Fonte: Tecnoblog

Amazon, CNN, New York Times e mais sites bloqueiam robô do ChatGPT

Amazon, CNN, New York Times e mais sites bloqueiam robô do ChatGPT

O ChatGPT é capaz de responder inúmeras perguntas com uma precisão razoável, já que foi treinado com grandes quantidades de texto, como livros, artigos e também sites. Estes últimos, no entanto, parecem bem preocupados. Levantamentos mostram que mais de 15 entre os 100 sites mais acessados bloquearam o GPTBot, robô da OpenAI responsável por coletar conteúdo. Nessa lista, estão Amazon, New York Times, CNN e outros.

ChatGPT, da OpenAI (Imagem: Vitor Pádua / Tecnoblog)

Os dados são de uma análise da Originality.ai, empresa especializada em conferir se um conteúdo foi gerado por inteligência artificial ou plagiado.

Entre os 100 sites mais acessados da internet, pelo menos 15 já bloquearam o robô. Entre os 1000 mais acessados, mais de 70 tomaram esta mesma medida.

Entre os mais de 1000 sites que estão bloqueando o GPTBot, estão nomes famosos, como:

Amazon

The New York Times

CNN

Wikihow

Shutterstock

Quora

Bloomberg

Scribd

Reuters

Ikea

Airbnb

Coursera

ChatGPT e outras IAs são acusadas de violar copyright

Bloquear o robô da OpenAI é uma forma de impedir o uso de conteúdo protegido por direitos autorais.

“Propriedade intelectual é a força vital dos nossos negócios, e precisamos proteger os direitos autorais do nosso conteúdo”, declarou uma porta-voz da agência de notícias Reuters à reportagem do jornal The Guardian.

Já o New York Times atualizou os termos de serviço para incluir um item que proíbe a raspagem do conteúdo para treinamento e desenvolvimento de inteligências artificiais.

Este é um tema em debate desde que o ChatGPT e outras ferramentas de inteligência artificial generativa foram lançadas.

O banco de imagens Getty Images, por exemplo, processou os criadores do Stable Diffusion por treinar a IA com fotografias protegidas por copyright. Algumas das criações da ferramenta mostram até mesmo a marca d’água da Getty.

Escritores tomaram caminho parecido e processaram a OpenAI, enquanto uma ação coletiva foi movida contra Microsoft, GitHub e OpenAI por desrespeitar licenças de atribuição de códigos abertos usados no treinamento das ferramentas.

Sites também bloqueiam crawler de arquivo público

O GPTBot é o “crawler” da OpenAI. Este nome é dado a robôs que “rastejam” pela web indexando e coletando informações. Google e Bing, por exemplo, têm os seus, que catalogam as páginas da internet para mostrar resultados de buscas.

A ideia da OpenAI é coletar informações para treinar o modelo de linguagem em larga escala que faz o ChatGPT funcionar.

O GPTBot foi anunciado no começo de agosto de 2023. A OpenAI também disponibilizou informações sobre como os sites poderiam impedir que ele coletasse conteúdo: basta remover a permissão no arquivo robots.txt ou bloquear o IP.

Alguns (mas não todos) sites da lista também bloquearam o CCBot, crawler da organização sem fins lucrativos Common Crawl, cujo objetivo é criar arquivos públicos, para qualquer um acessar.

Parte dos dados usados no treinamento do ChatGPT — e também dos modelos do Google e de outras empresas — vem da Common Crawl.

Com informações: Business Insider, The Guardian, Search Engine Land
Amazon, CNN, New York Times e mais sites bloqueiam robô do ChatGPT

Amazon, CNN, New York Times e mais sites bloqueiam robô do ChatGPT
Fonte: Tecnoblog