Categories: Technology

Cloudflare vai bloquear robôs que coletam conteúdo de sites para treinar IA – Tecnoblog

Forbes e Wired acusaram empresas de IA de não violação de direitos autorais (Imagem: Vitor Pádua / Tecnoblog)

A empresa de serviços de internet Cloudflare lançou uma ferramenta para bloquear robôs que coletam textos e imagens de sites. Essas ferramentas são usadas para treinar modelos de inteligência artificial. Nas últimas semanas, empresas jornalísticas acusaram startups de IA de não respeitar o robots.txt, arquivo com instruções que deveriam impedir o acesso de crawlers e scrapers.

A ferramenta é gratuita e bloqueia automaticamente robôs de IA, utilizando a análise de tráfego no site. A Cloudflare diz que este tipo de ação deixa “impressões digitais”. Graças a elas, é possível identificar e bloquear os robôs, mesmo se eles tentarem simular o comportamento de um visitante humano.

Cloudflare promete bloquear até mesmo robôs que se passam por humanos (Imagem: Divulgação / Cloudflare)

“Os consumidores não querem bots de IA visitando seus sites, especialmente aqueles que ficam de maneira desonesta”, diz a empresa. “Suspeitamos que algumas empresas de IA estão tentando burlar as regras para acessar conteúdo e vão tentar se adaptar para escapar da detecção de robôs.”

Empresas de IA estão usando conteúdo sem autorização

Atualmente, uma das opções para bloquear os scrapers e crawlers é colocar instruções em um arquivo robots.txt. Este método, porém, apenas sinaliza aos robôs que aquele site não deseja ser acessado, mas não impede a ação de ferramentas deste tipo.

Este problema ganhou evidência nas últimas semanas. Forbes e Com fio acusaram a Perplexity AI de não respeitar a sinalização contra robôs que foi colocado seus sites. O chatbot da startup reproduziu quase na íntegra reportagens exclusivas, sem dar os devidos créditos.

O problema pode ser ainda mais amplo. Segundo a empresa de licenciamento de conteúdo TollBit, muitos agentes de IA estão ignorando o padrão robots.txt. Atualmente, entre os 1.000 sites mais visitados da web, 26% bloquearam os robôs da OpenAI.

The New York Times briga com a OpenAI na justiça dos EUA (Imagem: Joe ShlabotnikSeguir / Flickr)

Antes disso, o jornal O jornal New York Times entrou com um processo contra a OpenAI, acusando a desenvolvedora do ChatGPT de não violação de direitos autorais ao uso de matéria da publicação no treinamento dos modelos de IA.

Enquanto o veredito não sai, a OpenAI tem acordos fechados de licenciamento de conteúdo com várias empresas jornalísticas, como Axel Springer, Vox Media e Associated Press.

Mesmo assim, vai ser difícil escapar da IA. A Visão geral da ferramenta AI, do Googleque cria respostas automáticas e as coloca no topo dos resultados da busca, não pode ser bloqueado de maneira independente. A única maneira é bloquear totalmente a indexação do Google, o que é um problema, já que o buscador é a principal fonte de tráfego de muitos sites.

Com informações: Cloudflare, TechCrunch

admin

Recent Posts

Organizadores e patrocinadores do Future Frames estão transformando vidas de cineastas

No Festival de Cinema de Karlovy Vary esta semana, o programa Future Frames, que atua…

2 mins ago

O PlayStation 4 ajudou a salvar a AMD da falência – Tecnoblog

O PlayStation 4 ajudou a salvar a AMD da falência (imagem: Leon Terra/Flickr) Saiba mais…

9 mins ago

NASA captura imagem de asteroide com lua própria

NASA captura imagem de asteroide com lua própria - CanaltechCanaltech - Notícias de Tecnologia, Ciência…

19 mins ago

Lisa Nandy nomeada nova ministra da cultura do Reino Unido

Lisa Nandy foi nomeada a nova ministra da cultura do Reino Unido ou, para dar…

22 mins ago

A Apple foi a 2ª empresa mais usada em golpes de email nos últimos 4 anos, segundo pesquisa

Entre as principais táticas empregadas por criminosos para viabilizar golpes de phishingo envio de e-mails…

32 mins ago

Clive Owen diz que David Bowie “me mostrou que você pode criar mundos”

Clive Owen não esqueceu suas raízes. Crescendo em uma família da classe trabalhadora em Coventry…

33 mins ago