![](https://files.tecnoblog.net/wp-content/uploads/2023/06/capas-iasartboard-2-1060x596.png)
A empresa de serviços de internet Cloudflare lançou uma ferramenta para bloquear robôs que coletam textos e imagens de sites. Essas ferramentas são usadas para treinar modelos de inteligência artificial. Nas últimas semanas, empresas jornalísticas acusaram startups de IA de não respeitar o robots.txt, arquivo com instruções que deveriam impedir o acesso de crawlers e scrapers.
A ferramenta é gratuita e bloqueia automaticamente robôs de IA, utilizando a análise de tráfego no site. A Cloudflare diz que este tipo de ação deixa “impressões digitais”. Graças a elas, é possível identificar e bloquear os robôs, mesmo se eles tentarem simular o comportamento de um visitante humano.
![Ilustração da Cloudflare com dois robôs aspiradores de pó e um escudo entre eles](https://files.tecnoblog.net/wp-content/uploads/2024/07/cloudflare-bloqueio-ia-1060x597.png)
“Os consumidores não querem bots de IA visitando seus sites, especialmente aqueles que ficam de maneira desonesta”, diz a empresa. “Suspeitamos que algumas empresas de IA estão tentando burlar as regras para acessar conteúdo e vão tentar se adaptar para escapar da detecção de robôs.”
Empresas de IA estão usando conteúdo sem autorização
Atualmente, uma das opções para bloquear os scrapers e crawlers é colocar instruções em um arquivo robots.txt. Este método, porém, apenas sinaliza aos robôs que aquele site não deseja ser acessado, mas não impede a ação de ferramentas deste tipo.
Este problema ganhou evidência nas últimas semanas. Forbes e Com fio acusaram a Perplexity AI de não respeitar a sinalização contra robôs que foi colocado seus sites. O chatbot da startup reproduziu quase na íntegra reportagens exclusivas, sem dar os devidos créditos.
O problema pode ser ainda mais amplo. Segundo a empresa de licenciamento de conteúdo TollBit, muitos agentes de IA estão ignorando o padrão robots.txt. Atualmente, entre os 1.000 sites mais visitados da web, 26% bloquearam os robôs da OpenAI.
![Sede do New York Times (Imagem: Joe ShlabotnikSeguir/Flickr)](https://files.tecnoblog.net/wp-content/uploads/2021/03/2676866737_4695ddbcf6_k-e1616705232951-1060x596.jpg)
Antes disso, o jornal O jornal New York Times entrou com um processo contra a OpenAI, acusando a desenvolvedora do ChatGPT de não violação de direitos autorais ao uso de matéria da publicação no treinamento dos modelos de IA.
Enquanto o veredito não sai, a OpenAI tem acordos fechados de licenciamento de conteúdo com várias empresas jornalísticas, como Axel Springer, Vox Media e Associated Press.
Mesmo assim, vai ser difícil escapar da IA. A Visão geral da ferramenta AI, do Googleque cria respostas automáticas e as coloca no topo dos resultados da busca, não pode ser bloqueado de maneira independente. A única maneira é bloquear totalmente a indexação do Google, o que é um problema, já que o buscador é a principal fonte de tráfego de muitos sites.
Com informações: Cloudflare, TechCrunch