Les entreprises d’IA continueraient d’aspirer les sites web malgré les protocoles de blocage

Tl;dr

Perplexity, une société d’IA, est en difficulté suite à des accusations de plagiat.
Les entreprises d’IA se passeraient du protocole robot.txt pour récupérer du contenu.
OpenAI et Anthropic, respecteraient également des directives “do not crawl”.
Le PDG de Perplexity défend son entreprise en expliquant que le protocole n’est pas juridique.

Perplexity face aux accusations de plagiat

Perplexity, une entreprise de renom dans le domaine l’Intelligence Artificielle, qui se définit comme un “moteur de recherche AI gratuit”, est dans l’œil du cyclone. Cette société est actuellement sous le feu des critiques après que Forbes l’a accusée de s’être approprié un article pour le republier sur différents sites web. Des affirmations soutenues par Wired, qui a révélé que “Perplexity ignorerait le protocole d’exclusion des robots, ou robots.txt, et balayerait son site web ainsi que d’autres publications de Condé Nast.”

Le Protocole d’Exclusion des Robots bafoué par les entreprises d’IA

Selon un article de Reuters, ce comportement n’est pas exclusif à Perplexity, d’autres entreprises d’IA semblent également contourner les fichiers robots.txt et scraper les sites web pour recueillir du contenu à utiliser ensuite dans l’entrainement de leurs technologies. Celui-ci a cité une lettre adressée aux éditeurs par TollBit, une start-up qui les met en relation avec des entreprises d’IA, les alertant que “des agents d’IA de plusieurs sources (pas seulement une entreprise) choisissent de contourner le protocole robots.txt pour récupérer du contenu à partir de sites.”

OpenAI et Anthropic également dans la ligne de mire

TollBit, dans sa lettre, n’a nommé aucune société, mais Business Insider a révélé que OpenAI et Anthropic, créateurs des chatbots ChatGPT et Claude respectivement, contourneraient également les signaux de robots.txt. Ces entreprises avaient affirmé précédemment qu’elles respectaient les directives “ne pas explorer” insérées dans leurs fichiers robots.txt par les sites web.

La défense du PDG de Perplexity

En dépit de ces controverses, Aravind Srinivas, le PDG de Perplexity, défend ardemment son entreprise. Dans une interview à Fast Company, il insiste sur le fait que son entreprise “n’ignore pas le protocole d’exclusion des robots et ne ment pas à ce sujet.” Cependant, cela n’exclut pas qu’elle puisse bénéficier de systèmes qui ignorent ce protocole : d’après Srinivas, Perplexity utiliserait des web crawlers tiers en sus du sien. Interrogé sur un arrêt potentiel du scraping du site de Wired, il a répondu par une énigmatique “c’est compliqué.” Il a également souligné que le Protocole d’Exclusion des Robots “n’est pas un cadre juridique” suggérant ainsi l’éventuelle nécessité d’établir une nouvelle forme de relation entre les éditeurs et les entreprises comme la sienne.

Lire la source