Gouvernement
PEReN – Pôle d’Expertise de la Régulation Numérique
L’expertise de la science des données au service de la régulation numérique
La percée de l’IA générative a mis au jour de nouveaux enjeux autour de la collecte automatisée des contenus de sites web notamment de presse. À la demande du ministère de la Culture, le PEReN publie un état des lieux des protocoles d’opt-out, ou réservation de droits, travail réalisé courant 2024 pour sa direction générale des médias et des industries culturelles (DGMIC).
La multiplication des systèmes d’intelligence artificielle générative soulève des enjeux en termes d’innovation et de droits des éditeurs de presse, leurs contenus étant largement utilisés par ces systèmes, dans un rapport qui ne fait pas toujours consensus entre ces acteurs. Si ces systèmes peuvent exploiter l’ensemble des contenus accessibles en ligne, la réglementation européenne permet toutefois aux ayants droit d’exercer leur droit de réserve – ou opt-out, autrement dit de s’opposer à l’utilisation de leur contenu.
Dans le cadre de son programme de travail 2024, le PEReN avait notamment conduit un état des lieux de ces protocoles d’opt-out à la demande du ministère de la Culture, qui a souhaité aujourd’hui cette publication. Il offre un aperçu :
Il existe un cadre technique minimal qui permet aux éditeurs de sites de déclarer quelles parties de leurs publications peuvent être protégées des robots de collecte de données grâce à des protocoles d’opt-out comme robots.txt. Ce dernier, de loin le plus largement utilisé présente quelques limitations : d’une part il n’est pas toujours adapté (manque de granularité ou tout simplement mauvaise configuration par certains sites), d’autre part il repose sur un système de confiance, dans lequel le robot s’auto déclare et doit ensuite respecter de lui-même les consignes indiquées par le site qu’il visite sans que celui-ci puisse toujours le vérifier objectivement.
Ces limites peuvent éroder la confiance entre certains acteurs, alors que la bonne appropriation de ces technologies de réservation d’une part, et de respect des consignes de collecte d’autre part, pourrait permettre d’apporter à tous les acteurs une plus grande transparence et une objectivation des enjeux, comme préalable à la recherche d’un équilibre entre valorisation des données et contenus et innovation dans un internet qui reste ouvert.