Gouvernement
PEReN – Pôle d’Expertise de la Régulation Numérique
L’expertise de la science des données au service de la régulation numérique
C’est dans ce cadre d’intervention que le PEReN élabore son programme de travail en étroite concertation avec les administrations partenaires et organise son activité en projets, selon un fonctionnement agile.
En 2024, s’attachant toujours plus à jouer un rôle d’articulation et de coordination, le PEReN a confirmé les grands axes dégagés les années précédentes :Avec des projets d’ampleur croissante et capitalisant sur ses réalisations précédentes, le PEReN a contribué à de nombreux sujets d’actualité des pouvoirs publics : protection des mineurs et vérification de l’âge en ligne, interopérabilité de services en ligne, détection de contenus artificiels sur les réseaux sociaux, développement de méthodologies d’évaluation de l’IA, études liées à la publicité en ligne, fonctionnement des versions mobiles de plateformes…
Accompagnement technique des services de la Commission européenne dans le développement d'outils de segmentation et de classification de vidéos issues de réseau social et de conduite de tests statistiques.
En collaboration avec l'Arcom, et dans le cadre de l’application de l’article 40 (accès aux données des plateformes pour la recherche) du Digital Services Act, configuration d’un agrégateur de ressources, données et outils utiles à la communauté académique, la société civile et les pouvoirs publics.
Accompagnement technique de l'Arcom dans le recensement des acteurs entrant dans le champ du Digital Services Act (services d’hébergement dont plateformes en ligne, services de simple transport, services de mise en cache, moteurs de recherche) et susceptibles de relever de la compétence de la France.
Pour le compte de la DGCCRF, réalisation d’un état des lieux de l'exploitabilité automatisée des registres publicitaires des grandes plateformes internet (art. 39 du DSA) pour la détection de publicités frauduleuses.
Accompagnement technique des services de la Défenseure des Droits concernant, via son réseau européen dans le domaine de la non-discrimination, Equinet, qui est représenté au sein du comité technique de normalisation CEN/CLC JTC 21, concernant le processus de standardisation pour la mise en œuvre du règlement européen sur l'intelligence artificielle, plus particulièrement sur les aspects de transparence et de supervision humaine des systèmes d'IA dits à hauts risques.
Travaux en lien avec ceux conduits par le Conseil supérieur de la propriété littéraire et artistique sur la mise en œuvre du règlement IA, et particulièrement de l'article 53 imposant aux fournisseurs d'IA de fournir un « résumé suffisamment détaillé » à destination du public, conformément à un modèle fourni par le Bureau de l'IA.
Anticipant le Data Act, la loi visant à Sécuriser et Réguler l’Espace Numérique (loi SREN) a confié à l'Arcep des compétences de spécification des règles d'interopérabilité, de portabilité et d'ouverture d'interfaces pour les services cloud. Le PEReN a réalisé des tests concrets de migration de machines virtuelles, un sous-ensemble simple de services cloud, entre différents fournisseurs de services.
Dans le cadre de l’édition 2023 du bilan de l’ARPE sur les indicateurs d’activité des travailleurs des plateformes de livraison et de VTC, contribution à l’analyse des données et publication du code informatique correspondant (code open source).
Sur demande de la CNIL, développement d'un outil permettant de vérifier l'adoption de l'outil Topics de la Privacy Sandbox par une sélection de sites webs et premières mesures.
Soutien technique aux travaux du Service de l'Économie Numérique de la DGE sur l'économie de l'attention, qui a par ailleurs donné lieu à la publication d’un "Éclairage sur…" de vulgarisation sur les questions techniques posées par l'hypothèse d'un dégroupage de différentes fonctionnalités des réseaux sociaux (étude disponible ici).
Pour le compte de l’ANSSI et en lien avec la DGE, analyse du comportement des systèmes xPay présents sur les smartphones, en tant qu’exemples de portefeuilles électroniques bancaires pouvant donner des indications utiles à la préparation de la mise en œuvre du règlement eIDASv2.
Accompagnement du Secrétariat général des affaires européennes dans le cadre des discussions sur le projet de règlement européen et analyse des technologies de détection de contenus pédopornographiques côté client (client-side scanning ou CSS).
À la demande de la Direction Générale des Médias et des Industries Culturelles (DGMIC), réalisation d’une synthèse des techniques de détection de contenus pédopornographiques (existants et nouveaux) déployées par de grandes plateformes.
Accompagnement technique dans le cadre de l’élaboration du référentiel de l’Arcom déterminant les exigences techniques minimales applicables aux systèmes de vérification de l'âge pour la protection des mineurs contre la pornographie en ligne.
En soutien à la DGMIC, réalisation d’un panorama des solutions de vérification de l'âge actuellement mises en œuvre par différentes grandes plateformes accessibles aux mineurs.
Accompagnement de l’ARPE sur les questions algorithmiques plus particulièrement liées aux déconnexions des travailleurs, à la reconnaissance faciale, et au « management algorithmique » dans le cadre de son rapport bisannuel sur les conditions d’exercice de l’activité des travailleurs indépendants.
Dans la continuité de travaux expérimentaux conduits en 2022 et 2023, le PEReN a ainsi prototypé un outil permettant de vérifier, à l’échelle, de manière automatisée et statistiquement tangible des préconisations d’itinéraires sur application mobile et leur éventuel effet sur l’usage des différents types de réseaux routiers.
En 2023, le PEReN a développé une boite à outils pour la mise en œuvre de processus de découverte causale dans l’audit algorithmique. En 2024, ces ressources, incluant le code informatique produit, ont été mises à disposition d'agents de la CNIL qui ont été formés dans l’hypothèse d’utiliser ces outils sur des cas réels.
À la demande de l’Inspection Générale des Affaires Culturelles (IGAC), le PEReN a apporté un appui technique à l’évaluation de l’impact de la part individuelle du pass Culture sur l’intensification et la diversification des pratiques culturelles des jeunes. Dans la continuité de précédents travaux sur les systèmes de recommandation et l’évaluation de leur diversité, le PEReN a audité les systèmes algorithmiques du pass Culture (fonctionnement, utilisation des données, entraînement et performances des modèles) et formulé des préconisations.
En 2023, le PEReN a développé une boite à outils pour la mise en œuvre de processus de découverte causale dans l’audit algorithmique. En 2024, ces ressources, incluant le code informatique produit, ont été mises à disposition d'agents de la CNIL qui ont été formés dans l’hypothèse d’utiliser ces outils sur des cas réels.
À la demande de l’Inspection Générale des Affaires Culturelles (IGAC), le PEReN a apporté un appui technique à l’évaluation de l’impact de la part individuelle du pass Culture sur l’intensification et la diversification des pratiques culturelles des jeunes. Dans la continuité de précédents travaux sur les systèmes de recommandation et l’évaluation de leur diversité, le PEReN a audité les systèmes algorithmiques du pass Culture (fonctionnement, utilisation des données, entraînement et performances des modèles) et formulé des préconisations.
En appui aux travaux de la CNIL sur les risques associés à la génération d'hypertrucages (usurpation d’identité, escroquerie, porno divulgation, désinformation…), exploration de la facilité avec laquelle ces hypertrucages peuvent être réalisés (étude disponible ici)
Dans le cadre de sa participation à l’Institut national pour l’évaluation et la sécurité de l’IA (INESIA), le PEReN a reproduit des tests menés par des homologues internationaux et portant sur l’évaluation de la performance de grands modèles de langue. Ces travaux ont permis de comparer les méthodologies employées par chacun sur une même problématique d’évaluation de l’IA.
Pour les besoins de l’Autorité de Régulation des Transports, développement d'une plateforme permettant l’interrogation et la collecte des solutions de déplacement proposées par des calculateurs d’itinéraires mobiles, via l’instrumentation de téléphones ou d'émulateurs.
Pour les besoins de l’Arcom, développement de modules de moissonnage de données relatives aux œuvres mises en avant sur les interfaces de télévision de rattrapage et de vidéo à la demande.
Dans la suite de travaux avec la CNIL, enrichissement et perfectionnement d’un outil de collecte et traitement automatisé de bannière de consentement : ajout de fonctionnalités d'anonymisation des captures d'écran et d’émulation de navigateur mobile, constitution d’une importante base de données des typologies de bannière.
Mise à disposition de tous les partenaires ayant des besoins de scraping, et justifiant du cadre juridique adéquat, d’une interface de programmation en ligne (API web) de collecte automatisée de données publiquement accessibles. En 2024, les évolutions de cette interface ont poursuivi deux objectifs principaux : restituer un résultat de collecte automatique aussi proche que possible de celui d'une collecte manuelle et permettre à l’utilisateur de minimiser la quantité de données récoltées.
Développement pour l'Autorité des Marchés Financiers (AMF) d'un prototype expérimental de suivi de signes d'activités anormales sur des forums en ligne, pour détecter à la fois des pics d'activité ou la présence de profils particuliers susceptibles d’être artificiels.
En appui aux missions de l'Autorité Nationale des Jeux (ANJ), qui peut réaliser un blocage des sites proposant de façon illégale des jeux d’argent et de hasard, mise au point d’un outil de veille plus automatisée des sites illégaux et de détection de sites miroirs de sites déjà interdits.
Appui à la CNIL par une collecte, automatique et reproductible, de données d’enchères publicitaires menées par les annonceurs, en vue d’analyser l'impact du parcours web d’un utilisateur sur le niveau de celles-ci.
À la demande de l’Arcep et de l’Arcom, élaboration et mise en œuvre d’un protocole de tests permettant de mesurer l’impact environnemental de la consommation de vidéo en ligne selon différents codecs et terminaux. La conduite des tests s’est appuyée sur des outils d’automatisation et programmatique (code open source des outils : instrumentation du wattmètre ; instrumentation des smartphone & ordinateurs utilisés ; génération des graphes de résultat de l’étude)
Au travers d’une bibliographie académique, réalisation d’un état de l'art (scientifique et technique) des méthodes de détection de contenu généré, en particulier à partir des modèles génératifs de textes et d’images. Cette revue s’est intéressée aux questions de mesure de l'artificialité d'un contenu et aux solutions existantes de watermarking (tests de l'efficacité et de la détection de ce marquage).
Analyse de l'état de l'art des risques d'empoisonnement de données des bases d'entrainement ou de réentrainement des systèmes d’IA générative et plus spécifiquement des LLM, ainsi que des défenses possibles.
Exploration des productions scientifiques sur les questions de désapprentissage d'informations dans les systèmes d'IA, technique consistant à faire en sorte qu'un modèle de machine learning oublie certains éléments qui lui ont été "appris", sans perte trop importante de performance.
Conduit en partenariat avec l'Arcom, le projet a visé à approcher une définition de la mesure du pluralisme des opinions et des courants de pensée, à travers la réalisation d'une revue de littérature scientifique, ainsi qu'à en proposer une première méthodologie expérimentale sur une plateforme de partage de contenus.
Lancement d’un projet de recherche visant à étudier la manière dont s’opère, ici dans un environnement Android, la collecte de données à des fins publicitaires via les SDKs (Software Development Kit), composants logiciels embarqués dans des applications mobiles.
Ce projet vise à développer un outil pour la détection des discours haineux en français. En s'appuyant sur des collaborations avec des chercheuses et en évaluant des grands modèles de langage (LLM) open source, le projet cherche à pallier le manque de données annotées en français. L'objectif est de créer un outil accessible pour la détection des discours haineux.
Animation de rencontres périodiques ayant pour objectif de favoriser les échanges entre administrations en charge de la régulation des plateformes numériques et le monde de la recherche. Lors de ces rencontres, un chercheur ou un expert est invité à présenter ses travaux sur des thématiques en lien avec les activités du PEReN.
Publications trimestrielles dans le cadre la collection « Éclairage sur… » qui propose, dans un esprit de vulgarisation, des éléments d’analyse techniques sur des thèmes liés à la régulation des plateformes numériques (numéros parus disponibles ici).
Nouvelle rubrique de ce site, « PEReN Lab » vise à partager, au travers d’articles tech’ façon blog, l’expertise à l’état de l’art du Pôle sur des technologies déployées dans le cadre de ses projets, et le cas échéant le code source développé. (Articles parus disponibles ici)
Publication en open source, dans un espace dédié, des codes de services applicatifs et outils mis en production.
Conduite du hackathon « Digital Services (h)Acked », co-organisé avec la Commission européenne (DG Connect et ECAT) à Bruxelles en février 2024. Au moment de la pleine entrée en vigueur du règlement sur les services numériques (DSA), cette compétition avait pour but d’offrir en open-source des instruments innovants pour faciliter l’étude approfondie des algorithmes influençant notre quotidien, de nos habitudes d’achat aux interactions sociales.
Dans le cadre de la préparation du Sommet pour l’action sur l’IA (Février 2025), le PEReN s'est associé avec VIGINUM pour construire une interface standardisée d’évaluation des performances et de la robustesse de modèles de détection de contenus artificiels. Le principe de l’outil ? Réunir une série de détecteurs à l'état de l'art via un outil permettant l'ajout simplifié de nouveaux modèles afin de permettre un parangonnage de ces détecteurs sur des contenus proches de ceux trouvés sur les réseaux sociaux et explorer ainsi leur efficacité et complémentarité.
État des lieux sur le fonctionnement et les enjeux des robots explorant et collectant les données des sites web : explicitation des robots d'exploration, enjeu de ces collectes pour les systèmes d'IA et l’ouverture d’internet, protocole d'exclusion.
À la suite de la publication de l’Éclairage sur…no 7 – Open source et IA : des synergies à repenser – qui explorait notamment les formats de licences et leur adéquation aux besoins des acteurs, le PEReN a conçu et publié une interface graphique de comparaison des degrés d’ouverture de certains modèles d’IA générative au regard de la définition inédite de l’open source par l’OSI (Open Source Initiative). Ce comparateur interactif permet ainsi de déterminer quels modèles sont compatibles avec ses cas d’usage ou sa philosophie en configurant les critères selon ses préférences. Le nombre de modèles considérable ne permet pas l’exhaustivité. L’outil concerne donc une sélection de modèles répandus ou associés à des licences particulières (lien vers le comparateur ; Éclairage sur…no 7 disponible ici)