Détecter des contenus artificiels sur les réseaux sociaux : un outil pour savoir à quels détecteurs se fier

Les contenus artificiels en ligne foisonnent et la capacité à les détecter est aujourd’hui un enjeu majeur pour garantir une confiance dans l’IA et dans l’intégrité de l’information. Mais la tâche est ardue ! Le PEReN et Viginum se sont attelés à évaluer la performance et la robustesse aux transformations typiques observées sur les réseaux sociaux d’une série de modèles de détection de contenus générés artificiellement. Gros plan sur l’architecture logicielle open-source développée.

Accéder au code source de l'outil

L’enjeu : interroger les détecteurs à l’état de l’art à bon escient

L’IA générative permet de créer des contenus textes, vidéos et audios réalistes de manière intensive conduisant à leur prolifération, souvent sans marquage notamment sur les réseaux sociaux. La capacité de chacun à les détecter peut devenir par conséquent un enjeu.

Si aujourd’hui de nombreuses méthodes de marquage de contenus (watermarking) permettent d’indiquer leur caractère artificiel ou authentique, ces méthodes sont actuellement insuffisamment répandues ou robustes pour être considérées comme une solution¹. À l’instar de C2PA (Coalition for Content Provenance and Authenticity), des initiatives visant à certifier les sources et à suivre les modifications apportées à des contenus multimédias par la mise en place de normes techniques ont également vu le jour.

La communauté scientifique s’est ainsi également penchée sur le développement de détecteurs de contenus générés artificiellement. Si ces détecteurs peuvent être très performants sur des données similaires à celles fournies lors de leur entraînement, leurs capacités se dégradent si les contenus testés s’éloignent de ces caractéristiques. Ainsi, des détecteurs peuvent être spécifiques à un type de contenus (hypertruquages, articles de presse…), ou à une architecture donnée (modèles de diffusion, réseaux antagonistes génératifs…).

De plus, les contenus en ligne, notamment sur les réseaux sociaux, présentent des caractéristiques différentes des jeux de données académiques sur lesquels ces modèles ont pu être entraînés ou testés. Par exemple les images et les vidéos subissent souvent une série de transformations lors de leur publication ou re-partage (compression, flou, saturation des couleurs), de même, les textes publiés peuvent être rédigés dans des styles particuliers (choix du lexique, longueur des messages). De fait, la performance des détecteurs sur des contenus réels en fonction de ces différentes caractéristiques est mal connue.

Face au foisonnement de contenus artificiels en ligne, la difficulté de déterminer quelle méthode d’identification est fiable pour un cas d’espèce, peut faciliter non seulement la diffusion de fausses informations, mais engendre potentiellement une perte de confiance généralisée dans le domaine de l’information, donnant lieu à des phénomènes tels que le liar’s dividend, qui consiste à considérer une information réelle comme générée par une IA (First Independent International AI Safety Report, Janvier 2025).

Le défi est donc posé : comment savoir à quel détecteur se fier en fonction du contenu testé ? Pour y répondre, le PEReN et Viginum ont développé les briques logicielles d’une interface standardisée open-source et à l’état de l’art permettant :

d’agréger au sein d’un outil unique plusieurs, voire de nombreux détecteurs de contenus artificiels (aujourd’hui textes et images), existants ou à venir ;
d’évaluer rapidement et uniformément les performances de ces détecteurs, par exemple sur un éventail de contenus représentant ceux qui peuvent être trouvés et transformés sur des réseaux sociaux. Cette caractérisation permettra de déterminer, selon les contenus à tester, quels sont les détecteurs les plus pertinents à utiliser et ainsi éventuellement de gagner en performance et en efficacité.

Ainsi décrit, ce projet d’infrastructure, suppose un prérequis de taille : disposer de jeux de données standardisés représentatifs des contenus publiés sur les réseaux sociaux.

L’approche du PEReN et de Viginum se distingue à deux titres :

un accent porté sur la caractérisation de la performance de détecteurs sur une très large gamme de contenus allant au-delà des contenus sur lesquels les modèles ont été testés par leurs auteurs. Cela confère à l’outil une portée opérationnelle tout en s’appuyant sur des résultats de recherche récents.
son caractère ouvert, collaboratif et modulable pour, d’une part, faciliter l’intégration de nouveaux détecteurs par la communauté scientifique et maintenir ainsi l’outil à l’état de l’art dans un domaine de recherche en constante évolution, et, d’autre part, permettre son utilisation pour de nombreuses applications, y compris en local sans dépendre de services tiers.

Des détecteurs en réseau pour explorer leurs performances sur des images et des textes

Une interface standardisée et modulable

Dans une approche modulaire et pour permettre une interaction uniforme avec de multiples détecteurs, l’outil développé repose sur 3 briques logicielles pour :

la constitution de jeux de données à partir de jeux académiques et de données synthétiques générées par nos soins avec une variété de transformations réalistes ;
l’assemblage des détecteurs dont les codes informatiques sont réutilisés tels qu’ils ont été produits par les chercheurs qui les ont conçus et présentés au travers d’articles de recherche. Quelques modifications techniques sont éventuellement apportées afin de faciliter leur prise en main (gestion des dépendances, compatibilité avec une utilisation GPU et CPU pour rendre l’utilisation moins contraignante sur le plan matériel). En pratique, le dépôt open-source rassemble le code des détecteurs en tant que sous-modules auxquels sont appliqués individuellement des patchs se voulant minimalistes. Il n’y a en particulier pas de calibrage ou de modification ayant un impact sur le résultat du détecteur.
la caractérisation et l’évaluation des détecteurs.

Figure 1 : Illustration de l’articulation entre les briques logicielles développées

En pratique, pour ajouter un nouveau détecteur, il suffit d’écrire les connecteurs logiques qui instrumentent le code de ce détecteur selon les interfaces définies. Parmi le groupe de détecteurs implémentés, tous ou une partie d’entre eux peuvent ensuite être mobilisés pour calculer des inférences sur un contenu.

Des jeux de données adaptés à l’étude des réseaux sociaux

L’objectif donné est la détection de contenus synthétiques, en particulier de contenus proches de ceux trouvés sur les réseaux sociaux.

La construction de ce jeu de données (dataset) requiert l’adossement à des datasets académiques et des capacités de génération. Générer en propre des données permet de se concentrer sur des modèles d’intérêts (modèles récents, familles de modèles) et apporte de la flexibilité dans le format des données produites. C’est à dire qu’en contrôlant le cadre expérimental, il est possible de faire varier les modèles de générations à “ prompts” identiques et ainsi réduire les sources de biais pour mener des études ablatives. De plus, constatant un manque de données de qualité partagées sous licence permissive, les datasets générés seront publiés en open-source, en plus de la méthodologie et brique de génération. Et pour retranscrire les particularités des données issues des réseaux sociaux, des méthodes de transformations de contenu, modulables et combinables sont mises en oeuvre.

Le tableau ci-dessous présente le nombre d’éléments intégrés dans chacune des briques pour le texte et l’image.

Modalité	Datasets académiques	Modèles de génération	Transformations	Détecteurs
Image	7	4	4	12
Texte	2	3	2	5

Les images et les textes sont des modalités de contenus différentes, qui nécessitent des méthodes de détection spécifiques. Si les technologies sur lesquelles elles reposent sont les mêmes (apprentissage automatique), les modèles existants de génération et de détection sont propres à ces modalités.

L’approche de constitution du dataset de test est adaptée selon la modalité :

pour les images, un jeu de données composite est constitué, comprenant à la fois des jeux de données académiques, et des images générées par le PEReN ;
pour les textes, des datasets académiques sont utilisés pour générer des textes courts (format microblogging) qui sont ensuite transformés.

Cas d’usage 1 : tests comparatifs sur la détection d’images générées

Constitution d’un dataset composite

Pour évaluer la performance des détecteurs, il est nécessaire de disposer d’un jeu de données couvrant suffisamment d’images authentiques – si possible proches des images partagées sur les réseaux – et d’images générées représentant une bonne diversité de générateurs.

Figure 2 : L’étude distingue deux types d’images : les portraits et les autres images, qualifiées de “généralistes”

Le dataset est constitué d’une association d’images réelles (ou authentiques) et d’images générées (ou synthétiques). Sa composition est détaillée dans la table ci-dessous.
Les images réelles sont tirées de FFHQ (dépôt, article) pour les visages, et sont tirées de Conceptual Captions (dépôt, article) pour les images généralistes. Les datasets synthétiques (portraits et images généralistes) utilisent des modèles de type GAN (Generative Adversarial Networks ou Réseaux antagonistes génératifs) et des modèles de diffusion.

Par ailleurs, des images sont générées avec des modèles de diffusion aux licences permissives (p. ex. les modèles de la famille Flux.1 de Black Forest Labs et les modèles IF de DeepFloyd qui sont open weights et distribués sur HuggingFace, ont des licences que nous avons analysées comme non-suffisamment permissives pour être utilisés dans le cadre de ce projet) afin d’enrichir la diversité de notre dataset. Dans le processus de génération, les prompts de SFHQ-T2I (Synthetic Faces High Quality – Text 2 Image (SFHQ-T2I) Dataset, David Beniaguev) sont utilisés pour les portraits et les captions du jeu de données Conceptual Captions sont utilisées pour les images généralistes. Ces textes sont enrichis de courts contextes de style typiques des modèles de diffusion (p. ex. “ Black and white, line art drawing of:” ou “Eye level shot of:” ) afin d’améliorer la qualité de génération et diversifier les données.

Dataset	Nombre d’images	👨 / 🖼️	Réelle / synthétique	Source	Modèles
ConceptualCaptions	6000	🖼️	✅️	Google AI
FFHQ	5000	👨	✅️	Github
DatasetForDream	500	🖼️	🤖	Kaggle	Midjourney (<V5)
midjourney-images	500	🖼️	🤖	Hugging Face	Midjourney (>V5)
dalle-3-images	500	🖼️	🤖	Hugging Face	DALL-E 3
SFHQ-T2I	500	👨	🤖	Kaggle	DALL-E 3
SFHQ-T2I	500	👨	🤖	Kaggle	stable-diffusion-xl-base-1.0
SFHQ-T2I	500	👨	🤖	Kaggle	black-forest-labs/FLUX.1-dev
ELSA-D3	500	🖼️	🤖	Hugging Face	stable-diffusion-xl-base-1.0
ELSA-D3	500	🖼️	🤖	Hugging Face	stable-diffusion-2-1
ELSA-D3	500	🖼️	🤖	Hugging Face	DeepFloyd/IF-II-M-v1.0
DIMD	334	👨	🤖	Github	StyleGAN3
DIMD	166	🖼️ (animals)	🤖	Github	StyleGAN3
Généré par le PEReN	500	👨	🤖		stable-diffusion-xl-base-1.0
Généré par le PEReN	500	🖼️	🤖		stable-diffusion-xl-base-1.0
Généré par le PEReN	500	👨	🤖		stable-diffusion-2-1
Généré par le PEReN	500	🖼️	🤖		stable-diffusion-2-1
Généré par le PEReN	500	👨	🤖		stable-diffusion-3-medium-diffusers
Généré par le PEReN	500	🖼️	🤖		stable-diffusion-3-medium-diffusers
Généré par le PEReN	500	👨	🤖		stable-diffusion-3.5-large
Généré par le PEReN	500	🖼️	🤖		stable-diffusion-3.5-large

Le dataset ainsi constitué présente plusieurs limites. Il contient une faible proportion d’images générées par des GAN, car ces derniers sont dorénavant moins populaires par rapport aux modèles de diffusion. Toutefois, les GANs peuvent encore être utilisés pour leur coût d’utilisation plus faible ou encore dans des vidéos (p. ex. pour de la synchronisation labiale). Le dataset manque également de variété de modèles de diffusion, notamment pour les modèles les plus récents. Si les licences de certains modèles open weights peuvent embarquer trop de contraintes (voir supra), leur intégration peut se faire cependant aisément – selon l’analyse des licences de chacun – au sein de l’outillage existant. Des données issues de modèles propriétaires (p. ex. DALL-E 3 ou Adobe Firefly) enrichiraient également le tableau et permettraient d’être davantage représentatif des usages sur les réseaux.

Des transformations pour imiter les contenus en ligne

Tout au long de son cycle de vie en ligne une image est transformée. Tout d’abord lors de la mise en ligne qui s’accompagne obligatoirement d’une compression, puis au gré des partages, captures d’écran ou encore des modifications proposées par les plateformes (ajout de texte, de mentions, de filtres, …), les images sont transformées progressivement. Des démarches advsersariales plus artisanales reposent également sur des altérations du contenu. Par exemple, une démarche existante sur les réseaux sociaux est une mise en abyme qui consiste à diffuser l’image synthétique sur un terminal (p. ex. une télévision) et de publier une photo de ce dernier. Le partage sous une forme dégradée masque des défauts liés à la génération ce qui permet de tromper plus facilement les utilisateurs et altère également les capacités des détecteurs.

Pour retranscrire le besoin de contenus générés et représentatifs des contenus sur les réseaux sociaux, nous implémentons un ensemble de transformations élémentaires à appliquer sur les images : compression JPEG, ajout de contenu textuel (texte filigrané, avec éventuelles émoticônes), filtres esthétiques (flou, niveau de gris, sépia), redimensionnement. Ces opérations élémentaires dégradent les capacités de détection des modèles en augmentant à la fois le nombre de faux-négatifs (c.-à-d. les images synthétiques identifiées comme authentiques) et le nombre de faux-positifs (l’inverse). C’est notamment le cas si les contenus transformés diffèrent trop de ceux sur lesquels les modèles ont été entraînés².

Figure 3 : Illustration des 5 filtres utilisés dans l’étude

Dans l’étude, nous transformerons l’intégralité des images du dataset décrit plus haut avec les opérations illustrées figure 3 : des transformations élémentaires appliquées seules et une combinaison pensée comme représentative d’un réseau social, afin de comprendre l’impact de chaque transformation seule et de leur composition.

Treize détecteurs sont intégrés à l’outil

Parmi les treize détecteurs intégrés, décrits dans le tableau ci-dessous, plusieurs sont tirés de deux benchmarks déjà existants. Il est possible d’intégrer des détecteurs supplémentaires sous réserve de licences permissives accompagnant leurs poids.

Nom du détecteur	Dépôt Git	Article de recherche	Données d’entraînement	Modèles de génération parmi ces données
CNNDetect	SIDBench	arXiv	LSUN	ProGAN
FreqDetect	SIDBench	arXiv	FFHQ	StyleGAN2
DIMD	SIDBench	arXiv	COCO, ImageNet, UCID	LatentDiffusion
ViT-L/14	UniversalFakeDetect	arXiv	LSUN	ProGAN
gragnaniello_progan	diffusion-model-deepfake-detection	arXiv	LSUN	ProGAN
gragnaniello_stylegan2	diffusion-model-deepfake-detection	arXiv	LSUN	StyleGAN2
mandelli	diffusion-model-deepfake-detection	arXiv	FFHQ, Metfaces, AFHQ2	StyleGAN2, StarGAN, TamingTransformers, FAceVid2Vid
CoDE	CoDE	arXiv	LAION-400M	StableDiffusion XL, 1.4, 2.1 DeepFloyd
Xception	DeepFakeBench	arXiv	FaceForensics++	Deepfakes, Face2Face, FaceSwap, NeuralTextures
UCF	DeepFakeBench	arXiv	FaceForensics++	Deepfakes, Face2Face, FaceSwap, NeuralTextures
SPSL	DeepFakeBench	arXiv	FaceForensics++	Deepfakes, Face2Face, FaceSwap, NeuralTextures
Recce	DeepFakeBench	arXiv	FaceForensics++	Deepfakes, Face2Face, FaceSwap, NeuralTextures

Connaître les datasets d’entraînements des détecteurs permet d’identifier les potentielles contaminations avec notre dataset de test agrégé décrit plus haut et de manière plus large identifier les types de données (data-domain) sur lequel le détecteur a été entraîné.

Analyse des performances des détecteurs

Figure 4 : Courbes ROC des détecteurs retenus sur le jeu de donnée test, sans l’application de transformations. Seuls CoDE et DIMD sont meilleurs que le hasard.

Sur la figure 4, nous observons que seuls deux détecteurs sur les 11 considérés sont meilleurs que le hasard. Les mauvaises performances des autres détecteurs peuvent s’expliquer de deux manières : ou l’on ne parvient pas à reproduire techniquement la mise en œuvre des détecteurs, ou ces derniers sont très spécialisés (overfit) sur leurs données d’entraînement. Par exemple, les modèles “ Gragnaniello ” sont entrainés seulement sur des images générées par des GANS, alors que notre jeu de données test comprend une proportion importance de modèles de diffusion.

Dans la suite nous nous concentrons sur une analyse approfondie des performances de ces 2 détecteurs, ainsi que leur robustesse aux transformations considérées. Les détails des analyses de performance des autres détecteurs sont disponibles en annexe.

Robustesse aux transformations

Figure 5 : Courbes ROC pour les détecteurs CoDE (à gauche) et DIMD (à droite) respectivement. Une courbe ROC est extraite pour chaque transformation. Nous observons que la compression et le redimensionnement impactent peu les performances, alors que la transformation composite “ réseaux sociaux ” l’impacte fortement, pour les deux détecteurs. CoDE est plus impacté par l’incrustation de sous-titres que DIMD, alors que DIMD souffre plus du floutage que CoDE.

Les détecteurs retenus sont affectés par les transformations, qui dégradent dans la majorité des cas leurs performances (cf. figure 5). Nous observons que les robustesses aux transformations diffèrent entre les deux détecteurs, ce qui laisse entrevoir des pistes de complémentarité. Avec la configuration choisie, les impacts restent marginaux, hormis pour l’ajout de texte (“ Sous-titres ” et “ Réseaux sociaux ”). La méthode DIMD semble également plus sensible aux différentes transformations appliquées sur les images.

L’étude gagnerait à être approfondie en augmentant l’intensité des différentes transformations, notamment pour le floutage et la compression. De la même manière pour le redimensionnement, où les images sont uniquement mises en format carré, une plus grande variété de transformations de rééchantillonnage des images semble nécessaire, cette transformation étant réputée perturber les détecteurs spécifiques aux modèles de diffusion s’appuyant sur une analyse spectrale.

On constate également que conformément à l’intuition, la combinaison de ces transformations (transformation “ Réseaux sociaux ”) dégradent d’autant plus les performances de détection³.

Capacité à généraliser sur d’autres modèles

Figure 6 : Courbes ROC pour les détecteurs CoDE (à gauche) et DIMD (à droite) respectivement. Une courbe ROC est extraite pour chaque générateur.

Figure 7 : Représentation de la performance (Vrai positifs pour les images générées, Vrai négatifs pour les images réelles) des detecteurs CoDE (à gauche) et DIMD (à droite). Les performances sont segmentées hiérarchiquement par nature de données (réelle ou synthétique) puis par type de générateur et version de générateur pour les données synthétiques. Pour les données rélles une segmentation par jeu de données réel est effectuée (FFHQ et Conceptual Captions).

Les modèles de détection sont spécifiques aux modèles sur lesquels ils ont été entraînés. Les performances du détecteur CoDE diffèrent grandement par architecture de modèles ayant servi à générer les données. On retrouve dans les meilleurs scores les modèles ayant été utilisés dans son jeu de données d’entraînement (voir tableau supra) : StableDiffusion XL, 1.4, 2.1 et modèle IF de DeepFloyd. Concernant les modèles de diffusion, les performances ne généralisent pas, y compris pour d’autres modèles de StableDiffusion.

Le détecteur DIMD, semble cependant généraliser davantage à des générateurs qu’il n’aurait pas vus à l’entraînement. Par exemple, ses performances, certes toujours médiocres, sur des modèles plus récents de StableDiffusion décrochent moins que les autres détecteurs par rapport à ses performances sur StableDiffusion XL sur lequel il a été vraisemblablement entraîné.

Comportement par segment de données

Figure 8 : Courbes ROC pour les détecteurs CoDE (à gauche) et DIMD (à droite) respectivement. Une courbe ROC est extraite pour chaque segmentation des données : portrait ou non. Nous observons dans les deux cas une faible différence de performance entre ces deux cas de figure. Cependant l’effet est inversé, DIMD est meilleur sur les portraits que les autres images quand CoDe présente un comportement inverse.

Pour DIMD et CoDE, les capacités de détection ne semblent pas sensibles aux types d’images générées (portraits ou images généralistes, cf. figure 8). Il peut y avoir cependant certains biais, les modèles de type GAN étant principalement utilisés pour la génération de deepfakes ou autres contenus modifiant spécifiquement les visages.

Des performances contrastées

Les détecteurs sont spécifiques aux données sur lesquelles ils ont été entraînés et sont incapables de généraliser, même pour des modèles à l’architecture proche (p. ex. entre GAN). Les méthodes de détection s’appuient donc principalement sur des motifs spécifiques aux modèles vus lors de la phase d’entraînement.
Par ailleurs, les performances de détection sont substantiellement altérées par les transformations simples que nous avons proposées imitant celles effectuées par les réseaux sociaux lors de la mise en ligne.

Les métriques AUC (aire sous la courbe ROC) de l’ensemble des détecteurs sur la robustesse aux transformations ainsi que les performances par modèles, et types d’images sont disponibles en annexe.

Cas d’usage 2 : tests comparatifs sur la détection de textes générés

De grands enjeux sur les textes courts et non-anglais

Reconnaître un texte généré d’un texte “ authentique ” à l’œil nu est une tâche de plus en plus difficile dû au progrès rapide des modèles de génération de texte. Certains artéfacts dans le texte généré permettent une détection facilitée, comme des formulations typiques de modèles de langue, par exemple “ Voici un texte pour … ”, ou la présence de plusieurs langues. Cependant, il est facile pour un utilisateur de retirer ces artéfacts afin de partager un texte généré en le faisant passer pour un texte non généré.
Un des leviers de la détection de contenu textuel synthétique est la prise en compte de multiples facteurs inhérents au texte : type d’écrits (journalistique, scientifique, contenu typique réseaux sociaux), langue, longueur, ou encore le vocabulaire et la syntaxe utilisés. Ces deux derniers facteurs peuvent évoluer au fil des années et possiblement dégrader les performances des détecteurs.

Cette étude aborde deux de ces facteurs – la détection multilingue (anglais et français) et la détection de textes courts – ainsi que la sensibilité des détecteurs à des attaques simples sur les textes.

Les textes courts générés sont réputés plus durs à détecter pour plusieurs raisons : cette modalité apparaît peu dans les jeux de données d’entraînement des détecteurs pré-entrainés ; de plus le caractère court du texte limite la quantité d’informations que le détecteur peut utiliser pour classifier correctement le contenu.
Enfin, des modifications simples et invisibles à l’oeil nu – telles que des substitutions de caractères homoglyphes (voir figure 9 ci-dessous) – peuvent dégrader les performances des détecteurs. D’autres modifications peuvent altérer les détections, comme la reformulation par le biais d’un modèle de langue, qui montrerait une syntaxe et un vocabulaire plus proches de l’être humain qu’une génération directe.

Figure 9 : Illustration d’une attaque par homoglyphe, le texte à droite est modifié sans que cela soit perceptible à l’oeil nu

Cinq détecteurs sont intégrés à l’outil

Cette étude sélectionne 5 détecteurs de texte issus de la littérature académique, parmi les plus cités et ceux disposant de capacités multilingues :

Les jeux d’entraînement utilisés pour certains des détecteurs sont présentés dans la table ci-dessous.

Nom	Article	Jeux d’entrainement
Camemberta ChatGPT-Detect	arXiv	Traduction automatique du Human ChatGPT Comparison Corpus (original générées par chatGPT) – ELI5, WikiQA, Wikipedia, Medical Dialog dataset and FiQA
XLM-R	arXiv	Human ChatGPT Comparison Corpus (original + générées par chatGPT) pour l’anglais (ELI5, WikiQA, Wikipedia, Medical Dialog dataset and FiQA) Traductions des données pour le français
RADAR	arXiv	OpenWebText dataset (Wikipedia) / Génération à partir de ces données

RADAR, XLMR-ChatGPTDetect et Camemberta-ChatGPT-Detect sont des détecteurs finetunés. XLMR et Camemberta répondent à notre enjeu de détection multilingue puisque XLMR est finetuné sur des données anglaises et françaises, et Camemberta est un modèle pré-entrainé uniquement sur des données en français.
Binoculars et FastDetect-GPT se basent sur une méthode dite zero-shot, dans le but de s’affranchir du problème de la spécialisation des autres modèles.

Nous nous munissons de deux méthodes d’agrégations :

hard-voting, classification du texte en utilisant le vote majoritaire des détecteurs ;
conservative, classification du texte comme généré si au moins l’un des détecteurs le considère comme généré.

Génération de textes au format microblogging

Malgré le nombre croissant de publications sur la détection de contenu textuel depuis la sortie de ChatGPT par OpenAI fin 2022, il existe encore peu de jeux de données dédiés à la tâche de détection de contenu textuel synthétique. La recherche académique recourt souvent aux mêmes types de jeux de données, connus du domaine, relevant peu des réseaux sociaux et du microblogging.

Pour faire face au manque de données synthétiques spécifiques à notre tâche, nous générons pour cette étude des textes courts au format microblogging (tweets) et des textes longs au format média de presse, afin de comparer les performances des détecteurs. Pour générer les textes, nous utilisons deux jeux de données d’articles de presse : Xsum pour l’anglais et OrangeSum pour le français. Nous avons notamment choisi ces jeux de données car ils sont suffisamment anciens : les textes ne peuvent pas contenir de contenus générés, même partiellement.

Trois modèles de génération récents ont été utilisés :

Llama3.1-8b-Instruct (Meta) ;
Mistral-Nemo-Instruct (MistralAI) ;
Qwen2.5-7b-Instruct (AlibabaQwen).

La procédure utilisée, détaillée dans le tableau ci-dessous, est la suivante (les prompts sont disponibles à cette adresse) :

les articles de presse sont générés en fournissant au modèle des résumés ou des titres d’article afin de générer un article complet à partir de ceux-ci ;
les tweets sont générés en fournissant un article de presse complet afin de générer un tweet.

Nom	Détails	Nombre d’articles	Volume généré	Modèles
Xsum	Presse (article + titre)	2000	12000 articles / 6000 tweets	meta-llama / Llama-3.1-8B-Instruct
Xsum	Presse (article + titre)	2000	12000 articles / 6000 tweets	Qwen/Qwen2.5-7B
Xsum	Presse (article + titre)	2000	12000 articles / 6000 tweets	mistralai/Mistral-Nemo-Instruct-2407
OrangeSum	Presse (article + titre)	500	3000 articles	meta-llama / Llama-3.1-8B-Instruct
OrangeSum	Presse (article + titre)	500	3000 articles	Qwen/Qwen2.5-7B
OrangeSum	Presse (article + titre)	500	3000 articles	mistralai/Mistral-Nemo-Instruct-2407

Analyse des performances des détecteurs

Figure 10 : Impact de la langue sur la détection, métrique = Balanced accuracy (note de lecture : BACC=0.5 correspond au hasard)

Nous observons que les textes en anglais sont correctement classifiés par l’ensemble de nos détecteurs à l’exception de Camemberta qui n’est entraîné que sur des textes en français. Les performances sur les textes en français baissent, à l’exception de Camemberta. De façon notable, Binoculars et XLMR ont de meilleurs scores que RADAR et FastDetectGPT.

Figure 11 : Impact de la longueur du texte sur la détection, métrique = Balanced accuracy (note de lecture : BACC=0.5 correspond au hasard)

Conformément à ce qui est attendu, les détecteurs sont nettement moins fiables sur des contenus courts.

Figure 12 : Impact de l’attaque par homoglyphe sur la détection, métrique = Balanced accuracy (note de lecture : BACC=0.5 correspond au hasard)

Nous observons figure 12 que les attaques par homoglyphe dégradent les performances détecteurs : les détecteurs testés n’y sont pas robustes (Camemberta détecte déjà très mal les textes synthétiques longs et en anglais). Cependant, il serait facile de contrer une attaque par homoglyphe en vérifiant en amont de la détection si de telles transformations ont été faites. La mise en place d’une telle mesure ne pèsera donc que peu sur le développement d’un système complet de détection de contenus générés.

Figure 13 : Courbe ROC de chaque détecteur sur les différents types de données traités et sur l’attaque de substitution par homoglyphe pour les articles de presse en anglais

Figure 14 : Carte de chaleur des performances des détecteurs en fonctions du type de données et du modèle génératif, métrique = Balanced accuracy (note de lecture : BACC=0.5 correspond au hasard)

Nous observons dans la figure 14 que le choix du modèle ayant servi à la génération n’impacte pas les performances des détecteurs, mis à part les exceptions suivantes :

Binoculars détecte mieux Llama sur les textes courts ;
XLMR détecte moins bien Llama sur les textes longs en français.

Limites expérimentales

Nous manquons de contrefactuels directs concernant les textes courts car nous ne disposons pas de jeux de données microblogging en données réelles. Ainsi, les titres d’articles sont utilisés comme contrefactuels au texte court générés. Les analyses produites sont à considérer comme un travail préliminaire, à consolider par un jeu de données réelles de microblogging.
Concernant l’attaque par substitution, nous avons substitué l’intégralité des caractères possiblement modifiables par leur homoglyphe. Il pourrait être intéressant de tester différentes proportions de substitution. Une combinaison d’attaques pourrait également être menée pour évaluer l’impact d’une ou plusieurs transformations sur les performances.

Des performances encourageantes

Nous avons pu reproduire avec plusieurs détecteurs et générateurs les constats de la littérature académique : si les textes longs sont détectables, les textes plus courts restent cependant encore un challenge non-résolu. Le manque de données réelles sur des formats de textes courts est un obstacle pour le relever.
Concernant l’aspect multilingue de la détection, nous avons pu établir que pour le français, il est nécessaire de sélectionner avec attention des détecteurs intégrant une dimension multilingue ou finetuné dans la langue étudiée ou encore s’affranchissant d’un pré-entraînement spécifique (XLMR, Camemberta et Binoculars).
Nous avons pu montrer qu’une attaque assez basique (substitution par homoglyphe) altère les performances de détection, et qu’il semble nécessaire de se prémunir d’attaques similaires en filtrant les contenus en amont des détecteurs. Par ailleurs nous avons pu montrer, dans le cadre expérimental de cette étude, que l’association de plusieurs détecteurs en agrégeant leurs résultats par vote majoritaire permet d’atteindre de meilleures performances.

Et si on poursuivait l’étude…

Concernant la détection d’images, nous pourrons intégrer davantage de transformations dans des travaux futurs. Nous pourrons aussi chercher à rendre le jeu de données test plus exhaustif, à la fois en terme de type de données et de générateurs, afin de limiter les sources de biais. Nous pourrons y parvenir en générant des images à partir d’un nombre plus grand de modèles ouverts, ainsi qu’à partir de modèles privés sur des prompts identiques.

Concernant la détection de textes, nous pourrons effectuer une analyse du seuil de longueur de texte “ minimal ” permettant une détection fiable du contenu généré. Nous pourrons également approfondir le travail sur les transformations, notamment en en combinant plusieurs. D’autre part, pour poursuivre l’étude sur la détection multilingue, nous pourrions travailler sur d’autres langues.

Les capacités de l’outil construit et ces analyses ouvrent par ailleurs la possibilité de tirer parti de l’association des détecteurs en cherchant à exploiter leurs éventuelles complémentarités après pré-analyse du contenu soumis à détection.

Annexe

Annexe 1 : Représentation en carte de chaleur des métriques AUC par transformation d'images pour l'ensemble des détecteurs

Annexe 2 : Représentation en carte de chaleur des métriques AUC par modèle de génération pour l'ensemble des détecteurs

Annexe 3 : Représentation en carte de chaleur des métriques AUC sur les performances par type d'images pour l'ensemble des détecteurs

Invisible Image Watermarks Are Provably Removable Using Generative AI, Zhao et al., Robustness of AI-image detectors: fundamental limits and practical attacks, Saberi et al. ↩︎
Evolution of Detection Performance throughout the Online Lifespan of Synthetic Images, Karageogiou et al. ↩︎
Avec notre protocole, la comparaison entre « Réseaux sociaux » et « Sous-titres » ne peut pas se faire strictement toutes choses égales par ailleurs, davantage d’éléments textuels étant imbriqués dans la première. ↩︎

Détecter des contenus artificiels sur les réseaux sociaux : un outil pour savoir à quels détecteurs se fier

L’enjeu : interroger les détecteurs à l’état de l’art à bon escient

Des détecteurs en réseau pour explorer leurs performances sur des images et des textes

Une interface standardisée et modulable

Des jeux de données adaptés à l’étude des réseaux sociaux

Cas d’usage 1 : tests comparatifs sur la détection d’images générées

Constitution d’un dataset composite

Des transformations pour imiter les contenus en ligne

Treize détecteurs sont intégrés à l’outil

Analyse des performances des détecteurs

Robustesse aux transformations

Capacité à généraliser sur d’autres modèles

Comportement par segment de données

Des performances contrastées

Cas d’usage 2 : tests comparatifs sur la détection de textes générés

De grands enjeux sur les textes courts et non-anglais

Cinq détecteurs sont intégrés à l’outil

Génération de textes au format microblogging

Analyse des performances des détecteurs

Limites expérimentales

Des performances encourageantes

Et si on poursuivait l’étude…

Annexe

Analyses ablatives sur l'ensemble des détecteurs d'images