Quels risques et quelles limites à la génération d'hypertrucages convaincants ?

Les innovations fulgurantes en matière d’IA placent aujourd’hui à la portée de tous la réalisation d’hypertrucages (deepfakes) photos et vidéos. Toutefois, avec quelle facilité les technologies disponibles permettent-elles d’obtenir des productions réalistes ? En partenariat avec la CNIL, le PEReN a mené l’expérience.

Pourquoi et comment mener cette étude ?

Qui dit hypertrucages, dit possible usurpation d’identité…

Réservée auparavant aux professionnels de l’édition photo ou vidéo, aujourd’hui la réalisation de trucages devient, grâce à l’IA, à portée de main du grand public avec les hypertrucages (deepfakes). Ces technologies rendues aisément accessibles facilitent grandement « l‘échange » des visages (face swapping), l’animation de portraits ou encore la modification de discours (synchronisation labiale ou lipsyncing), et s’invitent désormais dans la vie quotidienne.

La CNIL, s’intéressant aux risques associés à ce nouvel environnement technologique (usurpation d’identité, escroquerie, porno divulgation, désinformation…), a souhaité explorer (pour alerter) avec quelle facilité ces hypertrucages pouvaient être réalisés. Son laboratoire d’innovation, le LINC, s’est associé au PEReN pour cette étude qui a visé notamment à répondre aux questions suivantes :

quelle qualité d’hypertrucage peut-on attendre d’un non-expert?
peut-on tromper un public averti avec ces outils ?
les outils disponibles en ligne sont-ils performants ?

Le cadre expérimental : modèles GAN, métriques de qualité perceptuelle et annotations humaines

Pour définir son cadre expérimental, le PEReN a opéré un examen comparatif préalable concernant :

les modèles et outils de génération d’hypertrucages ;
les métriques de qualité perceptuelle d’une image.

Les modèles GAN sur étagère dominent les usages actuels

Performants, simples d’accès et d’utilisation et facilitant l’intégration d’hypertrucages dans des applications tierces, les modèles GAN (Generative Adversarial Networks ou Réseaux antagonistes génératifs) sur étagère (c’est-à-dire ne nécessitant pas de ré-entrainement spécifique sur les personnes ciblées) dominent les usages actuels dans la réalisation de deepfakes. Ils ont par ailleurs la préférence des attaquants, plus particulièrement le face swapping, dans les escroqueries recourant à l’usurpation d’identité ou dans la porno-divulgation.

Tout naturellement, le PEReN s’est donc tourné vers cette technologie pour son expérience, portant son choix sur la populaire et active plateforme FaceFusion (Dépôt GitHub, documentation) de génération d’hypertrucages. Mettant à disposition plusieurs modèles sur des tâches différentes (au-delà du face swapping) dans une logique de chaînage, son interface graphique rend cette plateforme accessible même à des non-experts.

Une fois générés, la qualité des hypertrucages est testée

Juger de la performance des modèles de génération d’hypertrucages dans le cadre d’usages malicieux ou d’usurpation, revient à s’intéresser à la qualité visuelle des images produites. Les modèles traitant les vidéos comme une succession de photos (processus « frame par frame »), notre méthodologie s’applique donc à la photo comme à la vidéo.

Les métriques de qualité perceptuelle (ou Image Quality Assessment – IQA) permettent d’évaluer cette qualité en se rapprochant de la perception humaine. Elles sont basées sur des modèles élaborés à l’aide d’annotations humaines ou sur des algorithmes calculant une dégradation en utilisant ou non une image de référence. Sous le prisme d’un ensemble varié de métriques, il est possible de capturer différentes dimensions de qualité (p. ex. détails structurels, contrastes ou artefacts visuels). Pour ses tests, le PEReN a ainsi sélectionné neuf métriques :

Des métriques « avec référence complète » (Full-Reference Image Quality Assessment – FR-IQA) :
Des métriques « sans référence » (No-Reference Image Quality Assessment – NR-IQA) :

À cette évaluation automatisée objective, le PEReN a ajouté une phase d’évaluation subjective par annotations humaines des images « sources » (personne usurpée), « cibles » (personne dont le visage est changé) et générées à partir de FaceFusion.

Sur un échantillon d’environ 500 couples d’images, plusieurs réglages de génération ont été mis à l’épreuve, a priori proches de ceux proposés par défaut dans les interfaces des outils grand public. Pour une quarantaine d’images, des hypertrucages ont été finement générés pour tester la capacité de ces modèles à tromper des humains.

Ainsi, pour juger de la facilité à usurper une identité, deux expériences différentes ont été conduites pour :

estimer les connaissances techniques requises pour faire des hypertrucages convaincants ;
évaluer la capacité de ces outils à tromper des personnes expertes ou acculturées aux enjeux et au fonctionnement des systèmes d’IA (membres de l’équipe).

Figure 1 : Deux expériences ont été menées

Expérience 1 – Quelle qualité d’hypertrucage peut-on attendre d’un non-expert ?

Configuration de l’expérience 1

Mise à l’épreuve de deux configurations standards de Facefusion

Le champ des possibles à retranscrire pour un attaquant est très large : il est possible de jouer sur l’intégralité du « chaînage » d’opérations. Nous avons retenu deux configurations standards de Facefusion :

« Défaut » : réglage par défaut de Facefusion ;
« HR » : un réglage plus adapté à des images de haute résolution. Une étude préliminaire sur les modèles de face swap nous a conduit à retenir le modèle simswap_256, pour ses capacités de généralisation à des expressions, et « situations » (accessoires, occlusions, …) extrêmes.

Configuration	Modèle de face swap	Masque	Super-résolution	Modèle face enhancer
Défaut	inswapper_128_fp16	box	128 × 128	gfpgan_1.4
HR	simswap_256	occlusion	256 × 256	gfpgan_1.4

Les masques sont déterminés à l’aide de modèles identifiant les principaux repères du visage (tâche de facial landmark detection) et servent ainsi à pointer la zone à échanger par le modèle. Le masque de type « occlusion » permet un découpage plus fin aux niveaux du trait du visage et une meilleure préservation des accessoires, au risque de découpage incohérent dans certains cas.

Figure 2 : De haut en bas les masques « box », « occlusion » et « region » (ajusté différemment pour chaque cas)

Un jeu de données étiquetées

En phase de cadrage, le projet a été initié avec des images de célébrités mortes. Par la suite un échantillon de 500 images « sources » (personne usurpée) et « cibles » (personne dont le visage est changé) a été extrait du jeu de données « Flickr-Faces-HQ Dataset » (FFHQ) publié par NVIDIA (article de recherche sur arXiv et dépôt GitHub), une référence pour sa qualité et sa diversité (environ 70 000 images).

On nomme DSSC (Difficult Swaps with Standard Configurations) cet échantillon constitué à l’aide d’un jeu de données décrivant les caractéristiques des images de FFHQ (dépôt GitHub du jeu de données « ffhq-features-dataset ») :

sélection des « sources » variées pour mettre à l’épreuve les capacités des modèles à gérer des situations différentes (p. ex. genre des personnes, accessoires, pilosité faciale, orientation du visage, émotions, exposition, flou) ;
association cohérente des « cibles » à chacune des « sources » pour que l’échange soit plausible (même genre et âge proche).

Pour être au plus proche de cas réels, l’échantillon a été constitué en sélectionnant des images au hasard (tirage sans remise) parmi les images comportant une caractéristique dans la liste ci-dessous (parmi les 100 plus extrêmes pour les variables quantitatives).

Catégorie	Nombre d’images
Bouche masquée	25
Front masqué	25
Yeux masqués (hors lunettes)	25
Accessoire (hors lunettes)	25
Lunettes de vue	20
Lunettes de soleil	20
Orientation du visage (pour les 3 rotations)	60 (20*3)
Exposition (sur- et sous-)	40 (20*2)
Flou	20
Bruit	20
Moustache	30
Émotion intense (Colère, mépris, dégoût, peur, surprise, tristesse)	90 (15*6)
Tirage au hasard	100
Total	500

Par ailleurs, les images « sources », « cibles » et générées par Facefusion ont été étiquetées par des membres de l’équipe-projet. Le calcul de la note d’opinion moyenne, en prenant la médiane des notes qualitatives sur la perception de l’image (excellent, bon, moyen, mauvais, médiocre), permettra de mettre en perspective les autres métriques calculées. Pour cette expérience – plus de 2000 images (les images tirées de FFHQ, et les images générées respectivement DSSC-Défaut et DSSC-HR) – seulement trois jeux complets d’étiquetage (c.-à-d. trois annotations différentes sur la qualité perçue de chaque image) sont disponibles. C’est peu pour une interprétation statistique approfondie, mais suffisant pour interpréter les expériences (performances des modèles et métriques).

Il faut noter que le jeu de données FFHQ étant d’excellente qualité (visage en gros plan, généralement sur une surface d’au moins 1000 × 1000 pixels) relativement aux capacités des modèles (128 × 128 et 256 × 256 pixels – pour la zone traitée c.-à-d. le visage), il y a par conséquent une perte d’informations inhérente aux modèles (résolution prise en charge) lors de l’échange de visages. Non compensée par les étapes ultérieures au traitement (face enhancement, super-résolution), cette dégradation est sanctionnée lors de l’étiquetage. Par choix, les images n’ont pas été redimensionnées après traitement afin de récupérer davantage d’informations pour l’analyse des métriques. Cependant lors d’une attaque, même sur des images de grande qualité, les visages n’occupent pas une telle dimension.

Analyse des résultats de l’expérience 1

Analyse des annotations

L’analyse des annotations de qualité perçue montre que les hypertrucages générés en utilisant les deux configurations (DSSC-Défaut et DSSC-HR) sont plutôt de bonne qualité perçue, sans être jugés excellents. La distribution pour HR est légèrement déviée vers une meilleure qualité perçue, laissant présager la possibilité d’obtenir de meilleurs hypertrucages. On remarque également que la qualité des images « sources » et « cibles » est globalement meilleure. Cela s’explique notamment par le fait qu’a minima les résolutions (128 × 128 et 256 × 256) gérées par les modèles induisent une perte d’informations perçue par les annotateurs, sans tenir compte des éventuels artefacts apparus lors de la génération.

Figure 3 : Les distributions des annotations montrent que les jeux de données DSSC sont de bonne qualité générale

Divergence entre configurations

On observe une homogénéité générale des résultats entre les deux configurations. Toutefois, des images générées présentent des variations de qualité selon la configuration utilisée : qualité perçue élevée pour DSSC-HR et qualité perçue moyenne ou faible pour DSSC-Défaut, et inversement. Ce phénomène suggère l’intérêt de tester plusieurs configurations afin de sélectionner l’hypertrucage le plus performant. Cette approche de sélection s’aligne étroitement sur celle des attaquants, qui sera analysée plus en détail dans la suite de l’étude.

Figure 4 : L’existence de cas où une configuration performe plus que l’autre souligne l’intérêt d’essayer plusieurs configurations

Alignement entre métriques et annotateurs

Si certaines métriques semblaient théoriquement pertinentes pour retranscrire la qualité perçue subjective, l’analyse des corrélations entre les annotations de qualité perçue et les scores des métriques permet d’en écarter certaines : BRISQUE, NIQE, ClipIQA, kNN-GIQA. Les métriques conservées permettront d’analyser sous différents angles la qualité perçue des hypertrucages. Q-Align et GIQA reflètent la qualité (« métriques croissantes » : meilleure qualité = valeur élevée), les autres reflètent la dégradation (« métriques décroissantes » : meilleure qualité = valeur faible).

Figure 5 : On retient les métriques d’IQA corrélées avec les annotations humaines de qualité perçue. Note d’analyse : pour faciliter la comparaison d’une métrique à l’autre, les valeurs extrêmes sont tronquées et une normalisation entre 0 et 1 est effectuée en conservant les propriétés de dispersion des distributions.

Les métriques de qualité d’image sont corrélées à la qualité perçue à une intensité faible. Plusieurs raisons possibles à la faiblesse de ces corrélations :

DSSC est biaisé car constitué d’images de haute qualité ce qui limite la dispersion entre les valeurs des métriques ;
la majorité des évaluations sont autour des qualités perçues Bonne et Moyenne ;
la recherche académique suggère que la perception humaine est moins fiable en dehors des extrêmes et le nombre d’annotateurs de cette étude est faible. On retrouve ce dernier résultat dans l’analyse des corrélations, p. ex. sur Q-Align : si la corrélation avec l’ensemble des qualités perçue est de 0.18 (p-valeur=9e-9), la corrélation sur les valeurs extrêmes (qualité perçue médiocre ou excellente) est de 0.34 (p-valeur=2e-4).

Influence des caractéristiques de l’image sur la qualité du trucage

Figure 6 : La présence de certaines caractéristiques sur les images sources impacte la qualité perçue de l’hypertrucage

La présence de lunettes et de zones de visages masquées dégradent substantiellement la génération des hypertrucages. De la même manière, si l’individu de l’image source porte une barbe ou montre des émotions fortes, le trucage a moins de chances d’être abouti.

L’orientation du visage (angles extrêmes) et « flou et bruit » semblent avoir peu d’impact sur la qualité d’un hypertrucage. Cela peut s’expliquer, dans le premier cas par la petite taille de l’échantillon et mériterait d’être approfondi (en distinguant les vues de profil, la plongée, la contre-plongée) et dans le second, par la capacité du modèle à faire abstraction de ces défauts de qualité et l’application du modèle de face enhancement après la génération.

La qualité d’un hypertrucage est également affectée par la présence simultanée de plusieurs caractéristiques. Cependant, le nombre restreint d’exemples possédant plus de deux caractéristiques au sein de la même source, limite la portée de ce constat.

L’écart entre la qualité des images source et cible n’a pas d’impact sur celle de l’image générée

La différence de qualité entre l’image source et l’image cible n’a pas d’influence notable sur la qualité finale de l’hypertrucage. En effet, même lorsque l’écart de score renvoyé par les métriques entre les deux images (cible et source) est important, la qualité du résultat hypertruqué reste globalement stable.

La dégradation de la qualité entre la cible et le trucage peut servir d’indicateur de la qualité de ce dernier

Certaines métriques montrent une corrélation faible néanmoins significative entre la dégradation de l’image cible et la qualité de l’hypertrucage. La dégradation de l’image cible est calculée en prenant la différence de qualité entre la cible et l’image générée pour chaque image une fois les valeurs aberrantes retirées. Cette mesure est ensuite moyennée par groupe d’annotation (Médiocre, Mauvais, etc..).

Figure 7 : La métrique Q-Align montre une corrélation faible (spearman=-0.2, p-valeur=5e-9) entre la dégradation de l’image cible et la qualité perçue de l’hypertrucage

Cela renforce l’intuition suivante : si les scores des métriques sur l’image générée (c.-à-d. le deepfake) sont plus faibles que sur l’image cible (c.-à-d. le visage de l’attaquant dans le scénario qu’on considère), alors il est fort probable que l’échange soit d’une mauvaise qualité perçue. Il serait donc envisageable pour un attaquant de considérer cette heuristique dans le cadre d’une production en masse avant un premier contrôle visuel.

L’ajout d’un filigrane simple ne semble pas être une mesure protectrice

Figure 8 : Exemples des deux filigranes testés (à gauche « visible » et à droite « discret »)

Une première préconisation de protection contre les hypertrucages pourrait être l’ajout d’un filigrane. Deux filigranes différentes ont été testé, un « discret » dégradant peu l’image, et un beaucoup plus visible.

Figure 9 : Exemple de face swap sur une source comportant un filigrane

Cependant, les modèles actuels semblent robustes contre ces protections. Les analyses, montrent que l’apposition d’un filigrane simple sur une image source n’impacte pas ou très peu la qualité d’un hypertrucage.

Figure 10 : L’ajout d’un filigrane ne semble pas impacter la qualité du trucage

Expérience 2 – Peut-on leurrer un public averti avec ces outils ?

Configuration de l’expérience 2

Affinage des paramètres et des associations d’images

Pour reproduire la démarche d’un attaquant, nous avons étudié la capacité à produire avec Facefusion à produire des hypertrucages de la meilleure qualité possible. Contrairement aux cas précédents, où les images source et cible tirées de FFHQ étaient associées aléatoirement (donc régulièrement de manière sous-optimale : p. ex. des individus peu ressemblants, des postures, expositions très différentes) les sources et les cibles du face swapping ont été associées à la main.

Figure 11 : Les associations sources et cibles peuvent être plus ou moins convaincantes

De la même manière, l’ensemble des paramètres et outils proposés dans Facefusion ont pu être finement ajustés par tâtonnement, en fonction de nos perceptions mais sans retouche ultérieure.

Figure 12 : Essayer différents modèles et configurations permet une création plus fine de l’hypertrucage

Un jeu de données configuré « Attaquant »

Sur la base de ce protocole, on construit un jeu de données « Attaquant » :

constitué de quarante hypertrucages et vingt images authentiques (toutes ces images sont tirées du jeu de données de l’expérience précédente, en veillant à conserver la diversité initiale des caractéristiques utilisées pour le construire) ;
Intégralement annoté par 15 personnes, ignorant la proportion d’images authentiques.

Figure 13 : La qualité du jeu de données « Attaquant » (hypertrucages uniquement) est meilleure que celle de DSSC (Défaut et HR), au sens des métriques d’IQA

Analyse des résultats de l’expérience 2

La taille du jeu de données « Attaquant » est trop réduite pour conclure statistiquement. L’expérience confirme cependant la difficulté générale à détecter perceptuellement un hypertrucage.

Les annotateurs ne font pas mieux que le hasard

Les recherches sur la capacité humaine à détecter des hypertrucages montrent que face à des hypertrucages de haute qualité, la précision des participants à ces études est à peine supérieure au hasard, tout en démontrant une confiance trop élevée en leur capacité à distinguer les images authentiques des fausses¹.

Le tableau ci-dessous montre que les annotateurs peinent à identifier les trucages des images authentiques.

Annotateur	Précision	F1	Rappel
1	0.28	0.37	0.56
2	0.28	0.38	0.61
3	0.32	0.39	0.50
« Toujours authentique »	0.33	0.50	1.00
4	0.35	0.47	0.72
5	0.36	0.46	0.65
6	0.39	0.47	0.60
Moyenne	0.41	0.51	0.68
7	0.44	0.49	0.55
8	0.44	0.51	0.60
9	0.44	0.56	0.78
Note d’opinion moyenne	0.46	0.58	0.80
10	0.46	0.61	0.90
11	0.48	0.54	0.61
12	0.48	0.59	0.75
13	0.48	0.61	0.83
Détecteur (modèle RECCE)	0.50	0.62	0.80
14	0.55	0.65	0.80
15	0.61	0.71	0.85

L’expérience met en évidence la capacité d’un attaquant à tromper un public averti avec ces outils simples d’utilisation et sans retouche logicielle après génération.

Figure 14 : Matrice de confusion de la note d’opinion moyenne (MOS) des annotateurs, de très nombreuses images truquées sont prises pour des authentiques (case en haut à droite)

Le modèle RECCE utilisé depuis le dépôt « DeepfakeBench », un détecteur à l’état de l’art (lien vers l’article de recherche) a de meilleurs performances que la plupart de nos annotateurs.

Figure 15 : Le détecteur RECCE a une meilleure précision que le vote de majorité des annotateurs

Et si on poursuivait l’étude...

Les expériences ont mis en valeur que les modèles de face swap utilisables facilement sont très performants et peuvent être optimisés en ajustant les configurations des modèles et en choisissant avec soin les paires source-cible (posture, ressemblance) pour produire des trucages presque indétectables humainement. La qualité des images et la présence d’accessoires obstruant le visage sont des paramètres freinant les capacités des modèles, mais l’ajout d’un filigrane ne semble pas être une mesure de protection efficace.

Plusieurs prolongements pourraient directement enrichir cette étude. Face à la difficulté des humains à détecter les hypertrucages, une revue des capacités des détecteurs existants semble nécessaire. Dans le cadre des solutions de vérification d’identité, les analyses de qualité et de détection sur les modèles pourraient être accompagnées d’une analyse de leurs capacités à « préserver » l’identité du visage usurpé.

Annexe

Les taux de consensus sur notre expérience retrouvent en partie les constatations établies en recherche : les annotateurs sont plus fiables sur des images de très mauvaise ou de très bonne qualité. Cela se retrouve bien dans les générations ratées (Médiocre), mais le consensus est moindre pour les réussies. Cela peut s’expliquer par le fait que notre jeu de données est biaisé (images de bonne qualité) et les annotateurs également (connaissances en hypertrucages et vigilance renforcée sur certains artefacts connus comme la gestion des accessoires).

Qualité perçue	Nombre de votes	Consensus
Médiocre	56	86 %
Mauvaise	167	80 %
Moyenne	272	79
Bonne	390	72 %
Excellente	54	74 %
Total	939	76 %

Voir Sergi D Bray, Shane D Johnson, Bennett Kleinberg, Testing human ability to detect ‘deepfake’ images of human faces, Journal of Cybersecurity, Volume 9, Issue 1, 2023, tyad011, https://doi.org/10.1093/cybsec/tyad011 ; et Köbis NC, Doležalová B, Soraperra I. Fooled twice: People cannot detect deepfakes but think they can. iScience. 2021 Oct 29;24(11):103364. doi: 10.1016/j.isci.2021.103364. PMID: 34820608; PMCID: PMC8602050.︎ ︎↩