Gouvernement
PEReN – Pôle d’Expertise de la Régulation Numérique
L’expertise de la science des données au service de la régulation numérique
Les innovations fulgurantes en matière d’IA placent aujourd’hui à la portée de tous la réalisation d’hypertrucages (deepfakes) photos et vidéos. Toutefois, avec quelle facilité les technologies disponibles permettent-elles d’obtenir des productions réalistes ? En partenariat avec la CNIL, le PEReN a mené l’expérience.
Réservée auparavant aux professionnels de l’édition photo ou vidéo, aujourd’hui la réalisation de trucages devient, grâce à l’IA, à portée de main du grand public avec les hypertrucages (deepfakes). Ces technologies rendues aisément accessibles facilitent grandement « l‘échange » des visages (face swapping), l’animation de portraits ou encore la modification de discours (synchronisation labiale ou lipsyncing), et s’invitent désormais dans la vie quotidienne.
La CNIL, s’intéressant aux risques associés à ce nouvel environnement technologique (usurpation d’identité, escroquerie, porno divulgation, désinformation…), a souhaité explorer (pour alerter) avec quelle facilité ces hypertrucages pouvaient être réalisés. Son laboratoire d’innovation, le LINC, s’est associé au PEReN pour cette étude qui a visé notamment à répondre aux questions suivantes :
Pour définir son cadre expérimental, le PEReN a opéré un examen comparatif préalable concernant :
Performants, simples d’accès et d’utilisation et facilitant l’intégration d’hypertrucages dans des applications tierces, les modèles GAN (Generative Adversarial Networks ou Réseaux antagonistes génératifs) sur étagère (c’est-à-dire ne nécessitant pas de ré-entrainement spécifique sur les personnes ciblées) dominent les usages actuels dans la réalisation de deepfakes. Ils ont par ailleurs la préférence des attaquants, plus particulièrement le face swapping, dans les escroqueries recourant à l’usurpation d’identité ou dans la porno-divulgation.
Tout naturellement, le PEReN s’est donc tourné vers cette technologie pour son expérience, portant son choix sur la populaire et active plateforme FaceFusion (Dépôt GitHub, documentation) de génération d’hypertrucages. Mettant à disposition plusieurs modèles sur des tâches différentes (au-delà du face swapping) dans une logique de chaînage, son interface graphique rend cette plateforme accessible même à des non-experts.
Juger de la performance des modèles de génération d’hypertrucages dans le cadre d’usages malicieux ou d’usurpation, revient à s’intéresser à la qualité visuelle des images produites. Les modèles traitant les vidéos comme une succession de photos (processus « frame par frame »), notre méthodologie s’applique donc à la photo comme à la vidéo.
Les métriques de qualité perceptuelle (ou Image Quality Assessment – IQA) permettent d’évaluer cette qualité en se rapprochant de la perception humaine. Elles sont basées sur des modèles élaborés à l’aide d’annotations humaines ou sur des algorithmes calculant une dégradation en utilisant ou non une image de référence. Sous le prisme d’un ensemble varié de métriques, il est possible de capturer différentes dimensions de qualité (p. ex. détails structurels, contrastes ou artefacts visuels). Pour ses tests, le PEReN a ainsi sélectionné neuf métriques :
À cette évaluation automatisée objective, le PEReN a ajouté une phase d’évaluation subjective par annotations humaines des images « sources » (personne usurpée), « cibles » (personne dont le visage est changé) et générées à partir de FaceFusion.
Sur un échantillon d’environ 500 couples d’images, plusieurs réglages de génération ont été mis à l’épreuve, a priori proches de ceux proposés par défaut dans les interfaces des outils grand public. Pour une quarantaine d’images, des hypertrucages ont été finement générés pour tester la capacité de ces modèles à tromper des humains.
Ainsi, pour juger de la facilité à usurper une identité, deux expériences différentes ont été conduites pour :
Figure 1 : Deux expériences ont été menées
Le champ des possibles à retranscrire pour un attaquant est très large : il est possible de jouer sur l’intégralité du « chaînage » d’opérations. Nous avons retenu deux configurations standards de Facefusion :
simswap_256, pour ses
capacités de généralisation à des expressions, et « situations » (accessoires, occlusions, …)
extrêmes.| Configuration | Modèle de face swap | Masque | Super-résolution | Modèle face enhancer |
|---|---|---|---|---|
| Défaut | inswapper_128_fp16 | box | 128 × 128 | gfpgan_1.4 |
| HR | simswap_256 | occlusion | 256 × 256 | gfpgan_1.4 |
Les masques sont déterminés à l’aide de modèles identifiant les principaux repères du visage (tâche de facial landmark detection) et servent ainsi à pointer la zone à échanger par le modèle. Le masque de type « occlusion » permet un découpage plus fin aux niveaux du trait du visage et une meilleure préservation des accessoires, au risque de découpage incohérent dans certains cas.
Figure 2 : De haut en bas les masques « box », « occlusion » et « region » (ajusté différemment pour chaque cas)
En phase de cadrage, le projet a été initié avec des images de célébrités mortes. Par la suite un échantillon de 500 images « sources » (personne usurpée) et « cibles » (personne dont le visage est changé) a été extrait du jeu de données « Flickr-Faces-HQ Dataset » (FFHQ) publié par NVIDIA (article de recherche sur arXiv et dépôt GitHub), une référence pour sa qualité et sa diversité (environ 70 000 images).
On nomme DSSC (Difficult Swaps with Standard Configurations) cet échantillon constitué à l’aide d’un jeu de données décrivant les caractéristiques des images de FFHQ (dépôt GitHub du jeu de données « ffhq-features-dataset ») :
Pour être au plus proche de cas réels, l’échantillon a été constitué en sélectionnant des images au hasard (tirage sans remise) parmi les images comportant une caractéristique dans la liste ci-dessous (parmi les 100 plus extrêmes pour les variables quantitatives).
| Catégorie | Nombre d’images |
|---|---|
| Bouche masquée | 25 |
| Front masqué | 25 |
| Yeux masqués (hors lunettes) | 25 |
| Accessoire (hors lunettes) | 25 |
| Lunettes de vue | 20 |
| Lunettes de soleil | 20 |
| Orientation du visage (pour les 3 rotations) | 60 (20*3) |
| Exposition (sur- et sous-) | 40 (20*2) |
| Flou | 20 |
| Bruit | 20 |
| Moustache | 30 |
| Émotion intense (Colère, mépris, dégoût, peur, surprise, tristesse) | 90 (15*6) |
| Tirage au hasard | 100 |
| Total | 500 |
Par ailleurs, les images « sources », « cibles » et générées par Facefusion ont été étiquetées par des membres de l’équipe-projet. Le calcul de la note d’opinion moyenne, en prenant la médiane des notes qualitatives sur la perception de l’image (excellent, bon, moyen, mauvais, médiocre), permettra de mettre en perspective les autres métriques calculées. Pour cette expérience – plus de 2000 images (les images tirées de FFHQ, et les images générées respectivement DSSC-Défaut et DSSC-HR) – seulement trois jeux complets d’étiquetage (c.-à-d. trois annotations différentes sur la qualité perçue de chaque image) sont disponibles. C’est peu pour une interprétation statistique approfondie, mais suffisant pour interpréter les expériences (performances des modèles et métriques).
Il faut noter que le jeu de données FFHQ étant d’excellente qualité (visage en gros plan, généralement sur une surface d’au moins 1000 × 1000 pixels) relativement aux capacités des modèles (128 × 128 et 256 × 256 pixels – pour la zone traitée c.-à-d. le visage), il y a par conséquent une perte d’informations inhérente aux modèles (résolution prise en charge) lors de l’échange de visages. Non compensée par les étapes ultérieures au traitement (face enhancement, super-résolution), cette dégradation est sanctionnée lors de l’étiquetage. Par choix, les images n’ont pas été redimensionnées après traitement afin de récupérer davantage d’informations pour l’analyse des métriques. Cependant lors d’une attaque, même sur des images de grande qualité, les visages n’occupent pas une telle dimension.
L’analyse des annotations de qualité perçue montre que les hypertrucages générés en utilisant les deux configurations (DSSC-Défaut et DSSC-HR) sont plutôt de bonne qualité perçue, sans être jugés excellents. La distribution pour HR est légèrement déviée vers une meilleure qualité perçue, laissant présager la possibilité d’obtenir de meilleurs hypertrucages. On remarque également que la qualité des images « sources » et « cibles » est globalement meilleure. Cela s’explique notamment par le fait qu’a minima les résolutions (128 × 128 et 256 × 256) gérées par les modèles induisent une perte d’informations perçue par les annotateurs, sans tenir compte des éventuels artefacts apparus lors de la génération.
Figure 3 : Les distributions des annotations montrent que les jeux de données DSSC sont de bonne qualité générale
On observe une homogénéité générale des résultats entre les deux configurations. Toutefois, des images générées présentent des variations de qualité selon la configuration utilisée : qualité perçue élevée pour DSSC-HR et qualité perçue moyenne ou faible pour DSSC-Défaut, et inversement. Ce phénomène suggère l’intérêt de tester plusieurs configurations afin de sélectionner l’hypertrucage le plus performant. Cette approche de sélection s’aligne étroitement sur celle des attaquants, qui sera analysée plus en détail dans la suite de l’étude.
Figure 4 : L’existence de cas où une configuration performe plus que l’autre souligne l’intérêt d’essayer plusieurs configurations
Si certaines métriques semblaient théoriquement pertinentes pour retranscrire la qualité perçue subjective, l’analyse des corrélations entre les annotations de qualité perçue et les scores des métriques permet d’en écarter certaines : BRISQUE, NIQE, ClipIQA, kNN-GIQA. Les métriques conservées permettront d’analyser sous différents angles la qualité perçue des hypertrucages. Q-Align et GIQA reflètent la qualité (« métriques croissantes » : meilleure qualité = valeur élevée), les autres reflètent la dégradation (« métriques décroissantes » : meilleure qualité = valeur faible).
Figure 5 : On retient les métriques d’IQA corrélées avec les annotations humaines de qualité perçue. Note d’analyse : pour faciliter la comparaison d’une métrique à l’autre, les valeurs extrêmes sont tronquées et une normalisation entre 0 et 1 est effectuée en conservant les propriétés de dispersion des distributions.
Les métriques de qualité d’image sont corrélées à la qualité perçue à une intensité faible. Plusieurs raisons possibles à la faiblesse de ces corrélations :
p-valeur=9e-9), la corrélation sur les valeurs extrêmes (qualité perçue médiocre ou excellente)
est de 0.34 (p-valeur=2e-4).Figure 6 : La présence de certaines caractéristiques sur les images sources impacte la qualité perçue de l’hypertrucage
La présence de lunettes et de zones de visages masquées dégradent substantiellement la génération des hypertrucages. De la même manière, si l’individu de l’image source porte une barbe ou montre des émotions fortes, le trucage a moins de chances d’être abouti.
L’orientation du visage (angles extrêmes) et « flou et bruit » semblent avoir peu d’impact sur la qualité d’un hypertrucage. Cela peut s’expliquer, dans le premier cas par la petite taille de l’échantillon et mériterait d’être approfondi (en distinguant les vues de profil, la plongée, la contre-plongée) et dans le second, par la capacité du modèle à faire abstraction de ces défauts de qualité et l’application du modèle de face enhancement après la génération.
La qualité d’un hypertrucage est également affectée par la présence simultanée de plusieurs caractéristiques. Cependant, le nombre restreint d’exemples possédant plus de deux caractéristiques au sein de la même source, limite la portée de ce constat.
La différence de qualité entre l’image source et l’image cible n’a pas d’influence notable sur la qualité finale de l’hypertrucage. En effet, même lorsque l’écart de score renvoyé par les métriques entre les deux images (cible et source) est important, la qualité du résultat hypertruqué reste globalement stable.
Certaines métriques montrent une corrélation faible néanmoins significative entre la dégradation de l’image cible et la qualité de l’hypertrucage. La dégradation de l’image cible est calculée en prenant la différence de qualité entre la cible et l’image générée pour chaque image une fois les valeurs aberrantes retirées. Cette mesure est ensuite moyennée par groupe d’annotation (Médiocre, Mauvais, etc..).
Figure 7 : La métrique Q-Align montre une corrélation faible (spearman=-0.2, p-valeur=5e-9)
entre la dégradation de l’image cible et la qualité perçue de l’hypertrucage
Cela renforce l’intuition suivante : si les scores des métriques sur l’image générée (c.-à-d. le deepfake) sont plus faibles que sur l’image cible (c.-à-d. le visage de l’attaquant dans le scénario qu’on considère), alors il est fort probable que l’échange soit d’une mauvaise qualité perçue. Il serait donc envisageable pour un attaquant de considérer cette heuristique dans le cadre d’une production en masse avant un premier contrôle visuel.
Figure 8 : Exemples des deux filigranes testés (à gauche « visible » et à droite « discret »)
Une première préconisation de protection contre les hypertrucages pourrait être l’ajout d’un filigrane. Deux filigranes différentes ont été testé, un « discret » dégradant peu l’image, et un beaucoup plus visible.
Figure 9 : Exemple de face swap sur une source comportant un filigrane
Cependant, les modèles actuels semblent robustes contre ces protections. Les analyses, montrent que l’apposition d’un filigrane simple sur une image source n’impacte pas ou très peu la qualité d’un hypertrucage.
Figure 10 : L’ajout d’un filigrane ne semble pas impacter la qualité du trucage
Pour reproduire la démarche d’un attaquant, nous avons étudié la capacité à produire avec Facefusion à produire des hypertrucages de la meilleure qualité possible. Contrairement aux cas précédents, où les images source et cible tirées de FFHQ étaient associées aléatoirement (donc régulièrement de manière sous-optimale : p. ex. des individus peu ressemblants, des postures, expositions très différentes) les sources et les cibles du face swapping ont été associées à la main.
Figure 11 : Les associations sources et cibles peuvent être plus ou moins convaincantes
De la même manière, l’ensemble des paramètres et outils proposés dans Facefusion ont pu être finement ajustés par tâtonnement, en fonction de nos perceptions mais sans retouche ultérieure.
Figure 12 : Essayer différents modèles et configurations permet une création plus fine de l’hypertrucage
Sur la base de ce protocole, on construit un jeu de données « Attaquant » :
Figure 13 : La qualité du jeu de données « Attaquant » (hypertrucages uniquement) est meilleure que celle de DSSC (Défaut et HR), au sens des métriques d’IQA
La taille du jeu de données « Attaquant » est trop réduite pour conclure statistiquement. L’expérience confirme cependant la difficulté générale à détecter perceptuellement un hypertrucage.
Les recherches sur la capacité humaine à détecter des hypertrucages montrent que face à des hypertrucages de haute qualité, la précision des participants à ces études est à peine supérieure au hasard, tout en démontrant une confiance trop élevée en leur capacité à distinguer les images authentiques des fausses1.
Le tableau ci-dessous montre que les annotateurs peinent à identifier les trucages des images authentiques.
| Annotateur | Précision | F1 | Rappel |
|---|---|---|---|
| 1 | 0.28 | 0.37 | 0.56 |
| 2 | 0.28 | 0.38 | 0.61 |
| 3 | 0.32 | 0.39 | 0.50 |
| « Toujours authentique » | 0.33 | 0.50 | 1.00 |
| 4 | 0.35 | 0.47 | 0.72 |
| 5 | 0.36 | 0.46 | 0.65 |
| 6 | 0.39 | 0.47 | 0.60 |
| Moyenne | 0.41 | 0.51 | 0.68 |
| 7 | 0.44 | 0.49 | 0.55 |
| 8 | 0.44 | 0.51 | 0.60 |
| 9 | 0.44 | 0.56 | 0.78 |
| Note d’opinion moyenne | 0.46 | 0.58 | 0.80 |
| 10 | 0.46 | 0.61 | 0.90 |
| 11 | 0.48 | 0.54 | 0.61 |
| 12 | 0.48 | 0.59 | 0.75 |
| 13 | 0.48 | 0.61 | 0.83 |
| Détecteur (modèle RECCE) | 0.50 | 0.62 | 0.80 |
| 14 | 0.55 | 0.65 | 0.80 |
| 15 | 0.61 | 0.71 | 0.85 |
L’expérience met en évidence la capacité d’un attaquant à tromper un public averti avec ces outils simples d’utilisation et sans retouche logicielle après génération.
Figure 14 : Matrice de confusion de la note d’opinion moyenne (MOS) des annotateurs, de très nombreuses images truquées sont prises pour des authentiques (case en haut à droite)
Le modèle RECCE utilisé depuis le dépôt « DeepfakeBench », un détecteur à l’état de l’art (lien vers l’article de recherche) a de meilleurs performances que la plupart de nos annotateurs.
Figure 15 : Le détecteur RECCE a une meilleure précision que le vote de majorité des annotateurs
Les expériences ont mis en valeur que les modèles de face swap utilisables facilement sont très performants et peuvent être optimisés en ajustant les configurations des modèles et en choisissant avec soin les paires source-cible (posture, ressemblance) pour produire des trucages presque indétectables humainement. La qualité des images et la présence d’accessoires obstruant le visage sont des paramètres freinant les capacités des modèles, mais l’ajout d’un filigrane ne semble pas être une mesure de protection efficace.
Plusieurs prolongements pourraient directement enrichir cette étude. Face à la difficulté des humains à détecter les hypertrucages, une revue des capacités des détecteurs existants semble nécessaire. Dans le cadre des solutions de vérification d’identité, les analyses de qualité et de détection sur les modèles pourraient être accompagnées d’une analyse de leurs capacités à « préserver » l’identité du visage usurpé.
Les taux de consensus sur notre expérience retrouvent en partie les constatations établies en recherche : les annotateurs sont plus fiables sur des images de très mauvaise ou de très bonne qualité. Cela se retrouve bien dans les générations ratées (Médiocre), mais le consensus est moindre pour les réussies. Cela peut s’expliquer par le fait que notre jeu de données est biaisé (images de bonne qualité) et les annotateurs également (connaissances en hypertrucages et vigilance renforcée sur certains artefacts connus comme la gestion des accessoires).
| Qualité perçue | Nombre de votes | Consensus |
|---|---|---|
| Médiocre | 56 | 86 % |
| Mauvaise | 167 | 80 % |
| Moyenne | 272 | 79 |
| Bonne | 390 | 72 % |
| Excellente | 54 | 74 % |
| Total | 939 | 76 % |