Gouvernement
PEReN – Pôle d’Expertise de la Régulation Numérique
L’expertise de la science des données au service de la régulation numérique
L’essor de l’IA générative entraine l’utilisation de millions d’images originales pour en générer de nouvelles. Identifier précisément les œuvres originales utilisées pour produire une image artificielle particulière est non seulement très coûteux en puissance de calcul mais surtout incertain. Dans une approche différente, le PEReN explore la méthode dite de « recherche des plus proches voisins », qui permet, à faible coût, de savoir quelles sont les images d’un jeu d’entraînement qui sont les plus similaires à une image générée. Bien qu’imparfait, ce procédé permet d’objectiver des relations et d’ouvrir une discussion sur cette question.
Le champ de recherche « Training Data Attribution » permet d’explorer des réponses à la problématique technique posée. Étudiant initialement l’influence des données d’entraînement sur le contenu généré, de nouveaux travaux approfondissent ces techniques pour identifier les contenus originaux utilisés pour entraîner les modèles d’IA générative.
Deux types de méthodes sont à l’œuvre :
Les méthodes causales offrent une explicabilité robuste au sens statistique et en théorie, mais leur mise en œuvre est complexe et coûteuse en ressources, même pour des approches plus légères comme SHAP ou LIME. Conçues pour expliquer les prédictions de classifieurs, elles montrent rapidement leurs limites face aux modèles génératifs text-to-image examinés dans cette étude, dont la complexité et le volume de données d’entraînement rendent difficile l’identification précise des influences sur les contenus produits.
Nous avons donc exploré une approche non-causale, plus simple, légère et qui peut être appliquée en une fraction de temps de calcul de la génération y compris sur de très vastes ensembles de données. Le prototype d’identification envisagé s’appuie sur une méthode fondée sur la proximité entre des contenus originaux présents dans une base de données d’entraînement et ceux générés par l’IA générative entraînée sur cette base. Pour une image générée, l’objectif est donc de trouver les images originales qui sont les plus similaires à celle-ci. Comme nos tests le montreront, la notion de similarité entre œuvres peut recouvrir plusieurs axes et dépend de l’embedder choisi : la similarité dans le contenu ou la similarité dans le style par exemple.
La recherche de contenus similaires, ou « recherche des plus proches voisins », repose sur trois étapes (voir Figure 1) :Figure 1 : Fonctionnement du dispositif de recherche des plus proches voisins. Dans cet exemple, la recherche s’est limitée à 2 plus proches voisins
Le prototype ainsi développé a fait l’objet d’une série de tests afin d’en caractériser les performances et limites. Le cadre expérimental s’est limité aux modèles text-to-image non intégrés à des systèmes tels que le RAG (Retrieval-Augmented Generation) qui permet de prendre en compte des images originales supplémentaires à celles du jeu d’entraînement. Dans notre cas, la base de données de contenus originaux est un sous ensemble du jeu de données d’entraînement du modèle génératif. Pour choisir les attributions, nous avons fixé un nombre K de plus proches voisins.
À partir du jeu de données d’attribution créé par Wang et al. (2023) selon le processus illustré en Figure 2, nous avons sélectionné un sous-ensemble de données constitué uniquement des œuvres libres de droit et des images générées à partir de celles-ci, soit 1 576 œuvres originales pour 8 400 images générées.
Figure 2 : Principe de constitution du jeu de données d’attribution issu de Wang et al.
Le jeu de données de référence ainsi obtenu se divise en deux sous-ensembles :
Dans le jeu de données d’attribution, à chaque artiste correspond un ensemble d’œuvres originales. Les images synthétiques ont été générées par Wang et al. à l’aide d’un modèle text-to-image ré-entraîné avec les œuvres appartenant à l’artiste en question.
Au départ, deux méthodes de recherche de contenus similaires ont été envisagées :
Une comparaison plus approfondie des deux méthodes est disponible en annexe 1.
Etant donné la faible taille de notre base d’indexation, nous n’avons pas pu observer de différence de performance entre les méthodes de recherche exacte (KD-Tree) et approchée (HNSW). Ainsi, nous détaillons uniquement les résultats obtenus au niveau du jeu de données global et au niveau de chaque image générée pour la méthode HNSW (exemple d’attribution en Figure 3). Le nombre K d’images attribuées, établi entre 1 et 100 pour cette expérience, est fixé pour toutes les images générées.
Figure 3 : Exemple d’attributions obtenues avec la méthode HNSW pour une image générée, en fonction du rang d’attribution (de 1 à 100). On observe que plus le rang augmente, plus les images attribuées s’éloignent visuellement de l’image générée. Cette visualisation souligne l’intérêt de faire varier le nombre d’attributions K pour analyser l’impact sur la précision de la méthode utilisée
Pour évaluer la performance au niveau du jeu de données global, nous mesurons le pourcentage d’images générées avec au moins une image attribuée provenant du véritable artiste ayant inspiré l’image générée. Dans la majorité des cas, la méthode parvient à attribuer une partie de l’inspiration au bon artiste comme illustré en Figure 4.
Figure 4 : Proportion d’images générées ayant au moins une image attribuée correcte (le bon artiste est présent au moins une fois), en fonction du nombre de K plus proches voisins fixé
Deux métriques, moyennées sur chaque jeu de données, évaluent la performance au niveau de chaque image générée (voir Figure 5) :
Figure 5 : Précision et rappel moyens sur l’ensemble des images générées, en fonction du nombre K plus proches voisins fixé
Nous observons également que la méthode fonctionne mieux sur le jeu de données « gpt » (prompts vagues et abstraits) que sur « object » (prompts précis et concrets). Une piste d’explication à cette différence de performance sera proposée plus bas. Dans une deuxième expérience, nous avons fixé K selon le nombre d’images réelles d’inspiration de chaque image générée. À partir des résultats (voir Figure 13 en annexe 2), nous avons abouti aux mêmes conclusions.
Dans le jeu de données de référence utilisé, chaque image générée est inspirée par des images provenant d’un seul artiste. Il est donc possible qu’une grande diversité d’artistes dans les images attribuées par la méthode soit liée à une mauvaise attribution : cela pourrait indiquer que le style de l’image générée a été mal discerné et pourrait être attribué à plusieurs artistes différents. À l’inverse, si la méthode attribue des images provenant d’un unique artiste, cela pourrait indiquer une plus grande certitude concernant le style d’inspiration de l’image générée. Si l’hypothèse est vérifiée, cela donne un indicateur de la confiance que l’on peut avoir en l’attribution (voir illustration en Figure 6).
Figure 6 : Illustration du lien entre diversité des artistes attribués et succès de l’attribution. En haut : une diversité maximale d’artistes attribués est associée à une mauvaise attribution. En bas : une diversité minimale d’artistes attribués est associée à une bonne attribution.
Des tests statistiques ont été menés sur le lien entre diversité des artistes attribués à une image générée et métriques de performance binaires. La diversité est calculée par l’entropie de Shannon sur les artistes attribués et comprise entre 0 et 1. Elle est égale à 1 quand on attribue autant d’artistes distincts que d’images, et à 0 quand on attribue un seul artiste.
Nous effectuons un premier test de Mann-Whitney en comparant les distributions de diversité des artistes attribués en fonction de si l’artiste réel était bien présent parmi les images attribuées. La faible p-value associée à ce test (p = 5.4e-56) confirme la différence de distribution associée. Nous effectuons le même test ensuite en comparant les cas où l’œuvre attribuée en plus proche voisin correspond à l’artiste original ou non. Une différence de distribution est une fois de plus identifiée (p = 5.9e-87). Les résultats de ces tests montrent donc un lien significatif entre la diversité des artistes attibués et :
La diversité des artistes attribués peut donc constituer un indice partiel de la confiance à accorder dans les prédictions de la méthode. Cependant, ce constat pourrait ne pas être généralisable à un jeu de données de référence constitué d’images générées à partir d’œuvres originales de plusieurs artistes.
Jusqu’ici, nous avons utilisé la distance entre les embeddings pour identifier les plus proches voisins, mais cette distance est aussi une information en tant que telle. Nous pouvons imaginer l’utiliser comme un indicateur du niveau de confiance que l’on peut donner à une attribution. Des images correctement attribuées auraient une distance faible car très proches, tandis que les images mal attribuées auraient une distance plus élevée puisque moins proches sémantiquement. Une distance entre embeddings de l’image générée et de son plus proche voisin en-deçà d’un certain seuil pourrait donc indiquer une grande confiance quant à l’attribution (voir illustration en Figure 7).
Figure 7 : Illustration du lien entre distance au plus proche voisin et succès de l’attribution. En haut : une image générée inspirée par Fra Carnavele, faussement attribuée à une œuvre de Gustave Caillebotte. En bas : une image générée inspirée par Carracci, correctement attribuée à une œuvre de Carracci.
Nous effectuons trois tests statistiques de Mann-Whitney sur la distribution des distances entre embeddings. Ces distributions sont bien différentes en fonction de la présence de l’artiste réel parmi les images attribuées (p = 2.4e-54), de l’identification d’une œuvre de l’artiste réel comme plus proche voisin (p = 2.1e-106) et de la présence seule de l’artiste dans les images attribuées (p = 4.0e-42)
Les résultats tendent à montrer un lien statistiquement significatif entre les distances au plus proche voisin de l’embedding de l’image générée et :
Une faible distance entre les embeddings peut donc constituer un autre indice de la pertinence des attributions de la méthode. Cette distance est elle-même dépendante de l’embedder choisi.
| | Artiste réel présent | Plus proche voisin issu de l’artiste réel | Artiste réel seul |
|---|---|---|---|
| Hypothèse 1 : diversité des artistes | p = 5.4e-56 | p = 5.9e-87 | N/A |
| Hypothèse 2 : distances entre embeddings | p = 2.4e-54 | p = 2.1e-106 | p = 4.0e-42 |
Table 1 : Table récapitulative des résultats des tests statistiques pour deux hypothèses. On considère ici le jeu de données « gpt » et un nombre d’images attribuées égal au nombre d’images d’inspiration pour chaque image générée. Pour chaque hypothèse, le test réalisé est celui de Mann-Whitney entre les distributions de deux classes définies par la métrique en colonne. Par exemple, la p-value associée aux valeurs de diversité des artistes pour les images où l’artiste réel est présent vs. les images où l’artiste réel n’est pas présent est de 5.4e-56.
Une image peut être caractérisée à la fois par son contenu (par exemple les objets présents dans l’image) et son style (mouvement artistique, couleurs utilisées, etc.). Ainsi, une prise en compte insuffisante du style des images par les embedders est susceptible de conduire à des erreurs d’attribution.
Il est possible que l’embedder utilisé (CLIP) encapsule davantage le contenu des images en négligeant le style. En effet, les paires texte–image contenues dans le jeu de données d’entraînement de CLIP proviennent d’un corpus Web appelé WebImageText, qui regroupe 400 millions de paires image–texte. Ces textes décrivent avant tout le contenu visuel de chaque image pour en assurer l’accessibilité, et non le style de l’image. Les embeddings ainsi extraits perdraient une partie de l’information liée au style de l’image, ce qui influencerait le résultat du calcul de la distance : deux images de styles différents mais faisant figurer les mêmes objets pourraient apparaître comme très proches. Ainsi, les erreurs d’attribution de la méthode seraient liées à des embeddings peu appropriés : choisir un embedder plus pertinent, c’est à dire adapté aux priorités et aux objectifs d’attribution, permettrait alors d’améliorer la méthode à peu de frais.
Les embedders spécialisés dans l’extraction d’information de style, comme ALADIN (Ruta et al., 2021), n’étant pas disponibles sous une licence permettant leur utilisation, nous avons cherché à vérifier si les images attribuées étaient plus proches, en termes de contenu, de l’image générée que des images de référence. Cela pourrait suggérer que l’attribution basée sur les embeddings de CLIP favorise le contenu, plus que le style.
Étant donné qu’il est difficile de trouver un embedder dont nous pouvons être certains qu’il n’encapsule strictement que le contenu, nous avons décidé de passer par la génération de descriptions pour n’extraire que le contenu des images. En effet, en raison de la nature décrite plus haut des données d’entraînement, les modèles multimodaux text-to-image semblent plus adaptés pour extraire le contenu d’une image. Pour quantifier la similarité entre deux images en termes de contenu, nous avons suivi ces étapes (voir détails en annexe 3) :Figure 8 : Distribution de la similarité cosinus entre les embeddings encapsulant le contenu des images attribuées, et ceux encapsulant le contenu des images réelles ayant servi d’inspiration. Une plus grande similarité signifie un contenu plus homogène parmi les images. Le test statistique de Mann-Whitney est significatif au seuil de 0.0001. On considère ici les images attribuées par la méthode HNSW, le jeu de données « gpt » et un nombre d’images attribuées égal au nombre d’images d’inspiration pour chaque image générée.
Les résultats de la Figure 8 montrent que la distribution de similarité des contenus est différente entre les images attribuées et les images ayant réellement inspiré les images générées (p = 6.6e-116). Nous observons également que les embeddings sont légèrement plus similaires pour les images attribuées que pour celles de référence.
Les images attribuées sont donc plus homogènes en contenu que les images réelles ayant servi d’inspiration. Cela est cohérent avec l’hypothèse que l’embedder encapsulerait le contenu des images plutôt que le style (voir illustration en Figure 9). Cependant, cela ne montre pas formellement que les images sont attribuées parce qu’elles ont un contenu similaire à l’image générée.
Figure 9 : Illustration du biais pour l’embedder vers le contenu des images plutôt que leur style artistique. A gauche : les images d’inspiration de l’image générée, de style artistique similaire mais de contenu différent. A droite : les images attribuées incorrectes, de style artistique différent mais de contenu similaire (bateau, mer, nuages).
Cette plus grande homogénéité de contenu dans les images attribuées pourrait également expliquer pourquoi la méthode proposée a de moins bonnes performances sur le jeu de données « object » que sur le jeu de données « gpt » : il est obtenu avec des prompts forçant une plus grande variété de contenu dans les images générées (fleurs, animaux, paysages, etc.) que le jeu de données « gpt ». Un embedder plus sensible au contenu expliquerait un plus grand nombre de fausses attributions à cause de contenus plus éloignés de ceux des images réelles d’inspiration.
Pour consolider ces observations, l’utilisation d’un embedder spécialisé dans la reconnaissance de styles artistiques tel que ALADIN, ou le recours au fine-tuning d’un embedder plus standard sur des visuels artistiques (peintures, sculptures, etc.), sur la base de données de référence pourrait être pertinent.
Lorsqu’on évalue la robustesse d’un processus d’attribution d’images, il est nécessaire de considérer la possibilité que l’index initial puisse être incomplet ou erroné. Dans ce contexte, on introduit le « bruit » qui désigne l’ajout potentiel d’images supplémentaires à l’index : soit l’ajout d’images homogènes (même domaine, art), complétant ainsi potentiellement une base initialement incomplète, soit l’ajout d’images hétérogènes (domaine différent, visages – FFHQ), qui pourraient perturber le processus.
Pour mesurer cette robustesse, nous comparons l’attribution initiale d’œuvres originales (en limitant la recherche à une sous-partie de l’index de référence) à l’attribution après introduction du bruit.
L’analyse illustrée par la Figure 10 montre que :
Figure 10 : Pourcentage de correspondance moyen entre l’attribution initiale (sans bruit) et celle obtenue après introduction de bruit, en fonction du niveau (10 %, 25 %, 50 %, 75 %) et du type de bruit (Homogène/Art vs. Hétérogène/Visages).
Ces résultats mettent en évidence une forte sensibilité à la composition de l’index. Un index incomplet ou contaminé risque ainsi d’entraîner des omissions critiques dans l’identification des œuvres originales ayant inspiré les images générées, constituant un enjeu majeur pour la fiabilité du système d’attribution.
Les expériences montrent que la méthode proposée, fondée sur la recherche par similarité, présente une efficacité prometteuse, la fiabilité du résultat devant être analysée au regard du nombre d’artistes attribués par l’algorithme, de la distance entre les embeddings des images d’origine et générées ou de la présence de bruit dans l’index.
Une propriété intéressante de cette approche est que la similarité calculée par l’algorithme dépend du choix de l’embedder et qu’il est ainsi possible de choisir celui le plus adapté au cas d’usage en priorisant la sémantique du contenu de l’image, son style ou d’autres paramètres.
Ce prototype ne permet pas toujours d’identifier avec précision les œuvres originales exactes ayant inspiré chaque image générée. En effet, même si l’artiste réellement influent est identifié, d’autres artistes peuvent également être attribués par erreur ou non (par exemple dans le cas d’auteurs issu d’un même courant artistique avec des marqueurs forts). La tolérance à ce type d’erreur est paramétrable (en faisant varier le seuil et le nombre d’attributions) et reste un champ à explorer pour avoir des résultats qui permettent d’obtenir des attributions cohérentes en moyenne.
Ces mécanismes d’attribution pourraient alors constituer un socle pour envisager des modèles de répartition de la rémunération des ayants droits d’œuvres originales en fonction de leur contribution estimée à la génération d’une œuvre. Là encore, de nombreux champs peuvent être explorés concernant les méthodes de rémunération qui en découleraient (voir un exemple en Figure 11). Deux approches peuvent être mentionnées :
Figure 11 : Illustration de l’attribution d’images sources pour une génération d’image. En haut, les deux peintures de Cimabue (« Virgin Enthroned with Angels » et « Madonna Enthroned » ) ayant servi à la génération selon l’algorithme , chacune à part égale, annotée « 50 %". En bas, les deux tableaux ayant effectivement servi à la génération, toujours indiquée à 50 % chacun, qui s’avèrent être les même que ceux suggérés par l’algorithme. Illustrant ainsi un exemple réussi d’attribution fondée sur la similarité d’embeddings.
Bien que le développement de ce prototype se soit focalisé sur les modèles génératifs d’images, il existe des méthodes similaires pour l’audio. Concernant la génération de contenu textuel, d’autres techniques sont applicables comme TracIN ou DataInf, mais la dimension discrète de la génération de texte peut rendre l’identification de la proportion des données d’entraînement qui ont influencé la génération plus complexe.
Ces travaux de prototypage, à vocation exploratoire et technique, ne présument pas des cas dans lesquels ils pourraient être déclinés ou appliqués. Ils ont vocation à nourrir des réflexions émergentes. De nombreuses incertitudes sur ces différentes méthodologies subsistent, inhérentes aux limites actuelles des systèmes d’IA à fournir une réponse univoque et incontestable concernant l’origine des contenus générés.
Pour notre prototype, nous avons comparé deux techniques spécifiques :
| | Exactitude | Rapidité | Facilité d’implémentation | Scalabilité et robustesse aux variations |
|---|---|---|---|---|
| Recherche des plus proches voisins (HNSW) | Recherche approchée, bonne précision avec légère marge d’erreur | Très rapide après indexation, mais phase de construction plus longue | Nécessite un paramétrage précis | Fiable malgré les variations et très efficace sur de grandes bases et hautes dimensions |
| Recherche des plus proches voisins (KD-Tree) | Recherche exacte, efficace sur petites bases mais moins performante en haute dimension | Indexation rapide, mais temps de recherche qui augmente avec la taille de la base | Simple à mettre en place | Moins fiable et performant lorsque les données sont de haute dimension, adapté aux petites base. |
L’évaluation de la méthode en attribuant un même nombre K d’images pour toutes les images générées est
sujette à un biais : toutes les images générées ne l’ont pas été avec un même nombre d’œuvres réelles.
Entre 1 et 67 œuvres ont servi à ré-entraîner le modèle de génération selon l’image générée. Ainsi, les
images générées inspirées par seulement deux images réelles auront nécessairement des attributions
incorrectes si on demande à la méthode de leur attribuer cinq images d’inspiration, sans que cela ne soit
dû à un défaut de la méthode.
Afin de supprimer ce biais, nous attribuons pour chaque image
générée un nombre d’images identique au nombre d’images réelles ayant servi à ré-entraîner le modèle qui a
généré l’image. Il en découle que, dans ce cadre, les métriques de précision et de rappel sont
équivalentes. La Figure 13 montre les performances d’attribution. On observe aussi que la méthode est bien
meilleure sur le jeu de données « gpt » que sur « object ».