Contenu généré et original : un exemple d'approche pour identifier leur similarité dans un jeu de données d’images artistiques

L’essor de l’IA générative entraine l’utilisation de millions d’images originales pour en générer de nouvelles. Identifier précisément les œuvres originales utilisées pour produire une image artificielle particulière est non seulement très coûteux en puissance de calcul mais surtout incertain. Dans une approche différente, le PEReN explore la méthode dite de « recherche des plus proches voisins », qui permet, à faible coût, de savoir quelles sont les images d’un jeu d’entraînement qui sont les plus similaires à une image générée. Bien qu’imparfait, ce procédé permet d’objectiver des relations et d’ouvrir une discussion sur cette question.

Accéder au code source de l'outil

Une méthode académique applicable : la recherche des plus proches voisins

Le champ de recherche « Training Data Attribution » permet d’explorer des réponses à la problématique technique posée. Étudiant initialement l’influence des données d’entraînement sur le contenu généré, de nouveaux travaux approfondissent ces techniques pour identifier les contenus originaux utilisés pour entraîner les modèles d’IA générative.

Deux types de méthodes sont à l’œuvre :

les méthodes « causales » qui étudient spécifiquement l’influence d’une donnée du jeu d’entraînement sur l’entraînement et la génération, comme SHAP. La notion de causalité signifie que si la donnée d’entraînement n’avait pas été présente, alors le résultat produit aurait nécessairement été différent, ce qui en pratique est quasiment impossible à démontrer sur de très larges jeux de données ;
les méthodes « non-causales » qui cherchent à identifier, pour un contenu généré, les données d’entraînement qui sont les plus proches (stylistiquement, sur leur contenu ou sur des aspects plus « mathématiques »), mais la suppression de ces données n’entraînerait pas nécessairement de différence sur le contenu généré. Une ressemblance peut donc être fortuite. Dans ce cas, les méthodes de similarité sont plus simples et plus rapides à mettre en œuvre, comme la recherche des plus proches voisins.

Les méthodes causales offrent une explicabilité robuste au sens statistique et en théorie, mais leur mise en œuvre est complexe et coûteuse en ressources, même pour des approches plus légères comme SHAP ou LIME. Conçues pour expliquer les prédictions de classifieurs, elles montrent rapidement leurs limites face aux modèles génératifs text-to-image examinés dans cette étude, dont la complexité et le volume de données d’entraînement rendent difficile l’identification précise des influences sur les contenus produits.

Nous avons donc exploré une approche non-causale, plus simple, légère et qui peut être appliquée en une fraction de temps de calcul de la génération y compris sur de très vastes ensembles de données. Le prototype d’identification envisagé s’appuie sur une méthode fondée sur la proximité entre des contenus originaux présents dans une base de données d’entraînement et ceux générés par l’IA générative entraînée sur cette base. Pour une image générée, l’objectif est donc de trouver les images originales qui sont les plus similaires à celle-ci. Comme nos tests le montreront, la notion de similarité entre œuvres peut recouvrir plusieurs axes et dépend de l’embedder choisi : la similarité dans le contenu ou la similarité dans le style par exemple.

La recherche de contenus similaires, ou « recherche des plus proches voisins », repose sur trois étapes (voir Figure 1) :

la vectorisation, qui consiste à transformer les images de référence ainsi que les images générées en représentations vectorielles, appelées embeddings. Ces vecteurs capturent les caractéristiques sémantiques et visuelles des images. Dans ce travail, nous avons utilisé l’embedder CLIP ;
l’indexation, qui consiste à organiser les embeddings extraits des images de référence au sein d’une base optimisée pour la recherche rapide des plus proches voisins ;
la recherche, qui permet d’identifier, pour un contenu généré, les éléments les plus proches dans cet index, selon une mesure de similarité.

Figure 1 : Fonctionnement du dispositif de recherche des plus proches voisins. Dans cet exemple, la recherche s’est limitée à 2 plus proches voisins

Le prototype ainsi développé a fait l’objet d’une série de tests afin d’en caractériser les performances et limites. Le cadre expérimental s’est limité aux modèles text-to-image non intégrés à des systèmes tels que le RAG (Retrieval-Augmented Generation) qui permet de prendre en compte des images originales supplémentaires à celles du jeu d’entraînement. Dans notre cas, la base de données de contenus originaux est un sous ensemble du jeu de données d’entraînement du modèle génératif. Pour choisir les attributions, nous avons fixé un nombre K de plus proches voisins.

Des tests conduits à partir d’un jeu de données de référence

À partir du jeu de données d’attribution créé par Wang et al. (2023) selon le processus illustré en Figure 2, nous avons sélectionné un sous-ensemble de données constitué uniquement des œuvres libres de droit et des images générées à partir de celles-ci, soit 1 576 œuvres originales pour 8 400 images générées.

Figure 2 : Principe de constitution du jeu de données d’attribution issu de Wang et al.

Le jeu de données de référence ainsi obtenu se divise en deux sous-ensembles :

« gpt », composé de 4 200 images générées avec des prompts plutôt relatifs à des concepts abstraits générés par ChatGPT, comme « The grandeur of the past in the style of [artiste] art ».
« object », composé de 4 200 images générées avec des prompts plus précis et spécifiant un objet particulier à générer, comme « A painting of flower in the style of [artiste] art ».

Dans le jeu de données d’attribution, à chaque artiste correspond un ensemble d’œuvres originales. Les images synthétiques ont été générées par Wang et al. à l’aide d’un modèle text-to-image ré-entraîné avec les œuvres appartenant à l’artiste en question.

Une analyse des performances de la méthode

Au départ, deux méthodes de recherche de contenus similaires ont été envisagées :

la recherche exacte (méthode KD-Tree, K-Dimensional Tree) ;
la recherche approchée (algorithme HNSW, Hierarchical Navigable Small Worlds).

Une comparaison plus approfondie des deux méthodes est disponible en annexe 1.

Etant donné la faible taille de notre base d’indexation, nous n’avons pas pu observer de différence de performance entre les méthodes de recherche exacte (KD-Tree) et approchée (HNSW). Ainsi, nous détaillons uniquement les résultats obtenus au niveau du jeu de données global et au niveau de chaque image générée pour la méthode HNSW (exemple d’attribution en Figure 3). Le nombre K d’images attribuées, établi entre 1 et 100 pour cette expérience, est fixé pour toutes les images générées.

Figure 3 : Exemple d’attributions obtenues avec la méthode HNSW pour une image générée, en fonction du rang d’attribution (de 1 à 100). On observe que plus le rang augmente, plus les images attribuées s’éloignent visuellement de l’image générée. Cette visualisation souligne l’intérêt de faire varier le nombre d’attributions K pour analyser l’impact sur la précision de la méthode utilisée

Pour évaluer la performance au niveau du jeu de données global, nous mesurons le pourcentage d’images générées avec au moins une image attribuée provenant du véritable artiste ayant inspiré l’image générée. Dans la majorité des cas, la méthode parvient à attribuer une partie de l’inspiration au bon artiste comme illustré en Figure 4.

Figure 4 : Proportion d’images générées ayant au moins une image attribuée correcte (le bon artiste est présent au moins une fois), en fonction du nombre de K plus proches voisins fixé

Deux métriques, moyennées sur chaque jeu de données, évaluent la performance au niveau de chaque image générée (voir Figure 5) :

la précision (taux d’images correctes parmi les images attribuées) pour différentes valeurs de K reste à améliorer. À partir de deux images attribuées, elle est de moins de 50%, un score insuffisant, bien que largement supérieur au hasard.
le rappel (taux d’images attribuées parmi les images correctes), pour différentes valeurs de K. Ces valeurs sont certes faibles mais sont du même ordre de grandeur que celles présentes dans l’article de Wang et al. .

Figure 5 : Précision et rappel moyens sur l’ensemble des images générées, en fonction du nombre K plus proches voisins fixé

Nous observons également que la méthode fonctionne mieux sur le jeu de données « gpt » (prompts vagues et abstraits) que sur « object » (prompts précis et concrets). Une piste d’explication à cette différence de performance sera proposée plus bas. Dans une deuxième expérience, nous avons fixé K selon le nombre d’images réelles d’inspiration de chaque image générée. À partir des résultats (voir Figure 13 en annexe 2), nous avons abouti aux mêmes conclusions.

Quels facteurs influencent la performance de la méthode retenue ? Quatre hypothèses explorées

Hypothèse 1 : plus le nombre d’artistes attribués à une image est élevé, moins la confiance dans cette attribution est grande

Dans le jeu de données de référence utilisé, chaque image générée est inspirée par des images provenant d’un seul artiste. Il est donc possible qu’une grande diversité d’artistes dans les images attribuées par la méthode soit liée à une mauvaise attribution : cela pourrait indiquer que le style de l’image générée a été mal discerné et pourrait être attribué à plusieurs artistes différents. À l’inverse, si la méthode attribue des images provenant d’un unique artiste, cela pourrait indiquer une plus grande certitude concernant le style d’inspiration de l’image générée. Si l’hypothèse est vérifiée, cela donne un indicateur de la confiance que l’on peut avoir en l’attribution (voir illustration en Figure 6).

Figure 6 : Illustration du lien entre diversité des artistes attribués et succès de l’attribution. En haut : une diversité maximale d’artistes attribués est associée à une mauvaise attribution. En bas : une diversité minimale d’artistes attribués est associée à une bonne attribution.

Des tests statistiques ont été menés sur le lien entre diversité des artistes attribués à une image générée et métriques de performance binaires. La diversité est calculée par l’entropie de Shannon sur les artistes attribués et comprise entre 0 et 1. Elle est égale à 1 quand on attribue autant d’artistes distincts que d’images, et à 0 quand on attribue un seul artiste.

Nous effectuons un premier test de Mann-Whitney en comparant les distributions de diversité des artistes attribués en fonction de si l’artiste réel était bien présent parmi les images attribuées. La faible p-value associée à ce test (p = 5.4e-56) confirme la différence de distribution associée. Nous effectuons le même test ensuite en comparant les cas où l’œuvre attribuée en plus proche voisin correspond à l’artiste original ou non. Une différence de distribution est une fois de plus identifiée (p = 5.9e-87). Les résultats de ces tests montrent donc un lien significatif entre la diversité des artistes attibués et :

la présence de l’artiste réel parmi les images attribuées ;
l’identification d’une œuvre de l’artiste réel comme plus proche voisin.

La diversité des artistes attribués peut donc constituer un indice partiel de la confiance à accorder dans les prédictions de la méthode. Cependant, ce constat pourrait ne pas être généralisable à un jeu de données de référence constitué d’images générées à partir d’œuvres originales de plusieurs artistes.

Hypothèse 2 : plus la distance entre les embeddings est faible, plus les attributions sont fiables

Jusqu’ici, nous avons utilisé la distance entre les embeddings pour identifier les plus proches voisins, mais cette distance est aussi une information en tant que telle. Nous pouvons imaginer l’utiliser comme un indicateur du niveau de confiance que l’on peut donner à une attribution. Des images correctement attribuées auraient une distance faible car très proches, tandis que les images mal attribuées auraient une distance plus élevée puisque moins proches sémantiquement. Une distance entre embeddings de l’image générée et de son plus proche voisin en-deçà d’un certain seuil pourrait donc indiquer une grande confiance quant à l’attribution (voir illustration en Figure 7).

Figure 7 : Illustration du lien entre distance au plus proche voisin et succès de l’attribution. En haut : une image générée inspirée par Fra Carnavele, faussement attribuée à une œuvre de Gustave Caillebotte. En bas : une image générée inspirée par Carracci, correctement attribuée à une œuvre de Carracci.

Nous effectuons trois tests statistiques de Mann-Whitney sur la distribution des distances entre embeddings. Ces distributions sont bien différentes en fonction de la présence de l’artiste réel parmi les images attribuées (p = 2.4e-54), de l’identification d’une œuvre de l’artiste réel comme plus proche voisin (p = 2.1e-106) et de la présence seule de l’artiste dans les images attribuées (p = 4.0e-42)

Les résultats tendent à montrer un lien statistiquement significatif entre les distances au plus proche voisin de l’embedding de l’image générée et :

la présence de l’artiste réel parmi les images attribuées ;
l’identification d’une œuvre de l’artiste réel comme plus proche voisin ;
la présence seule de l’artiste dans les images attribuées.

Une faible distance entre les embeddings peut donc constituer un autre indice de la pertinence des attributions de la méthode. Cette distance est elle-même dépendante de l’embedder choisi.

‍	Artiste réel présent	Plus proche voisin issu de l’artiste réel	Artiste réel seul
Hypothèse 1 : diversité des artistes	p = 5.4e-56	p = 5.9e-87	N/A
Hypothèse 2 : distances entre embeddings	p = 2.4e-54	p = 2.1e-106	p = 4.0e-42

Table 1 : Table récapitulative des résultats des tests statistiques pour deux hypothèses. On considère ici le jeu de données « gpt » et un nombre d’images attribuées égal au nombre d’images d’inspiration pour chaque image générée. Pour chaque hypothèse, le test réalisé est celui de Mann-Whitney entre les distributions de deux classes définies par la métrique en colonne. Par exemple, la p-value associée aux valeurs de diversité des artistes pour les images où l’artiste réel est présent vs. les images où l’artiste réel n’est pas présent est de 5.4e-56.

Hypothèse 3 : l’embedder utilisé capture davantage le contenu d’une image que le style

Une image peut être caractérisée à la fois par son contenu (par exemple les objets présents dans l’image) et son style (mouvement artistique, couleurs utilisées, etc.). Ainsi, une prise en compte insuffisante du style des images par les embedders est susceptible de conduire à des erreurs d’attribution.

Il est possible que l’embedder utilisé (CLIP) encapsule davantage le contenu des images en négligeant le style. En effet, les paires texte–image contenues dans le jeu de données d’entraînement de CLIP proviennent d’un corpus Web appelé WebImageText, qui regroupe 400 millions de paires image–texte. Ces textes décrivent avant tout le contenu visuel de chaque image pour en assurer l’accessibilité, et non le style de l’image. Les embeddings ainsi extraits perdraient une partie de l’information liée au style de l’image, ce qui influencerait le résultat du calcul de la distance : deux images de styles différents mais faisant figurer les mêmes objets pourraient apparaître comme très proches. Ainsi, les erreurs d’attribution de la méthode seraient liées à des embeddings peu appropriés : choisir un embedder plus pertinent, c’est à dire adapté aux priorités et aux objectifs d’attribution, permettrait alors d’améliorer la méthode à peu de frais.

Les embedders spécialisés dans l’extraction d’information de style, comme ALADIN (Ruta et al., 2021), n’étant pas disponibles sous une licence permettant leur utilisation, nous avons cherché à vérifier si les images attribuées étaient plus proches, en termes de contenu, de l’image générée que des images de référence. Cela pourrait suggérer que l’attribution basée sur les embeddings de CLIP favorise le contenu, plus que le style.

Étant donné qu’il est difficile de trouver un embedder dont nous pouvons être certains qu’il n’encapsule strictement que le contenu, nous avons décidé de passer par la génération de descriptions pour n’extraire que le contenu des images. En effet, en raison de la nature décrite plus haut des données d’entraînement, les modèles multimodaux text-to-image semblent plus adaptés pour extraire le contenu d’une image. Pour quantifier la similarité entre deux images en termes de contenu, nous avons suivi ces étapes (voir détails en annexe 3) :

générer des descriptions du contenu des images avec un modèle multimodal ;
calculer des embeddings, sur la base de ces descriptions textuelles ;
calculer la similarité de contenu entre deux images.

Figure 8 : Distribution de la similarité cosinus entre les embeddings encapsulant le contenu des images attribuées, et ceux encapsulant le contenu des images réelles ayant servi d’inspiration. Une plus grande similarité signifie un contenu plus homogène parmi les images. Le test statistique de Mann-Whitney est significatif au seuil de 0.0001. On considère ici les images attribuées par la méthode HNSW, le jeu de données « gpt » et un nombre d’images attribuées égal au nombre d’images d’inspiration pour chaque image générée.

Les résultats de la Figure 8 montrent que la distribution de similarité des contenus est différente entre les images attribuées et les images ayant réellement inspiré les images générées (p = 6.6e-116). Nous observons également que les embeddings sont légèrement plus similaires pour les images attribuées que pour celles de référence.

Les images attribuées sont donc plus homogènes en contenu que les images réelles ayant servi d’inspiration. Cela est cohérent avec l’hypothèse que l’embedder encapsulerait le contenu des images plutôt que le style (voir illustration en Figure 9). Cependant, cela ne montre pas formellement que les images sont attribuées parce qu’elles ont un contenu similaire à l’image générée.

Figure 9 : Illustration du biais pour l’embedder vers le contenu des images plutôt que leur style artistique. A gauche : les images d’inspiration de l’image générée, de style artistique similaire mais de contenu différent. A droite : les images attribuées incorrectes, de style artistique différent mais de contenu similaire (bateau, mer, nuages).

Cette plus grande homogénéité de contenu dans les images attribuées pourrait également expliquer pourquoi la méthode proposée a de moins bonnes performances sur le jeu de données « object » que sur le jeu de données « gpt » : il est obtenu avec des prompts forçant une plus grande variété de contenu dans les images générées (fleurs, animaux, paysages, etc.) que le jeu de données « gpt ». Un embedder plus sensible au contenu expliquerait un plus grand nombre de fausses attributions à cause de contenus plus éloignés de ceux des images réelles d’inspiration.

Pour consolider ces observations, l’utilisation d’un embedder spécialisé dans la reconnaissance de styles artistiques tel que ALADIN, ou le recours au fine-tuning d’un embedder plus standard sur des visuels artistiques (peintures, sculptures, etc.), sur la base de données de référence pourrait être pertinent.

Hypothèse 4 : l’injection d’images dans l’index est susceptible d’impacter l’attribution si celles-ci sont du même domaine que l’image générée

Lorsqu’on évalue la robustesse d’un processus d’attribution d’images, il est nécessaire de considérer la possibilité que l’index initial puisse être incomplet ou erroné. Dans ce contexte, on introduit le « bruit » qui désigne l’ajout potentiel d’images supplémentaires à l’index  : soit l’ajout d’images homogènes (même domaine, art), complétant ainsi potentiellement une base initialement incomplète, soit l’ajout d’images hétérogènes (domaine différent, visages – FFHQ), qui pourraient perturber le processus.

Pour mesurer cette robustesse, nous comparons l’attribution initiale d’œuvres originales (en limitant la recherche à une sous-partie de l’index de référence) à l’attribution après introduction du bruit.

L’analyse illustrée par la Figure 10 montre que :

l’impact de l’ajout de bruit homogène (ici l’autre partie d’ œuvres d’art de l’index de référence est utilisée comme source de bruit) sur l’attribution des images est significatif ;
l’impact de l’ajout de bruit hétérogène (ici des images de visages issues du jeu de données FFHQ) reste limité.

Figure 10 : Pourcentage de correspondance moyen entre l’attribution initiale (sans bruit) et celle obtenue après introduction de bruit, en fonction du niveau (10 %, 25 %, 50 %, 75 %) et du type de bruit (Homogène/Art vs. Hétérogène/Visages).

Ces résultats mettent en évidence une forte sensibilité à la composition de l’index. Un index incomplet ou contaminé risque ainsi d’entraîner des omissions critiques dans l’identification des œuvres originales ayant inspiré les images générées, constituant un enjeu majeur pour la fiabilité du système d’attribution.

En conclusion, un prototype prometteur mais sensible à plusieurs facteurs clés

Les expériences montrent que la méthode proposée, fondée sur la recherche par similarité, présente une efficacité prometteuse, la fiabilité du résultat devant être analysée au regard du nombre d’artistes attribués par l’algorithme, de la distance entre les embeddings des images d’origine et générées ou de la présence de bruit dans l’index.

Une propriété intéressante de cette approche est que la similarité calculée par l’algorithme dépend du choix de l’embedder et qu’il est ainsi possible de choisir celui le plus adapté au cas d’usage en priorisant la sémantique du contenu de l’image, son style ou d’autres paramètres.

Ce prototype ne permet pas toujours d’identifier avec précision les œuvres originales exactes ayant inspiré chaque image générée. En effet, même si l’artiste réellement influent est identifié, d’autres artistes peuvent également être attribués par erreur ou non (par exemple dans le cas d’auteurs issu d’un même courant artistique avec des marqueurs forts). La tolérance à ce type d’erreur est paramétrable (en faisant varier le seuil et le nombre d’attributions) et reste un champ à explorer pour avoir des résultats qui permettent d’obtenir des attributions cohérentes en moyenne.

Ces mécanismes d’attribution pourraient alors constituer un socle pour envisager des modèles de répartition de la rémunération des ayants droits d’œuvres originales en fonction de leur contribution estimée à la génération d’une œuvre. Là encore, de nombreux champs peuvent être explorés concernant les méthodes de rémunération qui en découleraient (voir un exemple en Figure 11). Deux approches peuvent être mentionnées :

une attribution pondérée par les valeurs de similarité : les images les plus proches reçoivent un poids proportionnel à leur similarité avec l’image générée. Plus une image est proche, plus sa contribution est élevée.
une attribution discrète par parts fixes : des parts prédéfinies sont allouées aux images les plus proches, selon un ordre de similarité. Par exemple, 90 % pour la première, 10 % pour la seconde.

Figure 11 : Illustration de l’attribution d’images sources pour une génération d’image. En haut, les deux peintures de Cimabue (« Virgin Enthroned with Angels » et « Madonna Enthroned » ) ayant servi à la génération selon l’algorithme , chacune à part égale, annotée « 50 %". En bas, les deux tableaux ayant effectivement servi à la génération, toujours indiquée à 50 % chacun, qui s’avèrent être les même que ceux suggérés par l’algorithme. Illustrant ainsi un exemple réussi d’attribution fondée sur la similarité d’embeddings.

Bien que le développement de ce prototype se soit focalisé sur les modèles génératifs d’images, il existe des méthodes similaires pour l’audio. Concernant la génération de contenu textuel, d’autres techniques sont applicables comme TracIN ou DataInf, mais la dimension discrète de la génération de texte peut rendre l’identification de la proportion des données d’entraînement qui ont influencé la génération plus complexe.

Ces travaux de prototypage, à vocation exploratoire et technique, ne présument pas des cas dans lesquels ils pourraient être déclinés ou appliqués. Ils ont vocation à nourrir des réflexions émergentes. De nombreuses incertitudes sur ces différentes méthodologies subsistent, inhérentes aux limites actuelles des systèmes d’IA à fournir une réponse univoque et incontestable concernant l’origine des contenus générés.

Annexes

Pour notre prototype, nous avons comparé deux techniques spécifiques :

KD-Tree (K-Dimensional Tree), qui permet une recherche exacte des plus proches voisins en partitionnant précisément l’espace des embeddings.
l’algorithme HNSW (Hierarchical Navigable Small Worlds), qui effectue une recherche approchée avec une tolérance contrôlée à l’erreur pour gagner significativement en rapidité.

Pour ces deux techniques nous utilisons comme mesure de similarité la distance euclidienne.

Figure 12 : Comparaison de la durée de construction de l’index et de la durée de recherche des plus proches voisins en fonction de la taille de la base de données d'images avec laquelle comparer une image générée, échelle logarithmique.

La Figure 12 illustre les performances contrastées des méthodes KD-Tree et HNSW en fonction de la taille de la base de données d’images :

Si KD-Tree permet une indexation rapide (graphique de gauche), son temps de recherche croît de manière significative avec la taille de la base (graphique de droite), atteignant des valeurs non négligeables pour les grandes bases.
À l’inverse, HNSW présente un coût initial plus élevé pour la construction de l’index, mais offre des temps de recherche nettement plus faibles et stables, même pour une base de 300 000 images. Cette robustesse face à l’augmentation de la taille et de la dimensionnalité rend HNSW particulièrement adapté aux applications à grande échelle, comme la recherche d’images similaires dans des collections d’œuvres d’art. Ce compromis méthodologique entre précision et vitesse est illustré en détail dans les résultats comparatifs du tableau ci-dessous :

‍	Exactitude	Rapidité	Facilité d’implémentation	Scalabilité et robustesse aux variations
Recherche des plus proches voisins (HNSW)	Recherche approchée, bonne précision avec légère marge d’erreur	Très rapide après indexation, mais phase de construction plus longue	Nécessite un paramétrage précis	Fiable malgré les variations et très efficace sur de grandes bases et hautes dimensions
Recherche des plus proches voisins (KD-Tree)	Recherche exacte, efficace sur petites bases mais moins performante en haute dimension	Indexation rapide, mais temps de recherche qui augmente avec la taille de la base	Simple à mettre en place	Moins fiable et performant lorsque les données sont de haute dimension, adapté aux petites base.

Table 2: Tableau récapitulatif des avantages et inconvénients des deux techniques présentées

L’évaluation de la méthode en attribuant un même nombre K d’images pour toutes les images générées est sujette à un biais : toutes les images générées ne l’ont pas été avec un même nombre d’œuvres réelles. Entre 1 et 67 œuvres ont servi à ré-entraîner le modèle de génération selon l’image générée. Ainsi, les images générées inspirées par seulement deux images réelles auront nécessairement des attributions incorrectes si on demande à la méthode de leur attribuer cinq images d’inspiration, sans que cela ne soit dû à un défaut de la méthode.
Afin de supprimer ce biais, nous attribuons pour chaque image générée un nombre d’images identique au nombre d’images réelles ayant servi à ré-entraîner le modèle qui a généré l’image. Il en découle que, dans ce cadre, les métriques de précision et de rappel sont équivalentes. La Figure 13 montre les performances d’attribution. On observe aussi que la méthode est bien meilleure sur le jeu de données « gpt » que sur « object ».

Figure 13  : Nombre d'images attribuées K identique au nombre d'images d'inspiration, pour chaque image générée.

Pour générer des embeddings encapsulant seulement le contenu des images, on utilise le protocole suivant :

On génère des descriptions textuelles pour toutes les images du dossier « exemplar » avec le prompt suivant : « Describe the image by naming only the main objects depicted in 1 sentence and 1-10 words. Use as few words as possible. Emphasize the main objects. » avec le modèle Qwen2-VL-7B-Instruct.
On calcule les embeddings de ces descriptions avec le modèle SigLIP (text embedder)
Pour chaque image test, on calcule la similarité cosinus moyenne pour chaque paire d’embeddings dans l’ensemble des images attribuées d’une part, et dans l’ensemble des images réelles d’autre part.

Contenu généré et original : un exemple d'approche pour identifier leur similarité dans un jeu de données d’images artistiques

Une méthode académique applicable : la recherche des plus proches voisins

Des tests conduits à partir d’un jeu de données de référence

Une analyse des performances de la méthode

Quels facteurs influencent la performance de la méthode retenue ? Quatre hypothèses explorées

Hypothèse 1 : plus le nombre d’artistes attribués à une image est élevé, moins la confiance dans cette attribution est grande

Hypothèse 2 : plus la distance entre les embeddings est faible, plus les attributions sont fiables

Hypothèse 3 : l’embedder utilisé capture davantage le contenu d’une image que le style

Hypothèse 4 : l’injection d’images dans l’index est susceptible d’impacter l’attribution si celles-ci sont du même domaine que l’image générée