INESIA - Résultats d'évaluations d'agents IA par le réseau international des AI Safety Institutes

Dans le cadre du réseau international des instituts de sécurité de l’IA, le PEReN, en tant que membre de l’INESIA, a pris part à un nouvel exercice conjoint portant sur l’évaluation d’agents IA. Publication de la méthodologie et des résultats obtenus.

Dans le cadre d’une nouvelle coopération internationale, le PEReN, en tant que membre de l’INESIA, a participé à l’évaluation de modèles intégrés à des agents IA. Conduit avec les AI Safety Institutes de Singapour, du Japon, d’Australie, du Kenya, de la Corée du Sud, du Royaume-Uni, ainsi qu’avec l’AI Office de la Commission européenne, ce travail a été divisé en deux volets.

L’évaluation multilingue des risques de fraude et de divulgation

Le PEReN a contribué au premier volet, une évaluation multilingue de deux modèles (un modèle ouvert et un modèle propriétaire) intégrés à un agent IA, axée sur les risques de fraude et de divulgation d’informations sensibles. L’objectif était d’explorer deux questions clés :

les modèles présentent-ils des risques élevés de fraude ou de fuite d’informations sensibles lorsqu’ils sont intégrés à un agent ? Ces risques varient-ils en fonction de la langue ?
Les modèles « juges » sont-ils de bons évaluateurs de la sécurité d’agents IA ? Et cette conclusion est-elle valable dans toutes les langues ?

Pour ce faire, un jeu d’évaluation en anglais a été constitué à partir de jeux d’évaluation ouverts existants et d’exemples supplémentaires, puis traduit en 8 autres langues. Le comportement des modèles sur chaque exemple du jeu d’évaluation a été évalué en parallèle par un LLM (Large Language Model) juge et par des humains.

L’évaluation des capacités en cybersécurité

Le second volet du projet a consisté en une évaluation des capacités en cybersécurité de deux modèles ouverts, basée sur des jeux de données Cybench et Intercode. L’objectif supplémentaire a été d’identifier les variables influençant fortement la robustesse de l’évaluation.

Pour en savoir plus sur les éléments méthodologiques et les résultats obtenus, consultez :

l’article publié en ligne par l’AI Safety Institute anglais ;
ainsi que le rapport détaillé.

INESIA en quelques mots…

L'Institut National pour l'Évaluation et la Sécurité de l'Intelligence Artificielle (INESIA), co-piloté par le Secrétariat Général de la Défense et de la Sécurité Nationale (SGDSN) et la Direction Générale des Entreprises (DGE), est une initiative majeure pour que la France dialogue avec d'autres leaders mondiaux de l'IA sur les questions de sécurité et d'évaluation. Créé conformément à la Déclaration de Séoul, l'INESIA fédère les actions de l'ANSSI, d'Inria, du LNE et du PEReN pour structurer les efforts publics français dans le domaine de l'analyse des risques systémiques, la régulation et l'évaluation des modèles d'IA. Il vise également à développer des concepts et des outils pour évaluer la performance et la fiabilité des systèmes d'IA. Grâce à l'INESIA, la France joue un rôle clé au sein du réseau international des AI Safety Institutes, travaillant aux côtés de pays comme le Canada, la Corée du Sud, les États-Unis, le Japon, le Kenya, Singapour, le Royaume-Uni et l'Union Européenne pour promouvoir la sécurité, l'inclusivité et la confiance dans l'IA.