Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Each language version is independently generated for its own context, not a direct translation.

🌟 Le Problème : L'École des "Bêtes Noires"

Imaginez que vous voulez tester l'intelligence d'un élève très doué, un robot capable de lire des documents et de naviguer sur internet (ce qu'on appelle un Agent Multimodal).

Actuellement, pour le tester, on lui donne toujours les mêmes exercices (un jeu de questions-réponses fixe).

Le problème : Si l'élève a déjà vu ces exercices par cœur, il aura 20/20. Mais est-ce qu'il est vraiment intelligent, ou est-ce qu'il a juste de la mémoire ? C'est comme si un élève apprenait les réponses d'un examen par cœur sans comprendre les mathématiques. Dès qu'on lui pose une nouvelle question, il est perdu.

Les chercheurs ont essayé de créer de nouveaux exercices automatiquement avec d'autres intelligences artificielles (des LLM), mais ces exercices étaient souvent bizarres (incohérents) ou impossibles à résoudre (comme un labyrinthe sans sortie).

💡 La Solution : Le "Plan de Ville" (Le Graph2Eval)

Pour résoudre ce problème, les auteurs de ce papier (de l'Université de Zhejiang et d'Ant Group) ont inventé Graph2Eval.

Imaginez que vous voulez créer des missions pour un agent de police dans une ville.

L'ancienne méthode : Vous demandez à un écrivain de générer des histoires au hasard. Parfois, il invente un pont qui mène nulle part, ou un crime qui n'a pas de sens.
La méthode Graph2Eval : Vous commencez par dessiner une carte de la ville parfaite (un Graphe de Connaissances). Sur cette carte, chaque rue, chaque bâtiment et chaque personne sont reliés logiquement.

Comment ça marche en trois étapes simples ?

La Carte (Le Graphe de Connaissances) :
Le système prend des milliers de documents et de sites web et les transforme en une immense carte mentale. Il ne garde pas juste le texte, mais il comprend les liens : "Ce bouton mène à cette page", "Ce tableau contient ces chiffres". C'est comme transformer un tas de briques en un plan d'architecte précis.
La Chasse au Trésor (L'Échantillonnage) :
Au lieu de créer une mission au hasard, le système regarde la carte et dit : "Ok, je vais créer une mission qui commence ici (un bouton de recherche), passe par là (un filtre), et finit ici (une page de résultats)."
Il s'assure que le chemin existe vraiment sur la carte. C'est comme si vous créiez un parcours d'obstacles en vous assurant que chaque obstacle est solide et relié au suivant.
Le Test de Vérité (Le Filtre) :
Avant de donner la mission à l'agent, le système vérifie trois choses :
- Est-ce que ça a du sens ? (Cohérence)
- Est-ce que c'est possible de le faire ? (Solvabilité)
- Est-ce que c'est nouveau ? (Diversité)

🎯 Le Résultat : Le "Graph2Eval-Bench"

Grâce à cette méthode, ils ont créé un nouveau banc d'essai appelé Graph2Eval-Bench.

Il contient 1 319 missions différentes.
Certaines missions demandent de comprendre des documents (comme un avocat qui cherche une clause dans un contrat).
D'autres demandent de naviguer sur le web (comme un touriste qui cherche un billet de train, filtre par date, et réserve).

🏆 Pourquoi c'est génial ?

Les expériences montrent que cette méthode est bien meilleure que les anciennes :

Moins d'erreurs : Les missions générées ont 20% de sens en plus et 17% de chances de réussite en plus.
Un vrai test de niveau : Ce banc d'essai arrive à distinguer les "vrais" intelligents des "faux". Par exemple, un modèle très puissant (comme Agent S 2.5) a obtenu un score de 69%, tandis qu'un modèle plus petit ou moins avancé (SoM Agent) n'a obtenu que 14%. Cela prouve que le test est difficile et juste.

🚀 En résumé

Graph2Eval, c'est comme passer d'un examen où l'on apprend les réponses par cœur, à un jeu de rôle dynamique où l'on doit naviguer dans un monde réel et logique.

Au lieu de demander à l'IA de deviner des missions, on lui donne une carte au trésor précise construite à partir de la réalité. Cela permet de vérifier si l'IA est vraiment capable de raisonner, de planifier et d'agir dans le monde réel, et pas seulement de réciter ce qu'elle a appris par cœur.

C'est une avancée majeure pour s'assurer que nos futurs assistants numériques seront vraiment utiles et fiables ! 🤖✨

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé du papier de recherche "Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs" en français.

1. Problématique

Les agents pilotés par les grands modèles de langage multimodaux (MLLM) progressent rapidement en autonomie et en généralisation. Cependant, leur évaluation repose souvent sur des jeux de données statiques qui présentent des limites inhérentes :

Manque d'évolutivité : La construction manuelle de datasets est lente et coûteuse, limitant la diversité des tâches.
Biais de mémorisation : Les agents peuvent réussir des tâches en mémorisant les réponses plutôt qu'en démontrant une véritable capacité de généralisation.
Incohérences sémantiques et faisabilité : Les méthodes existantes de génération automatique de tâches (basées sur les LLM) souffrent d'hallucinations et d'un manque de modélisation des relations internes aux données. Cela entraîne souvent des tâches sémantiquement incohérentes ou impossibles à résoudre (non-faisables), en particulier dans des environnements dynamiques comme le web.

Le défi principal est donc de créer un cadre de génération de tâches automatique, évolutif et ancré sémantiquement, capable de produire des tâches réalistes pour les agents de recherche (RAG) et les agents web.

2. Méthodologie : Graph2Eval

Les auteurs proposent Graph2Eval, un cadre de génération de tâches piloté par des Graphes de Connaissances (KG). L'approche transforme des données hétérogènes (documents, pages web) en un espace de tâches structuré.

Le flux de travail se décompose en cinq étapes principales :

A. Ingestion des Données

Documents : Le contenu est structuré au-delà du texte brut, en préservant la hiérarchie (paragraphes, tableaux, titres, légendes). Chaque élément est découpé en unités sémantiques minimales, encodé par des embeddings profonds et annoté avec des métadonnées.
Web : Les pages sont collectées via un crawling automatisé, extrayant les structures DOM et les captures d'écran. Des interactions simulées de type humain sont utilisées pour naviguer dans les designs web complexes. Un filtrage rigoureux (règles + LLM) assure la qualité et la sécurité des données.

B. Construction du Graphe de Connaissances (KG)

Le KG ( $G = (V, E, R)$ ) sert d'espace de tâches latent :

Nœuds ( $V$ ) : Représentent des éléments extraits (paragraphes, boutons, liens, images, cellules de tableau). Chaque nœud possède une représentation textuelle combinée (texte + description visuelle via un modèle de vision) et un vecteur d'embedding.
Arêtes ( $E$ ) : Capturent les relations hétérogènes :
- Textuelles : Relations structurelles (séquence, contient), sémantiques (similarité, entités) et contextuelles.
- Web : Relations d'interaction (navigation, soumission de formulaire, clics) et relations de mise en page.

C. Échantillonnage de Sous-graphes

Pour générer une tâche, le système extrait un sous-graphe local pertinent ( $G_g$ ) :

Pour la compréhension de documents : L'échantillonnage privilégie la pertinence sémantique (via la similarité des embeddings) et la cohérence structurelle.
Pour les interactions web : Une stratégie "Seed-Driven" (pilotée par des graines) est utilisée. Des nœuds "graines" (boutons, formulaires, liens) sont identifiés, puis leurs voisins à $k$ -sauts sont collectés pour capturer le contexte d'interaction local.

D. Génération de Tâches

Les sous-graphes échantillonnés sont transformés en tâches exécutables via des modèles de tâches (templates) et des méta-chemins :

Compréhension de documents : Utilisation de templates couvrant la QA, la comparaison, l'analyse, etc. Les variables du sous-graphe sont injectées dans le template pour créer l'instance de la tâche.
Interactions web : Utilisation de motifs de méta-chemins (ex: SearchBox -> Button -> Result) pour définir des chaînes de tâches concrètes. Les LLM génèrent les instructions en combinant la structure du sous-graphe, les méta-chemins et le contexte (captures d'écran, listes d'éléments).

E. Optimisation de la Couverture

Un pipeline de filtrage multi-étapes assure la qualité :

Filtrage : Analyse de la faisabilité (reachability des nœuds), scoring par LLM et analyse de similarité.
Diversité : Utilisation de la stratégie MMR (Maximal Marginal Relevance) pour sélectionner des tâches variées en termes de type, difficulté et contenu, évitant la redondance.

3. Contributions Clés

Nouvelle perspective de génération : Traitement des KGs construits à partir de données multi-sources comme un espace de tâches latent, garantissant la cohérence sémantique et la faisabilité.
Framework Graph2Eval : Une pipeline unifiée et reproductible pour la génération automatique de tâches, exploitant les relations sémantiques internes des données.
Graph2Eval-Bench : Un dataset curaté de 1 319 tâches (1 002 pour la compréhension de documents, 317 pour les interactions web) conçu pour évaluer à la fois les agents RAG et les agents Web.

4. Résultats Expérimentaux

Les expériences ont été menées sur divers modèles (GPT-4o, Qwen-VL, DeepSeek, Gemini, etc.) et agents (Single/Multi-Agent, SoM Agent, Agent S 2.5).

Amélioration de la qualité : Par rapport à une base de référence sans KG (KG-free), Graph2Eval améliore la cohérence sémantique de 20 % et la faisabilité (solvabilité) de 17 %.
Efficacité : La génération est rapide (moyenne de 34,87 s par tâche de document et 95,51 s par tâche web).
Discrimination des performances : Le benchmark distingue efficacement les capacités des différents modèles. Par exemple, l'agent Agent S 2.5 (avec réflexion et mémoire) surpasse nettement les agents basés uniquement sur le grounding visuel (SoM Agent), avec un taux de réussite global de 69,20 % contre 14,51 % sur les tâches web, démontrant que le benchmark évalue correctement le raisonnement multi-étapes.
Comparaison avec l'état de l'art : Contrairement aux méthodes de génération ascendante (bottom-up) comme TaskCraft, l'approche descendante (top-down) de Graph2Eval, basée sur les relations intrinsèques du KG, produit des tâches plus complexes et mieux alignées.

5. Signification et Impact

Graph2Eval adresse le goulot d'étranglement de l'évaluation des agents multimodaux en passant d'une évaluation statique et manuelle à une génération dynamique et automatisée.

Fiabilité : En s'appuyant sur un graphe de connaissances structuré, le système élimine les hallucinations courantes des LLM lors de la création de tâches, assurant que chaque tâche est logique et résoluble.
Adaptabilité : Le cadre s'adapte aux environnements dynamiques (web) et aux documents complexes, offrant un test plus réaliste des capacités de généralisation des agents.
Futur : Ce travail ouvre la voie à l'évaluation de la robustesse des agents face à des scénarios adverses et à l'identification fine des erreurs au niveau des nœuds et des arêtes du graphe.

En résumé, Graph2Eval propose une infrastructure robuste pour créer des benchmarks d'agents qui ne se contentent pas de tester la mémorisation, mais évaluent véritablement la capacité de raisonnement, de planification et d'interaction dans des environnements complexes.