Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Le papier présente Graph2Eval, un cadre piloté par les graphes de connaissances qui génère automatiquement des tâches multimodales fiables et évolutives pour évaluer les agents, en surmontant les limites des jeux de données statiques et les problèmes d'incohérence sémantique des méthodes basées sur les LLM.

Yurun Chen, Xavier Hu, Yuhan Liu, Ziqi Wang, Zeyi Liao, Lin Chen, Feng Wei, Yuxi Qian, Bo Zheng, Keting Yin, Shengyu Zhang

Publié 2026-03-06
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🌟 Le Problème : L'École des "Bêtes Noires"

Imaginez que vous voulez tester l'intelligence d'un élève très doué, un robot capable de lire des documents et de naviguer sur internet (ce qu'on appelle un Agent Multimodal).

Actuellement, pour le tester, on lui donne toujours les mêmes exercices (un jeu de questions-réponses fixe).

  • Le problème : Si l'élève a déjà vu ces exercices par cœur, il aura 20/20. Mais est-ce qu'il est vraiment intelligent, ou est-ce qu'il a juste de la mémoire ? C'est comme si un élève apprenait les réponses d'un examen par cœur sans comprendre les mathématiques. Dès qu'on lui pose une nouvelle question, il est perdu.

Les chercheurs ont essayé de créer de nouveaux exercices automatiquement avec d'autres intelligences artificielles (des LLM), mais ces exercices étaient souvent bizarres (incohérents) ou impossibles à résoudre (comme un labyrinthe sans sortie).

💡 La Solution : Le "Plan de Ville" (Le Graph2Eval)

Pour résoudre ce problème, les auteurs de ce papier (de l'Université de Zhejiang et d'Ant Group) ont inventé Graph2Eval.

Imaginez que vous voulez créer des missions pour un agent de police dans une ville.

  • L'ancienne méthode : Vous demandez à un écrivain de générer des histoires au hasard. Parfois, il invente un pont qui mène nulle part, ou un crime qui n'a pas de sens.
  • La méthode Graph2Eval : Vous commencez par dessiner une carte de la ville parfaite (un Graphe de Connaissances). Sur cette carte, chaque rue, chaque bâtiment et chaque personne sont reliés logiquement.

Comment ça marche en trois étapes simples ?

  1. La Carte (Le Graphe de Connaissances) :
    Le système prend des milliers de documents et de sites web et les transforme en une immense carte mentale. Il ne garde pas juste le texte, mais il comprend les liens : "Ce bouton mène à cette page", "Ce tableau contient ces chiffres". C'est comme transformer un tas de briques en un plan d'architecte précis.

  2. La Chasse au Trésor (L'Échantillonnage) :
    Au lieu de créer une mission au hasard, le système regarde la carte et dit : "Ok, je vais créer une mission qui commence ici (un bouton de recherche), passe par là (un filtre), et finit ici (une page de résultats)."
    Il s'assure que le chemin existe vraiment sur la carte. C'est comme si vous créiez un parcours d'obstacles en vous assurant que chaque obstacle est solide et relié au suivant.

  3. Le Test de Vérité (Le Filtre) :
    Avant de donner la mission à l'agent, le système vérifie trois choses :

    • Est-ce que ça a du sens ? (Cohérence)
    • Est-ce que c'est possible de le faire ? (Solvabilité)
    • Est-ce que c'est nouveau ? (Diversité)

🎯 Le Résultat : Le "Graph2Eval-Bench"

Grâce à cette méthode, ils ont créé un nouveau banc d'essai appelé Graph2Eval-Bench.

  • Il contient 1 319 missions différentes.
  • Certaines missions demandent de comprendre des documents (comme un avocat qui cherche une clause dans un contrat).
  • D'autres demandent de naviguer sur le web (comme un touriste qui cherche un billet de train, filtre par date, et réserve).

🏆 Pourquoi c'est génial ?

Les expériences montrent que cette méthode est bien meilleure que les anciennes :

  • Moins d'erreurs : Les missions générées ont 20% de sens en plus et 17% de chances de réussite en plus.
  • Un vrai test de niveau : Ce banc d'essai arrive à distinguer les "vrais" intelligents des "faux". Par exemple, un modèle très puissant (comme Agent S 2.5) a obtenu un score de 69%, tandis qu'un modèle plus petit ou moins avancé (SoM Agent) n'a obtenu que 14%. Cela prouve que le test est difficile et juste.

🚀 En résumé

Graph2Eval, c'est comme passer d'un examen où l'on apprend les réponses par cœur, à un jeu de rôle dynamique où l'on doit naviguer dans un monde réel et logique.

Au lieu de demander à l'IA de deviner des missions, on lui donne une carte au trésor précise construite à partir de la réalité. Cela permet de vérifier si l'IA est vraiment capable de raisonner, de planifier et d'agir dans le monde réel, et pas seulement de réciter ce qu'elle a appris par cœur.

C'est une avancée majeure pour s'assurer que nos futurs assistants numériques seront vraiment utiles et fiables ! 🤖✨