Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Dit paper introduceert Graph2Eval, een door kennisgrafieken aangedreven framework dat automatisch schaalbare en semantisch consistente multimodale taken genereert voor agenten, wat resulteert in een betrouwbaarder evaluatiebenchmark die hallucinaties en oplosbaarheidsproblemen van eerdere methoden oplost.

Yurun Chen, Xavier Hu, Yuhan Liu, Ziqi Wang, Zeyi Liao, Lin Chen, Feng Wei, Yuxi Qian, Bo Zheng, Keting Yin, Shengyu Zhang

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het paper Graph2Eval in eenvoudig, alledaags Nederlands, met behulp van creatieve vergelijkingen.

🌍 De Grote Uitdaging: Het "Oude Vraagboek"-Probleem

Stel je voor dat je een student wilt testen op zijn of haar vaardigheden. Je geeft hem of haar een oud vraagboek met 50 vaste vragen. Als de student die vragen uit het hoofd heeft geleerd, haalt hij of zij een 10. Maar betekent dit dat de student echt slim is? Nee, hij of zij heeft alleen maar de antwoorden uit het hoofd geleerd.

Dit is precies wat er gebeurt met AI-agenten (slimme computerprogramma's die taken uitvoeren). We testen ze vaak op vaste datasets (vraagboeken). Als ze die kennen, scoren ze goed, maar als ze in een nieuwe, echte situatie terechtkomen, zakken ze vaak door de mand.

Bovendien proberen onderzoekers nu zelf nieuwe vragen te maken met AI, maar dat gaat vaak mis. De AI "hallucineert" (droomt dingen na) of maakt vragen die onmogelijk te beantwoorden zijn, omdat ze geen goed overzicht hebben van hoe de stukjes informatie met elkaar verbonden zijn.

🗺️ De Oplossing: Graph2Eval (De Slimme Kaart)

De auteurs van dit paper hebben een nieuwe manier bedacht om deze AI-agenten te testen: Graph2Eval.

Stel je voor dat je in plaats van losse vragen te schrijven, eerst een gigantische, super-accurate stadskaart tekent.

  • De gebouwen zijn stukken informatie (zoals een paragraaf in een document of een knop op een website).
  • De wegen zijn de connecties tussen die stukken (zoals "deze tabel hoort bij deze titel" of "deze knop leidt naar deze pagina").

Dit noemen ze een Kennisgrafiek (Knowledge Graph).

Hoe werkt het?

In plaats van dat een AI zomaar een vraag bedenkt ("Wat is de hoofdstad?"), kijkt Graph2Eval naar deze kaart:

  1. De Kaart is de Basis: Het systeem zoekt op de kaart naar een specifiek stukje (een "subgrafiek"). Bijvoorbeeld: een route van een startpagina naar een formulier.
  2. De Route is de Taak: Omdat de wegen op de kaart echt bestaan, weet het systeem zeker dat de taak oplosbaar is. Het is alsof je zegt: "Vind de weg van punt A naar punt B op deze kaart." Je weet dat het kan, want de wegen zijn er.
  3. Geen Dromen: Omdat alles gebaseerd is op de echte kaart, maakt de AI geen fouten of onzin. De vragen zijn logisch en kloppen met de werkelijkheid.

🛠️ Twee Soorten Spellen

Het systeem maakt twee soorten tests voor de AI-agenten:

  1. De Document-Reader (RAG Agent):

    • Vergelijking: Stel je voor dat je een detective bent die een stapel papieren dossiers moet doorzoeken om een mysterie op te lossen.
    • Hoe Graph2Eval helpt: Het pakt de dossiers, maakt er een logische structuur van en vraagt de detective: "Zoek de naam van de verdachte in de paragraaf over de getuigenverklaring." Omdat de structuur klopt, is de taak eerlijk en oplosbaar.
  2. De Web-Browser (Web Agent):

    • Vergelijking: Stel je voor dat je een reisagent bent die een website moet gebruiken om een vlucht te boeken. Je moet klikken, scrollen en formulieren invullen.
    • Hoe Graph2Eval helpt: Het kijkt naar de "wegen" op de website (welke knop leidt waarheen?). Het creëert een taak zoals: "Ga naar de 'Zoeken'-pagina, vul 'Parijs' in en klik op 'Zoek'." Omdat de kaart van de website klopt, weet het systeem dat deze route werkt.

🏆 Het Resultaat: Graph2Eval-Bench

De onderzoekers hebben dit systeem gebruikt om een nieuwe testset te maken, genaamd Graph2Eval-Bench.

  • Het bevat 1.319 nieuwe taken.
  • Het is niet gemaakt door mensen die urenlang typen, maar automatisch gegenereerd op basis van die slimme kaart.
  • De uitkomst: AI-modellen die op deze manier getest worden, laten hun echte intelligentie zien. Ze kunnen niet meer "leren voor het examen" door oude vragen uit het hoofd te leren.

💡 Waarom is dit belangrijk?

Vroeger was het testen van AI als het spelen van een spelletje "Wie is de slimste?" op basis van een statische lijst. Met Graph2Eval is het als het testen van een piloot in een vluchtsimulator.

  • De simulator (de kaart) is zo realistisch dat elke situatie die de piloot tegenkomt, echt kan gebeuren.
  • Als de piloot faalt in de simulator, weten we dat hij of zij echt nog moet oefenen, niet omdat hij of zij de vragen niet kende.

Kort samengevat: Graph2Eval bouwt een veilige, logische wereld van informatie (een kaart) om AI-agenten te testen. Hierdoor weten we eindelijk of ze echt slim zijn of dat ze alleen maar goed zijn in het uit het hoofd leren van antwoorden.