Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het paper Graph2Eval in eenvoudig, alledaags Nederlands, met behulp van creatieve vergelijkingen.

🌍 De Grote Uitdaging: Het "Oude Vraagboek"-Probleem

Stel je voor dat je een student wilt testen op zijn of haar vaardigheden. Je geeft hem of haar een oud vraagboek met 50 vaste vragen. Als de student die vragen uit het hoofd heeft geleerd, haalt hij of zij een 10. Maar betekent dit dat de student echt slim is? Nee, hij of zij heeft alleen maar de antwoorden uit het hoofd geleerd.

Dit is precies wat er gebeurt met AI-agenten (slimme computerprogramma's die taken uitvoeren). We testen ze vaak op vaste datasets (vraagboeken). Als ze die kennen, scoren ze goed, maar als ze in een nieuwe, echte situatie terechtkomen, zakken ze vaak door de mand.

Bovendien proberen onderzoekers nu zelf nieuwe vragen te maken met AI, maar dat gaat vaak mis. De AI "hallucineert" (droomt dingen na) of maakt vragen die onmogelijk te beantwoorden zijn, omdat ze geen goed overzicht hebben van hoe de stukjes informatie met elkaar verbonden zijn.

🗺️ De Oplossing: Graph2Eval (De Slimme Kaart)

De auteurs van dit paper hebben een nieuwe manier bedacht om deze AI-agenten te testen: Graph2Eval.

Stel je voor dat je in plaats van losse vragen te schrijven, eerst een gigantische, super-accurate stadskaart tekent.

De gebouwen zijn stukken informatie (zoals een paragraaf in een document of een knop op een website).
De wegen zijn de connecties tussen die stukken (zoals "deze tabel hoort bij deze titel" of "deze knop leidt naar deze pagina").

Dit noemen ze een Kennisgrafiek (Knowledge Graph).

Hoe werkt het?

In plaats van dat een AI zomaar een vraag bedenkt ("Wat is de hoofdstad?"), kijkt Graph2Eval naar deze kaart:

De Kaart is de Basis: Het systeem zoekt op de kaart naar een specifiek stukje (een "subgrafiek"). Bijvoorbeeld: een route van een startpagina naar een formulier.
De Route is de Taak: Omdat de wegen op de kaart echt bestaan, weet het systeem zeker dat de taak oplosbaar is. Het is alsof je zegt: "Vind de weg van punt A naar punt B op deze kaart." Je weet dat het kan, want de wegen zijn er.
Geen Dromen: Omdat alles gebaseerd is op de echte kaart, maakt de AI geen fouten of onzin. De vragen zijn logisch en kloppen met de werkelijkheid.

🛠️ Twee Soorten Spellen

Het systeem maakt twee soorten tests voor de AI-agenten:

De Document-Reader (RAG Agent):
- Vergelijking: Stel je voor dat je een detective bent die een stapel papieren dossiers moet doorzoeken om een mysterie op te lossen.
- Hoe Graph2Eval helpt: Het pakt de dossiers, maakt er een logische structuur van en vraagt de detective: "Zoek de naam van de verdachte in de paragraaf over de getuigenverklaring." Omdat de structuur klopt, is de taak eerlijk en oplosbaar.
De Web-Browser (Web Agent):
- Vergelijking: Stel je voor dat je een reisagent bent die een website moet gebruiken om een vlucht te boeken. Je moet klikken, scrollen en formulieren invullen.
- Hoe Graph2Eval helpt: Het kijkt naar de "wegen" op de website (welke knop leidt waarheen?). Het creëert een taak zoals: "Ga naar de 'Zoeken'-pagina, vul 'Parijs' in en klik op 'Zoek'." Omdat de kaart van de website klopt, weet het systeem dat deze route werkt.

🏆 Het Resultaat: Graph2Eval-Bench

De onderzoekers hebben dit systeem gebruikt om een nieuwe testset te maken, genaamd Graph2Eval-Bench.

Het bevat 1.319 nieuwe taken.
Het is niet gemaakt door mensen die urenlang typen, maar automatisch gegenereerd op basis van die slimme kaart.
De uitkomst: AI-modellen die op deze manier getest worden, laten hun echte intelligentie zien. Ze kunnen niet meer "leren voor het examen" door oude vragen uit het hoofd te leren.

💡 Waarom is dit belangrijk?

Vroeger was het testen van AI als het spelen van een spelletje "Wie is de slimste?" op basis van een statische lijst. Met Graph2Eval is het als het testen van een piloot in een vluchtsimulator.

De simulator (de kaart) is zo realistisch dat elke situatie die de piloot tegenkomt, echt kan gebeuren.
Als de piloot faalt in de simulator, weten we dat hij of zij echt nog moet oefenen, niet omdat hij of zij de vragen niet kende.

Kort samengevat: Graph2Eval bouwt een veilige, logische wereld van informatie (een kaart) om AI-agenten te testen. Hierdoor weten we eindelijk of ze echt slim zijn of dat ze alleen maar goed zijn in het uit het hoofd leren van antwoorden.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs", geschreven in het Nederlands.

1. Het Probleem

De huidige evaluatie van multimodale LLM-gedreven agents (zoals RAG-agents en webagents) wordt gehinderd door de beperkingen van bestaande datasets:

Staticiteit en Schaalbaarheid: Traditionele datasets zijn handmatig geannoteerd en statisch. Ze schalen niet goed mee met de groeiende complexiteit van agent-taken en leiden tot overfitting, waarbij agents alleen hun trainingskennis herinneren in plaats van echt te generaliseren.
Semantische Inconsistentie: Bestaande methoden voor het genereren van synthetische taken met LLMs lijden vaak onder hallucinaties. Omdat deze methoden geen expliciete modellering van entiteit-relaties gebruiken, ontstaan er taken die semantisch inconsistent zijn of niet oplosbaar (solvability issues).
Gebrek aan Dynamische Aanpassing: Methoden voor web-interacties baseren zich vaak op statische pagina's of vereisen enorme menselijke inspanning om dynamische omgevingen te modelleren, wat de betrouwbaarheid van evaluaties in realistische scenario's ondermijnt.

2. Methodologie: Graph2Eval

Het paper introduceert Graph2Eval, een raamwerk dat een Kennisgraf (Knowledge Graph - KG) gebruikt als gestructureerde "task space" voor het automatisch genereren van multimodale taken. De workflow bestaat uit vijf fasen:

A. Data Ingestion en KG Constructie

Data Verzameling: Documenten worden verwerkt tot semantische eenheden (paragrafen, tabellen, figuren) en webpagina's worden gescraped (DOM-structuur, screenshots).
Kennisgraf Opbouw: De data wordt omgezet in een graf $G = (V, E, R)$ $G = (V, E, R)$ .
- Nodes (V): Vertegenwoordigen elementen zoals paragrafen, knoppen, formulieren of afbeeldingen. Ze bevatten zowel tekstuele als visuele content (geconverteerd naar tekst via embeddings).
- Edges (E): Captureren relaties zoals structuur (volgorde, bevat), semantische associaties, en web-specifieke interacties (navigatie, klikken).
- Dit creëert een semantisch ruimte die de onderliggende logica van de data vastlegt.

B. Subgraph Sampling

Om specifieke taken te genereren, worden relevante subgrafen uit de grote KG gehaald:

Document Taken: Gebruikt semantische relevantie (via embeddings) en structurele coherentie om subgrafen te selecteren die passen bij de taaktemplate.
Web Taken: Gebruikt een seed-driven strategie. Belangrijke operationele knopen (zoals knoppen of zoekbalken) worden als "seeds" geïdentificeerd, waarna hun $k$ -hop buren worden verzameld om de interactiecontext te vangen.

C. Task Generatie

De gesamplede subgrafen worden omgezet in uitvoerbare taken via:

Task Templates: Een bibliotheek van sjablonen (bijv. vragen, vergelijkingen, redenering) die de structuur van de taak definiëren.
Meta-path Strategieën: Vooral voor webtaken worden "meta-paths" gebruikt (patronen van knopen en randen) om logische taakketens te vormen (bijv. Zoeken -> Filteren -> Detail bekijken).
Context Engineering: LLMs combineren de subgraafstructuur met contextuele informatie (zoals screenshots of metadata) om concrete, diverse taakinstanties te genereren.

D. Coverage Optimalisatie

Een multi-stap filteringspijplijn zorgt voor kwaliteit:

Filtering: Gebaseerd op bereikbaarheidsanalyse van knopen, LLM-scoren en similariteitsanalyse.
Diversiteit: Gebruik van Maximal Marginal Relevance (MMR) om te zorgen dat de gegenereerde taken divers zijn en niet te veel op elkaar lijken.
Validatie: Controle op semantische consistentie en oplosbaarheid (solvability).

3. Belangrijkste Bijdragen

Nieuw Perspectief: Het behandelen van een Knowledge Graph, gebouwd uit multi-source data, als een latente "task space" om semantische consistentie en oplosbaarheid te garanderen.
Graph2Eval Framework: Een unificerend raamwerk dat automatisch multimodale documentbegrip-taken (voor RAG-agents) en multi-stap web-interactie-taken (voor webagents) genereert.
Graph2Eval-BENCH: Een gecurateerde dataset van 1.319 taken (1.002 documenttaken, 317 webtaken) die dient als benchmark voor het evalueren van diverse agents.
Efficiëntie en Schaalbaarheid: Het proces is geautomatiseerd en vereist aanzienlijk minder menselijke inspanning dan handmatige annotatie.

4. Resultaten

De auteurs hebben uitgebreide experimenten uitgevoerd met verschillende modellen (GPT-4o, Qwen, DeepSeek, Gemini, etc.) en agent-architecturen (Single-agent, Multi-agent, SoM-agent, Agent S 2.5).

Verbetering in Kwaliteit: In vergelijking met een baseline zonder Knowledge Graph (KG-free), verbeterde Graph2Eval de semantische consistentie met 20% en de oplosbaarheid met 17%.
Discriminatievermogen: De benchmark onderscheidt effectief de prestaties tussen verschillende modelgroottes en architecturen. Bijvoorbeeld, Agent S 2.5 (met reflectie en geheugen) presteerde aanzienlijk beter dan de SoM Agent op complexe webtaken, wat aantoont dat de taken echt redenering testen en niet alleen visuele gronding.
Efficiëntie: Het genereren van een documenttaak kost gemiddeld 34,87 seconden en een webtaak 95,51 seconden, wat veel sneller is dan handmatige constructie.
Ablatie Studies: Zonder de KG waren webtaken vaak beperkt tot single-page interacties en vaak onoplosbaar door ontbrekende inter-pagina relaties. De KG lost dit op door de globale structuur te modelleren.

5. Betekenis en Toekomst

Graph2Eval biedt een oplossing voor het fundamentele probleem van "data exhaustion" in de evaluatie van AI-agents. Door over te stappen van statische datasets naar dynamisch gegenereerde taken gebaseerd op kennisgrafieken, kunnen onderzoekers:

Betrouwbare evaluaties uitvoeren in realistische, complexe scenario's.
De echte generalisatiecapaciteit van agents meten, in plaats van hun vermogen om memoriseerde antwoorden op te halen.
Schaalbaar nieuwe benchmarks creëren voor zowel documentbegrip als web-interactie.

Toekomstig werk richt zich op het integreren van formele veiligheidsbeleid om robuustheid tegen adversariale prompts te testen, en het gebruik van de structuur van de KG om fouten van agents op een fijnkorrelig niveau te lokaliseren.