Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Das Paper stellt Graph2Eval vor, ein auf Wissensgraphen basierendes Framework zur automatischen Generierung semantisch konsistenter und lösbarer multimodaler Agentenaufgaben, das durch die Einführung des Graph2Eval-Bench-Datensatzes die Evaluierung von Agenten in Dokumentenverständnis- und Web-Interaktionsszenarien verbessert.

Yurun Chen, Xavier Hu, Yuhan Liu, Ziqi Wang, Zeyi Liao, Lin Chen, Feng Wei, Yuxi Qian, Bo Zheng, Keting Yin, Shengyu Zhang

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest testen, wie gut ein neuer, super-intelligenter Roboter-Assistent (ein "Agent") ist. Bisher haben die Forscher diesen Roboter mit einer festen Liste von Aufgaben geprüft, die immer gleich waren. Das ist wie bei einem Schüler, der immer die gleichen Matheaufgaben auswendig lernt. Wenn er die Lösungen kennt, sieht er genial aus, aber weiß er wirklich, wie man Probleme löst, wenn sich die Welt um ihn herum ändert?

Das ist das Problem: Die alten Testmethoden sind zu starr und können nicht erkennen, ob der Roboter wirklich schlau ist oder nur auswendig gelernt hat.

Die Lösung: Graph2Eval (Der "Wissens-Atlas")

Die Forscher aus diesem Papier haben eine neue Methode namens Graph2Eval entwickelt. Um das einfach zu erklären, stellen wir uns das so vor:

1. Das Problem mit den alten Methoden (Der "Zufalls-Werfer")

Bisher haben Computer versucht, neue Aufgaben für den Roboter zu erfinden, indem sie einfach Text und Bilder durcheinander geworfen haben. Das ist, als würdest du versuchen, ein Kochrezept zu erfinden, indem du einfach alle Zutaten aus dem Kühlschrank auf den Tisch wirfst.

  • Das Ergebnis: Oft entstehen Unsinn-Rezepte (z. B. "Mische Eiscreme mit Chili und backe es"). Der Roboter kann diese Aufgaben gar nicht lösen, weil sie keinen Sinn ergeben. Das nennt man "Halluzinationen" beim Computer.

2. Die neue Methode: Der Wissens-Atlas (Der "Baumeister")

Graph2Eval baut zuerst einen riesigen, strukturierten Wissens-Atlas (einen "Knowledge Graph").

  • Die Analogie: Stell dir vor, du hast nicht nur einen Haufen loser Ziegelsteine (Daten), sondern du hast einen fertigen Bauplan, der genau zeigt, welche Steine wohin gehören. Du weißt: "Dieses Fenster gehört zu dieser Wand", "Dieses Rohr verbindet diese beiden Räume".
  • Wie es funktioniert: Der Computer sammelt Informationen aus Dokumenten und Webseiten und ordnet sie in diesem Atlas logisch an. Er versteht die Beziehungen: "Dieses Dokument gehört zu diesem Autor", "Dieser Button führt zu dieser Seite".

3. Die Aufgaben-Generierung (Der "Architekt")

Jetzt, wo der Atlas fertig ist, kann der Computer keine zufälligen Aufgaben mehr werfen. Stattdessen geht er wie ein kluger Architekt vor:

  • Subgraph Sampling (Das "Ausschneiden"): Er schneidet aus dem großen Atlas ein kleines, logisches Stück heraus. Zum Beispiel: "Hier ist ein Dokument über Wetter, hier ist eine Tabelle mit Temperaturen, und hier ist ein Button, um den Bericht zu speichern."
  • Die Aufgabe: Aus diesem logischen Stück wird eine klare Aufgabe gebaut: "Finde die Temperatur für morgen und speichere sie."
  • Der Vorteil: Da das Stück aus dem Atlas kommt, muss die Aufgabe lösbar sein. Es gibt keine "Eiscreme-Chili"-Rezepte mehr. Alles passt zusammen.

4. Zwei Welten: Dokumente und das Internet

Das System ist so clever, dass es zwei Arten von Aufgaben beherrscht:

  • Dokumente verstehen: Wie ein Bibliothekar, der in einem Stapel Akten die richtige Information findet.
  • Im Internet herumklicken: Wie ein Tourist, der auf einer Webseite durch Menüs klickt, Formulare ausfüllt und Seiten wechselt, um etwas zu kaufen oder zu buchen.

5. Der Test (Der "Prüfstand")

Am Ende haben die Forscher einen riesigen Testpool namens Graph2Eval-Bench erstellt.

  • Sie haben über 1.300 verschiedene Aufgaben generiert.
  • Sie haben verschiedene KI-Modelle (wie GPT-4, Qwen, DeepSeek) darauf getestet.
  • Das Ergebnis: Die Aufgaben waren viel besser. Sie waren zu 20 % logischer und zu 17 % besser lösbar als bei alten Methoden. Besonders wichtig: Der Test konnte wirklich unterscheiden, welche KI wirklich gut ist und welche nur "so tut, als ob".

Zusammenfassung in einem Satz

Statt dem Roboter zufällige, oft unsinnige Aufgaben zu geben, baut Graph2Eval erst eine logische Landkarte der Welt, schneidet daraus sinnvolle Teilstücke aus und fragt den Roboter dann: "Kannst du diesen Weg auf der Landkarte gehen?"

Das macht den Test fairer, sicherer und zeigt wirklich, ob der Roboter schlau ist oder nur auswendig lernt.