ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools

Each language version is independently generated for its own context, not a direct translation.

ToolVQA: Ein neuer Weg, damit KI-Modelle wie echte Helfer denken

Stellen Sie sich vor, Sie haben einen sehr intelligenten, aber etwas naiven Assistenten. Er kennt die ganze Welt auswendig (er hat Millionen von Büchern gelesen), aber er kann keine Werkzeuge benutzen. Wenn Sie ihn bitten, ein Bild zu analysieren und dann eine komplexe Frage zu beantworten, die Daten aus dem Internet oder eine Rechnung erfordert, stottert er. Er versucht, alles aus dem Gedächtnis zu raten, und macht dabei Fehler.

Das ist das Problem, das die Forscher von der Peking-Universität mit ihrer neuen Arbeit „ToolVQA" lösen wollen. Hier ist die Erklärung, wie sie das tun, ohne Fachchinesisch zu verwenden:

1. Das Problem: Der Assistent ohne Werkzeugkasten

Bisherige KI-Tests waren wie ein Schulfach-Quiz. Die Fragen waren einfach, die Bilder oft künstlich erzeugt (wie in einem Cartoon) und die Antworten waren direkt im Bild zu sehen.

Beispiel: „Wie viele Äpfel sind auf dem Bild?" -> Die KI zählt einfach.
Das Problem im echten Leben: Ein echter Nutzer fragt: „Ich sehe hier ein Bier aus einer Brauerei, die 2019 geschlossen hat. Wie viele Jahre ist das her?"
- Dafür muss die KI erst das Bild lesen (OCR), dann den Namen der Brauerei erkennen, dann im Internet nach dem Schließungsdatum suchen, dann das Datum mit dem heutigen Jahr vergleichen und schließlich eine Rechnung machen.
- Bisherige KIs scheiterten an dieser Kette von Schritten. Sie waren wie ein Auto, das nur geradeaus fahren kann, aber keine Kurven, keine Ampeln und keine Umwege beherrscht.

2. Die Lösung: ToolVQA – Der neue Trainingsplatz

Die Forscher haben einen riesigen neuen Datensatz namens ToolVQA erstellt. Man kann sich das wie einen simulierten Alltagstraining für die KI vorstellen.

23.000 neue Szenarien: Statt künstlicher Bilder nutzen sie echte Fotos (z. B. von einem Salat, einem Bier oder einem Diagramm).
10 verschiedene Werkzeuge: Die KI lernt, wie man mit einem Taschenrechner, einer Suchmaschine, einem Zeichenprogramm oder einem Text-Scanner umgeht.
Der Clou: Die Fragen sind nicht direkt im Bild zu beantworten. Die KI muss erst denken, dann ein Werkzeug holen, dann denken, dann ein anderes Werkzeug holen.

3. Wie haben sie das gemacht? Der „ToolEngine"-Baumeister

Das Erstellen von 23.000 solchen Aufgaben von Hand wäre unmöglich (zu teuer und zu langsam). Also haben sie einen automatischen Baumeister namens ToolEngine gebaut.

Stellen Sie sich ToolEngine wie einen erfahrenen Detektiv vor, der einen Lehrling ausbildet:

Der Bild-Scan: Der Detektiv schaut sich ein echtes Foto an.
Die Suche (DFS): Er geht nicht einfach zufällig vor. Er nutzt eine Methode namens „Tiefensuche" (wie beim Durchwühlen eines Labyrinths), um den besten Weg zur Antwort zu finden.
Der Vergleich (LCS): Das ist der geniale Trick. Der Detektiv vergleicht seinen aktuellen Lösungsweg mit echten Beispielen, die Menschen früher gelöst haben.
- Analogie: Wenn der Detektiv gerade einen Text liest, schaut er: „Ah, in einem ähnlichen Fall hat jemand vorher einen Taschenrechner benutzt. Ich sollte das auch tun."
- Dadurch lernt die KI, nicht nur Werkzeuge zu benutzen, sondern sie in der richtigen Reihenfolge und zum richtigen Zeitpunkt einzusetzen.

4. Das Ergebnis: Ein kleiner Held schlägt den Riesen

Das Team hat eine bekannte KI (LLaVA-7B) mit diesem neuen Trainingsmaterial (ToolVQA) trainiert.

Das Wunder: Diese trainierte KI, obwohl sie technisch gesehen „kleiner" ist als die riesigen, geschlossenen Modelle von Firmen wie OpenAI (z. B. GPT-3.5), hat auf vielen Tests besser abgeschnitten.
Warum? Weil sie nicht nur auswendig gelernt hat, sondern das Werkzeug-Handwerk wirklich verstanden hat. Sie kann komplexe, mehrstufige Probleme lösen, bei denen sie erst suchen, dann rechnen und dann zusammenfassen muss.

Zusammenfassung in einer Metapher

Stellen Sie sich vor, frühere KIs waren wie ein Genie, das nur in einer Bibliothek lebt. Es kennt alle Bücher, aber wenn Sie es bitten, ein Paket zu einem bestimmten Haus zu bringen, weiß es nicht, wie man ein Auto fährt oder eine Karte liest.

Mit ToolVQA haben die Forscher dem Genie einen Führerschein und einen Werkzeugkasten gegeben. Sie haben es in einer simulierten Stadt trainiert, wo es lernen musste: „Zuerst schaue ich auf die Adresse (Bild), dann suche ich die Route (Internet), dann berechne ich die Zeit (Rechner) und erst dann fahre ich los."

Das Ergebnis ist ein KI-Assistent, der nicht nur klug ist, sondern auch handwerklich geschickt und bereit für die echten Probleme der Welt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Integration externer Werkzeuge in Large Foundation Models (LFMs) gilt als vielversprechender Ansatz, um deren Problemlösungsfähigkeiten zu erweitern. Bisherige Studien zeigten zwar gute Ergebnisse bei tool-augmentiertem Visual Question Answering (VQA), doch neuere Benchmarks offenbaren signifikante Lücken in der tatsächlichen Werkzeugnutzungskompetenz, insbesondere in funktional vielfältigen multimodalen Szenarien, die mehrschrittige Schlussfolgerungen (Multi-step Reasoning) erfordern.

Bestehende Datensätze leiden unter folgenden Mängeln:

Künstliche Szenarien: Sie basieren oft auf synthetischen Bildern und vereinfachten Kontexten, die nicht der Realität entsprechen.
Einfache Abfragen: Die Fragen erfordern meist nur einen einzigen Denkschritt oder geben den Lösungsweg explizit vor (z. B. „Nutze das YouTube-API"), anstatt implizites, mehrstufiges Reasoning zu erfordern.
Fehlende Skalierbarkeit: Viele Datensätze beruhen auf teurer manueller Annotation, was ihre Größe begrenzt.

Das Ziel ist es, einen Datensatz zu schaffen, der reale visuelle Kontexte und komplexe, implizite Abfragen abbildet, um LFMs auf echte Nutzerinteraktionen vorzubereiten.

2. Methodik: ToolEngine und ToolVQA

Um diese Lücke zu schließen, stellen die Autoren ToolVQA vor, einen groß angelegten multimodalen Datensatz mit 23.000 Stichproben, der mit einer neuartigen Daten-Generierungspipeline namens ToolEngine erstellt wurde.

A. ToolEngine (Daten-Generierungspipeline)

ToolEngine simuliert menschliches Werkzeugnutzungsverhalten durch drei Kernkomponenten:

Konstruktion realer Beispiele (Real-World Example Construction):
- Es wird ein kleiner Satz von menschlich erstellten Beispielen ( $E$ ) verwendet, die typische Werkzeugnutzungs-Szenarien abbilden. Diese dienen als Vorwissen (In-Context Examples) für das steuernde LLM.
Bildgestützte Tiefensuche (Image-guided DFS):
- Statt zufällige Abfolgen zu generieren, wird ein Depth-First Search (DFS)-Algorithmus auf einem Werkzeug-Graphen durchgeführt.
- Ein Controller (basierend auf ChatGPT-4o-latest) wählt in jedem Schritt das nächste Werkzeug und die Argumente basierend auf dem Eingabebild, dem aktuellen Pfad und den passenden Beispielen aus.
- Dies stellt sicher, dass nur notwendige Werkzeuge aufgerufen werden und die Trajektorie logisch kohärent ist.
LCS-basierte Beispiel-Matching (Longest Common Subsequence):
- Dies ist ein entscheidender Innovationsschritt. Anstatt eine feste Gruppe von Beispielen zu verwenden, passt die Methode dynamisch die Beispiele an den aktuellen Suchpfad an.
- Der Algorithmus berechnet die längste gemeinsame Teilsequenz (LCS) zwischen dem aktuellen Lösungsweg ( $P_i$ ) und den gespeicherten Beispielen ( $P_e$ ).
- Die Top- $k$ Beispiele mit der höchsten Übereinstimmung werden ausgewählt, um den Controller für den nächsten Schritt zu leiten. Dies ermöglicht die Integration verschiedener Wissensquellen und erhöht die Komplexität der generierten Fragen.

B. Der ToolVQA-Datensatz

Umfang: 23.700 Stichproben.
Werkzeuge: 10 multimodale Werkzeuge in 7 verschiedenen Domänen (z. B. Bildbeschreibung, OCR, Objekterkennung, Google-Suche, Taschenrechner, Plotting, Text-zu-Bild).
Komplexität: Durchschnittlich 2,78 Reasoning-Schritte pro Stichprobe.
Qualitätssicherung: Ein manueller Test an einer Teilmenge ergab eine Genauigkeit von 90,8 %. Der Testset wurde vollständig von Menschen neu annotiert und gefiltert.

3. Wichtige Beiträge

ToolEngine: Eine automatisierte Pipeline zur Generierung von mehrstufigen Werkzeugnutzungs-Trajektorien aus unannotierten Bildern unter Verwendung von DFS und dynamischem LCS-Matching.
ToolVQA: Ein Benchmark-Datensatz, der reale Szenarien und implizite mehrstufige Reasoning-Aufgaben abdeckt und damit bestehende synthetische Datensätze übertrifft.
Feinabstimmung (Fine-Tuning) und Agent: Die Feinabstimmung des Modells LLaVA-7B auf ToolVQA führt zu einem neuen Tool-Use-Agenten, der in der Leistung mit großen geschlossenen Modellen konkurriert.

4. Ergebnisse

Die Autoren evaluierten State-of-the-Art-LFMs auf ToolVQA und auf Out-of-Distribution (OOD) Benchmarks:

Leistung auf ToolVQA:
- Das feinabgestimmte LLaVA-7B (Open Source) erreicht auf dem Testset und in OOD-Szenarien eine Leistung, die GPT-3.5-Turbo (geschlossenes Modell) in fünf von sechs Benchmarks übertrifft oder ihr ebenbürtig ist.
- Es wurde festgestellt, dass größere Modelle generell besser abschneiden, aber Feinabstimmung auch kleinere Modelle (7B) stark verbessert.
Out-of-Distribution (OOD) Generalisierung:
- Das Modell zeigte hervorragende Generalisierungsfähigkeit auf Datensätzen wie TextVQA, TallyQA, InfoSeek, GTA und TEMPLAMA, die unbekannte Aufgaben und Werkzeuge enthalten.
- Auf TextVQA, TallyQA, InfoSeek und GTA übertraf das feinabgestimmte LLaVA-7B sowohl das Basis-LLaVA-7B als auch GPT-3.5-Turbo.
Fehleranalyse:
- Die Hauptfehlerquellen liegen in der Vorhersage von Argumenten (z. B. fehlende Schlüsselwörter in Suchanfragen) und der Zusammenfassung von Antworten (falsche Extraktion von Informationen aus Tool-Ausgaben).
- Dies zeigt, dass LFMs Schwierigkeiten haben, neue Informationen aus Tool-Antworten dynamisch zu verarbeiten und in den Kontext zu integrieren.

5. Bedeutung und Fazit

ToolVQA adressiert die kritische Lücke zwischen synthetischen Benchmarks und realen Anforderungen an KI-Agenten.

Realismus: Durch die Nutzung echter Bilder und komplexer, impliziter Fragen zwingt der Datensatz Modelle dazu, echte Werkzeugaffordanzen zu verstehen, anstatt nur Muster zu erkennen.
Skalierbarkeit: Die ToolEngine-Pipeline ermöglicht die kosteneffiziente Generierung hochwertiger Trainingsdaten ohne vollständige manuelle Annotation.
Fortschritt: Die Ergebnisse belegen, dass Open-Source-Modelle durch gezieltes Feinabstimmung auf realitätsnahen Daten die Leistungsfähigkeit großer geschlossener Modelle in komplexen Werkzeugnutzungs-Szenarien übertreffen können.

Der Datensatz und die Pipeline dienen als neue Benchmark und Trainingsgrundlage für die Entwicklung robusterer, generalisierbarer multimodaler Agenten für reale Anwendungen. Der Code ist unter der angegebenen GitHub-URL verfügbar.

ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools

1. Das Problem: Der Assistent ohne Werkzeugkasten

2. Die Lösung: ToolVQA – Der neue Trainingsplatz

3. Wie haben sie das gemacht? Der „ToolEngine"-Baumeister

4. Das Ergebnis: Ein kleiner Held schlägt den Riesen

Zusammenfassung in einer Metapher

1. Problemstellung

2. Methodik: ToolEngine und ToolVQA

A. ToolEngine (Daten-Generierungspipeline)

B. Der ToolVQA-Datensatz

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

Structural Segmentation of the Minimum Set Cover Problem: Exploiting Universe Decomposability for Metaheuristic Optimization

To Throw a Stone with Six Birds: On Agents and Agenthood

Position: Science of AI Evaluation Requires Item-level Benchmark Data

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models