Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Detektiv, der einen Fall lösen muss. Ein gewöhnlicher KI-Assistent schaut sich das Tatortfoto an und sagt vielleicht: „Ich glaube, der Täter war links." Aber ein echter, schlauer Detektiv würde sagen: „Schau mal hier, ich habe genau diesen Bereich mit dem Finger markiert, und dort siehst du den Schuhabdruck. Deshalb weiß ich, dass er links war."

Genau an diesem Punkt hakt es bei den aktuellen KI-Modellen. Sie können oft gut reden, aber sie „sehen" nicht wirklich, was sie sagen. Die neue Arbeit „Traceable Evidence Enhanced Visual Grounded Reasoning" (zu Deutsch etwa: „Nachvollziehbare Beweise für visuelles begründetes Denken") bringt zwei Dinge mit, um das zu ändern: einen neuen Prüfstein (TreeBench) und eine neue Methode zum Lernen (TreeVGR).

Hier ist die Erklärung ganz einfach und mit ein paar kreativen Vergleichen:

1. Das Problem: Der „Räuber, der nicht hinsieht"

Bisherige KI-Modelle sind wie Schüler, die die Antworten auswendig gelernt haben, ohne die Bilder wirklich zu verstehen. Wenn man sie fragt: „Ist die rote Kugel hinter dem blauen Auto?", raten sie oft nur, weil sie im Text gelernt haben, dass „hinten" oft mit „Auto" zusammenkommt. Sie blättern nicht im Bild herum, um es zu überprüfen.

2. Der neue Prüfstein: TreeBench (Der „Fingerzeig-Test")

Die Forscher haben einen neuen Test entwickelt, den sie TreeBench nennen. Stell dir das wie einen extrem schwierigen Labyrinth-Suchlauf vor.

Das Szenario: Statt einfacher Fragen wie „Was ist das?", bekommen die KIs Fragen wie: „Welches der kleinen, verdeckten Schilder in der Menge hat die meisten Wörter?" oder „Wie sieht es aus, wenn man aus der Perspektive des Mannes im Rollstuhl auf das Schild schaut?"
Die Besonderheit: Es reicht nicht, die richtige Antwort zu geben. Die KI muss genau zeigen, wo sie im Bild hinschaut. Sie muss einen virtuellen „Finger" (einen Kasten um das Objekt) auf das Bild legen.
Das Ergebnis: Selbst die allerbesten KIs (wie OpenAI-o3 oder Gemini) haben hier große Mühe. Sie liegen oft unter 60 % richtig. Warum? Weil sie nicht wirklich „nachdenken", während sie schauen. Sie sehen nur das, was sie erwarten, nicht das, was da ist.

3. Die Lösung: TreeVGR (Der „Spürhund-Training")

Um die KIs besser zu machen, haben die Forscher eine neue Trainingsmethode namens TreeVGR entwickelt.

Der alte Weg: Früher hat man der KI nur gesagt: „Das war falsch, versuch es nochmal." Das ist wie wenn ein Lehrer nur sagt: „Note 4", ohne zu erklären, wo der Fehler lag.
Der neue Weg (TreeVGR): Hier wird die KI wie ein Spürhund trainiert, der Beweise hinterlassen muss.
- Schritt 1 (Kaltstart): Man zeigt der KI erst einmal, wie man überhaupt erst mal auf ein Objekt zeigt, bevor man spricht.
- Schritt 2 (Belohnungssystem): Wenn die KI eine Antwort gibt, wird sie nicht nur auf die Richtigkeit der Antwort geprüft, sondern auch darauf, ob ihr „Finger" (der Kasten) genau auf das richtige Objekt zeigt.
- Die Magie: Die KI bekommt eine Belohnung, wenn sie zwei Dinge gleichzeitig macht: Sie findet das Objekt und sie erklärt, warum sie dorthin schaut. Sie lernt sozusagen: „Ich darf nicht raten, ich muss erst suchen und dann antworten."

4. Das Ergebnis: Vom „Raten" zum „Beweisen"

Durch diese Methode wird die KI nicht nur besser im Antworten, sondern auch im Erklären.

Vorher: KI sagt: „Die Antwort ist B." (Vielleicht richtig, vielleicht falsch, aber wir wissen nicht warum).
Nachher: KI sagt: „Ich habe hier geschaut. Dort sehe ich ein rotes Schild. Deshalb ist die Antwort B."

Das ist wie der Unterschied zwischen jemandem, der nur die Lösung eines Matheproblems hinschmiert, und jemandem, der den gesamten Lösungsweg auf das Papier schreibt.

Zusammenfassung in einem Satz

Die Forscher haben einen neuen, sehr schwierigen Test gebaut, der zeigt, dass KIs oft blind raten, und eine neue Trainingsmethode entwickelt, die sie zwingt, wie echte Detektive erst genau hinzuschauen und ihre Beweise zu zeigen, bevor sie eine Antwort geben.

Warum ist das wichtig?
Weil wir KIs bald in kritischen Bereichen brauchen (z. B. bei medizinischen Bildern oder autonomen Autos). Da reicht es nicht, wenn die KI „glaubt", sie hat etwas gesehen. Sie muss es beweisen können, indem sie genau zeigt, wo sie es gesehen hat. TreeVGR macht genau das möglich.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Method" auf Deutsch:

1. Problemstellung

Trotz bahnbrechender Fortschritte bei Large Language Models (LLMs) und deren Fähigkeit zum logischen Schlussfolgern, zeigen Large Multimodal Models (LMMs) erhebliche Schwächen bei visuell fundierten Aufgaben. Aktuelle Modelle wie OpenAI-o3 oder DeepSeek-R1 nutzen oft rein textbasierte Schlussfolgerungspfade, was zu einem „Halluzinieren" von Bildinhalten führt, da sie keine explizite Verankerung (Grounding) an spezifischen Bildregionen durchführen.

Es fehlt derzeit an einem umfassenden Benchmark, der drei kritische Aspekte des „Denkens mit Bildern" (Thinking with Images) bewertet:

Fokussierte visuelle Wahrnehmung: Die Fähigkeit, subtile Ziele in komplexen, überfüllten Szenen zu identifizieren.
Nachvollziehbare Beweise (Traceable Evidence): Die Notwendigkeit, dass die Schlussfolgerungskette durch verifizierbare Bounding Boxes (Begrenzungsrahmen) untermauert wird, um die Nachvollziehbarkeit zu gewährleisten.
Zweite Ordnungs-Reasoning: Die Fähigkeit, über einfache Objekterkennung hinauszugehen und komplexe räumliche Beziehungen, Interaktionen (z. B. Verdeckung, Kontakt) und Perspektivwechsel zu verstehen.

Bestehende Benchmarks (wie MMBench oder V* Bench) vernachlässigen entweder die Feinabstimmung der Lokalisierung, bieten keine nachvollziehbaren Beweise oder sind zu leicht, da sie oft auf Daten basieren, die bereits im Training der Modelle vorkamen.

2. Methodik

Das Paper stellt zwei Hauptkomponenten vor: TreeBench (den Evaluations-Benchmark) und TreeVGR (die Trainingsmethode).

A. TreeBench (Traceable Evidence Evaluation Benchmark)

TreeBench ist ein diagnostischer Benchmark, der entwickelt wurde, um die Fähigkeiten von Modellen zum „Denken mit Bildern" rigoros zu testen.

Datensammlung: Ausgehend von 1.000 hochauflösenden Bildern aus SA-1B (mit Fokus auf dichte Objektansammlungen) wurden durch acht Experten manuell Fragen, Antwortoptionen und die korrekten Bounding Boxes annotiert.
Qualitätssicherung: Ein mehrstufiger Prozess (inkl. Generierung durch LMMs wie OpenAI-o3 und Gemini-2.5-Pro, gefolgt von manueller Kuratierung und Schwierigkeitsfilterung) führte zu 405 hochqualitativen, extrem schwierigen VQA-Paaren (Visual Question Answering).
Kategorien: Der Benchmark deckt 10 Unterkategorien ab, unterteilt in:
- Wahrnehmung (Perception): Attribute, Material, Physischer Zustand, Objektretrieval, OCR-Integration.
- Reasoning: Perspektivische Transformation, Reihenfolge (Ordering), Kontakt und Verdeckung, Räumliche Einbettung, Vergleich.
Besonderheit: Jede Frage ist mit den exakten Ground-Truth-Bounding Boxes der Zielobjekte verknüpft, was eine quantitative Bewertung der Lokalisierungsgenauigkeit (mIoU) ermöglicht.

B. TreeVGR (Traceable Evidence Enhanced Visual Grounded Reasoning)

TreeVGR ist ein zweistufiges Trainingsparadigma, das darauf abzielt, Lokalisierung und Reasoning gemeinsam zu verbessern, anstatt nur die finale Antwort zu überwachen.

Stufe 1: Cold-Start Initialisierung (SFT):
- Ein überwachtes Fine-Tuning (SFT) auf einem Datensatz von 35.000 Proben, die aus VGR-158K abgeleitet wurden.
- Das Modell lernt, Bounding Boxes in der Denkphase (CoT) zu generieren, bevor es die Antwort formuliert. Dies etabliert die Grundfähigkeit, visuelle Regionen zu lokalisieren.
Stufe 2: Reinforcement Learning (RL) mit nachvollziehbaren Beweisen:
- Das Modell wird mittels Reinforcement Learning (GRPO - Group Relative Policy Optimization) weiterverfeinert.
- Novel Reward Design: Der entscheidende Unterschied zu vorherigen Ansätzen ist die Einführung eines Dual-IoU Rewards ( $R_{IoU}$ ) neben den üblichen Rewards für Genauigkeit ( $R_{acc}$ ) und Formatierung ( $R_{format}$ ).
- Der $R_{IoU}$ $R_{I o U}$ besteht aus zwei Teilen:
  1. Recall-Term: Stellt sicher, dass jedes Ground-Truth-Objekt von mindestens einer vorhergesagten Box abgedeckt wird.
  2. Precision-Term: Stellt sicher, dass jede vorhergesagte Box mit einem Ground-Truth-Objekt übereinstimmt (verhindert das Erzeugen leerer oder redundanter Boxen).
- Dies zwingt das Modell, präzise und vollständige Lokalisierungen während des Reasoning-Prozesses zu generieren, was zu nachvollziehbaren und erklärbareren Pfaden führt.

3. Wichtige Beiträge

TreeBench: Der erste Benchmark, der explizit für „Thinking with Images" konzipiert wurde und nachvollziehbare Beweise (Bounding Boxes) als integralen Bestandteil der Evaluation fordert. Er deckt die Lücke bei der Bewertung von feingranularer Wahrnehmung und komplexem räumlichem Reasoning.
TreeVGR-Paradigma: Eine neue Trainingsmethode, die durch RL mit Dual-IoU-Rewards die Generierung von Bounding Boxes explizit überwacht. Dies löst das Problem, dass bisherige RL-Ansätze nur die Endantwort belohnen und den „Grounding"-Prozess ignorieren.
Effizienz: Im Gegensatz zu Ansätzen, die das Neuproduzieren von Bildausschnitten erfordern, nutzt TreeVGR textbasiertes Grounding, was den Trainings- und Inferenzaufwand erheblich reduziert.

4. Ergebnisse

Die Experimente zeigen signifikante Verbesserungen gegenüber dem Baseline-Modell (Qwen2.5-VL-7B) und anderen State-of-the-Art-Modellen:

Auf TreeBench:
- TreeVGR-7B erreicht 50,4 % Genauigkeit (im Vergleich zu 37,0 % beim Baseline-Modell).
- Selbst die fortschrittlichsten proprietären Modelle scheitern: OpenAI-o3 erreicht nur 54,87 % und Gemini-2.5-Pro 54,6 %. Kein Modell erreicht 60 %, was die hohe Schwierigkeit des Benchmarks unterstreicht.
- TreeVGR-7B erreicht eine vergleichbare Leistung wie das viel größere InternVL3-78B (45,5 % vs. 45,5 % im Gesamtdurchschnitt, wobei TreeVGR eine höhere mIoU aufweist).
Auf anderen Benchmarks:
- V Bench:* Steigerung um +16,8 % (auf 91,1 %).
- MME-RealWorld-Lite: Steigerung um +12,6 % (auf 54,9 %).
- HR-Bench: Deutliche Verbesserungen bei hochauflösenden Eingaben.
Korrelation: Es wurde eine positive Korrelation zwischen der Lokalisierungsgenauigkeit (mIoU) und der Gesamtleistung festgestellt. Modelle mit besserem Grounding liefern auch bessere Reasoning-Ergebnisse.

5. Bedeutung und Ausblick

Das Paper demonstriert, dass Nachvollziehbarkeit (Traceability) der Schlüssel zur Weiterentwicklung des visuell fundierten Reasonings ist. Durch die explizite Überwachung der Bounding Boxes während des Trainings (nicht nur der Antwort) entstehen Modelle, die nicht nur „raten", sondern ihre Antworten auf verifizierbare visuelle Beweise stützen.

Wissenschaftlicher Impact: TreeBench setzt einen neuen Standard für die Evaluation von Multimodal-Modellen, der über reine Text-Genauigkeit hinausgeht und die Qualität des visuellen Verstehens misst.
Technischer Impact: TreeVGR bietet einen effizienten Blueprint für das Training von Modellen, die komplexe räumliche Beziehungen und Interaktionen in realen Szenarien verstehen können.
Zukunft: Die Autoren sehen Potenzial darin, die Methode auf größere Modelle zu skalieren und die Benchmarks um weitere Domänen zu erweitern, insbesondere um die noch schwachen Fähigkeiten bei Perspektivwechseln (Ego-View 3D Awareness) zu verbessern.

Zusammenfassend beweist die Arbeit, dass die Integration von nachvollziehbaren visuellen Beweisen in den Reasoning-Prozess entscheidend ist, um die Lücke zwischen menschlichem visuellem Denken und der Leistung von KI-Modellen zu schließen.

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

1. Das Problem: Der „Räuber, der nicht hinsieht"

2. Der neue Prüfstein: TreeBench (Der „Fingerzeig-Test")

3. Die Lösung: TreeVGR (Der „Spürhund-Training")

4. Das Ergebnis: Vom „Raten" zum „Beweisen"

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik

A. TreeBench (Traceable Evidence Evaluation Benchmark)

B. TreeVGR (Traceable Evidence Enhanced Visual Grounded Reasoning)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers