Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Die Arbeit stellt mit TreeBench ein neues Benchmark zur Evaluierung nachvollziehbarer visueller Begründungen vor und entwickelt TreeVGR, einen Trainingsansatz mit Bestärkendem Lernen, der die Genauigkeit und Erklärbarkeit von Modellen für visuelle Aufgaben signifikant verbessert.

Haochen Wang, Xiangtai Li, Zilong Huang, Anran Wang, Jiacong Wang, Tao Zhang, Jiani Zheng, Sule Bai, Zijian Kang, Jiashi Feng, Zhuochen Wang, Zhaoxiang Zhang

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Detektiv, der einen Fall lösen muss. Ein gewöhnlicher KI-Assistent schaut sich das Tatortfoto an und sagt vielleicht: „Ich glaube, der Täter war links." Aber ein echter, schlauer Detektiv würde sagen: „Schau mal hier, ich habe genau diesen Bereich mit dem Finger markiert, und dort siehst du den Schuhabdruck. Deshalb weiß ich, dass er links war."

Genau an diesem Punkt hakt es bei den aktuellen KI-Modellen. Sie können oft gut reden, aber sie „sehen" nicht wirklich, was sie sagen. Die neue Arbeit „Traceable Evidence Enhanced Visual Grounded Reasoning" (zu Deutsch etwa: „Nachvollziehbare Beweise für visuelles begründetes Denken") bringt zwei Dinge mit, um das zu ändern: einen neuen Prüfstein (TreeBench) und eine neue Methode zum Lernen (TreeVGR).

Hier ist die Erklärung ganz einfach und mit ein paar kreativen Vergleichen:

1. Das Problem: Der „Räuber, der nicht hinsieht"

Bisherige KI-Modelle sind wie Schüler, die die Antworten auswendig gelernt haben, ohne die Bilder wirklich zu verstehen. Wenn man sie fragt: „Ist die rote Kugel hinter dem blauen Auto?", raten sie oft nur, weil sie im Text gelernt haben, dass „hinten" oft mit „Auto" zusammenkommt. Sie blättern nicht im Bild herum, um es zu überprüfen.

2. Der neue Prüfstein: TreeBench (Der „Fingerzeig-Test")

Die Forscher haben einen neuen Test entwickelt, den sie TreeBench nennen. Stell dir das wie einen extrem schwierigen Labyrinth-Suchlauf vor.

  • Das Szenario: Statt einfacher Fragen wie „Was ist das?", bekommen die KIs Fragen wie: „Welches der kleinen, verdeckten Schilder in der Menge hat die meisten Wörter?" oder „Wie sieht es aus, wenn man aus der Perspektive des Mannes im Rollstuhl auf das Schild schaut?"
  • Die Besonderheit: Es reicht nicht, die richtige Antwort zu geben. Die KI muss genau zeigen, wo sie im Bild hinschaut. Sie muss einen virtuellen „Finger" (einen Kasten um das Objekt) auf das Bild legen.
  • Das Ergebnis: Selbst die allerbesten KIs (wie OpenAI-o3 oder Gemini) haben hier große Mühe. Sie liegen oft unter 60 % richtig. Warum? Weil sie nicht wirklich „nachdenken", während sie schauen. Sie sehen nur das, was sie erwarten, nicht das, was da ist.

3. Die Lösung: TreeVGR (Der „Spürhund-Training")

Um die KIs besser zu machen, haben die Forscher eine neue Trainingsmethode namens TreeVGR entwickelt.

  • Der alte Weg: Früher hat man der KI nur gesagt: „Das war falsch, versuch es nochmal." Das ist wie wenn ein Lehrer nur sagt: „Note 4", ohne zu erklären, wo der Fehler lag.
  • Der neue Weg (TreeVGR): Hier wird die KI wie ein Spürhund trainiert, der Beweise hinterlassen muss.
    • Schritt 1 (Kaltstart): Man zeigt der KI erst einmal, wie man überhaupt erst mal auf ein Objekt zeigt, bevor man spricht.
    • Schritt 2 (Belohnungssystem): Wenn die KI eine Antwort gibt, wird sie nicht nur auf die Richtigkeit der Antwort geprüft, sondern auch darauf, ob ihr „Finger" (der Kasten) genau auf das richtige Objekt zeigt.
    • Die Magie: Die KI bekommt eine Belohnung, wenn sie zwei Dinge gleichzeitig macht: Sie findet das Objekt und sie erklärt, warum sie dorthin schaut. Sie lernt sozusagen: „Ich darf nicht raten, ich muss erst suchen und dann antworten."

4. Das Ergebnis: Vom „Raten" zum „Beweisen"

Durch diese Methode wird die KI nicht nur besser im Antworten, sondern auch im Erklären.

  • Vorher: KI sagt: „Die Antwort ist B." (Vielleicht richtig, vielleicht falsch, aber wir wissen nicht warum).
  • Nachher: KI sagt: „Ich habe hier geschaut. Dort sehe ich ein rotes Schild. Deshalb ist die Antwort B."

Das ist wie der Unterschied zwischen jemandem, der nur die Lösung eines Matheproblems hinschmiert, und jemandem, der den gesamten Lösungsweg auf das Papier schreibt.

Zusammenfassung in einem Satz

Die Forscher haben einen neuen, sehr schwierigen Test gebaut, der zeigt, dass KIs oft blind raten, und eine neue Trainingsmethode entwickelt, die sie zwingt, wie echte Detektive erst genau hinzuschauen und ihre Beweise zu zeigen, bevor sie eine Antwort geben.

Warum ist das wichtig?
Weil wir KIs bald in kritischen Bereichen brauchen (z. B. bei medizinischen Bildern oder autonomen Autos). Da reicht es nicht, wenn die KI „glaubt", sie hat etwas gesehen. Sie muss es beweisen können, indem sie genau zeigt, wo sie es gesehen hat. TreeVGR macht genau das möglich.