RECODE: Reasoning Through Code Generation for Visual Question Answering

Das Paper stellt RECODE vor, einen agentenbasierten Rahmen, der durch das Reverse-Engineering von visuellen Eingaben in ausführbaren Code (Derendering) eine verifizierbare und präzise multimodale Reasoning-Fähigkeit für strukturierte Grafiken wie Diagramme und Schaubilder ermöglicht.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi

Veröffentlicht Wed, 11 Ma
📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie schauen auf einen komplexen Diagramm-Chart oder eine geometrische Zeichnung und ein KI-Modell soll eine Frage dazu beantworten. Das Problem ist: Die KI schaut nur mit ihren „Augen" (den Pixeln) hin. Das ist, als würde jemand versuchen, ein Rezept zu lesen, indem er nur auf das Foto des fertigen Kuchens starrt. Er sieht die Farbe und die Form, aber er weiß nicht genau, wie viel Zucker drin war oder wie lange er gebacken wurde. Wenn er eine genaue Frage bekommt („Wie viel höher ist die Säule A als B?"), rät er oft nur, weil ihm die genauen Zahlen fehlen.

Die Forscher hinter RECODE haben eine geniale Idee: Warum nicht den Kuchen zurück in das Rezept verwandeln?

Hier ist die einfache Erklärung, wie das funktioniert:

1. Der „Rückwärts-Koch" (Der Derendering-Prozess)

Statt nur das Bild anzuschauen, versucht RECODE, das Bild in Code zu übersetzen. Das ist wie ein Detektiv, der nicht nur das fertige Puzzle betrachtet, sondern die einzelnen Teile so zusammensetzt, dass er genau herausfindet, wie das Bild ursprünglich „gebaut" wurde.

  • Die Analogie: Wenn Sie ein Foto eines Hauses sehen, sieht eine normale KI nur die Farbe der Wände. RECODE hingegen schreibt den Bauplan: „Nimm 100 Ziegel, füge ein Fenster bei X-Koordinate hinzu, male die Tür rot."

2. Der „Probelauf" (Das Generieren von Kandidaten)

RECODE ist nicht zufrieden mit nur einer Idee. Es schreibt wie ein verrückter Architekt mehrere verschiedene Baupläne (Programme), die versuchen, das Bild nachzubauen.

  • Die Analogie: Stellen Sie sich vor, drei verschiedene Köche versuchen, den gleichen Kuchen nachzubauen, indem sie nur das Foto sehen. Koch A sagt: „Ich brauche 2 Eier." Koch B sagt: „Ich brauche 3 Eier." Koch C sagt: „Vielleicht waren es 2,5 Eier?"

3. Der „Kritische Koch" (Der Kritiker)

Jetzt kommt der Clou: RECODE hat einen „Kritiker" an Bord. Dieser Kritiker nimmt die Baupläne der Köche und führt sie tatsächlich aus (er „backt" die Kuchen).

  • Der Vergleich: Der Kritiker backt die Kuchen basierend auf den Rezepten. Wenn Koch B einen Kuchen backt, der aussieht wie das Originalfoto, aber zu flach ist, weiß der Kritiker: „Falsches Rezept!" Wenn Koch A einen Kuchen backt, der dem Foto exakt gleicht, sagt er: „Das ist es!"
  • Der Vorteil: Da Code mathematisch ist, kann die KI genau berechnen, ob die Zahlen stimmen. Sie muss nicht mehr raten. Wenn die Frage lautet „Wie viel höher ist Säule A?", kann die KI den Code ausführen und die exakte Differenz berechnen, statt sie nur zu schätzen.

4. Das Ergebnis: Von „Vermutungen" zu „Beweisen"

Durch diesen Prozess verwandelt RECODE eine vage, visuelle Aufgabe („Schau mal, das sieht höher aus") in ein präzises, logisches Problem („Der Code sagt, dass Säule A genau 15 Einheiten höher ist").

Warum ist das wichtig?
Bisherige KI-Modelle waren wie Menschen, die nur mit dem Auge messen – gut für grobe Schätzungen, aber schlecht für genaue Mathematik. RECODE ist wie ein Ingenieur, der erst die Baupläne (den Code) erstellt, um sicherzustellen, dass seine Antworten überprüfbar und korrekt sind.

Auf Tests mit Diagrammen und Geometrieaufgaben (wie CharXiv oder ChartQA) hat sich gezeigt, dass RECODE deutlich besser abschneidet als Modelle, die nur Bilder „schauen" oder Code nur für kleine Tricks verwenden. Es ist ein neuer Weg, der KI beibringt, nicht nur zu sehen, sondern zu verstehen, wie Dinge aufgebaut sind, indem sie sie in eine Sprache übersetzt, die keine Fehler zulässt: den Code.