RECODE: Reasoning Through Code Generation for Visual Question Answering

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie schauen auf einen komplexen Diagramm-Chart oder eine geometrische Zeichnung und ein KI-Modell soll eine Frage dazu beantworten. Das Problem ist: Die KI schaut nur mit ihren „Augen" (den Pixeln) hin. Das ist, als würde jemand versuchen, ein Rezept zu lesen, indem er nur auf das Foto des fertigen Kuchens starrt. Er sieht die Farbe und die Form, aber er weiß nicht genau, wie viel Zucker drin war oder wie lange er gebacken wurde. Wenn er eine genaue Frage bekommt („Wie viel höher ist die Säule A als B?"), rät er oft nur, weil ihm die genauen Zahlen fehlen.

Die Forscher hinter RECODE haben eine geniale Idee: Warum nicht den Kuchen zurück in das Rezept verwandeln?

Hier ist die einfache Erklärung, wie das funktioniert:

1. Der „Rückwärts-Koch" (Der Derendering-Prozess)

Statt nur das Bild anzuschauen, versucht RECODE, das Bild in Code zu übersetzen. Das ist wie ein Detektiv, der nicht nur das fertige Puzzle betrachtet, sondern die einzelnen Teile so zusammensetzt, dass er genau herausfindet, wie das Bild ursprünglich „gebaut" wurde.

Die Analogie: Wenn Sie ein Foto eines Hauses sehen, sieht eine normale KI nur die Farbe der Wände. RECODE hingegen schreibt den Bauplan: „Nimm 100 Ziegel, füge ein Fenster bei X-Koordinate hinzu, male die Tür rot."

2. Der „Probelauf" (Das Generieren von Kandidaten)

RECODE ist nicht zufrieden mit nur einer Idee. Es schreibt wie ein verrückter Architekt mehrere verschiedene Baupläne (Programme), die versuchen, das Bild nachzubauen.

Die Analogie: Stellen Sie sich vor, drei verschiedene Köche versuchen, den gleichen Kuchen nachzubauen, indem sie nur das Foto sehen. Koch A sagt: „Ich brauche 2 Eier." Koch B sagt: „Ich brauche 3 Eier." Koch C sagt: „Vielleicht waren es 2,5 Eier?"

3. Der „Kritische Koch" (Der Kritiker)

Jetzt kommt der Clou: RECODE hat einen „Kritiker" an Bord. Dieser Kritiker nimmt die Baupläne der Köche und führt sie tatsächlich aus (er „backt" die Kuchen).

Der Vergleich: Der Kritiker backt die Kuchen basierend auf den Rezepten. Wenn Koch B einen Kuchen backt, der aussieht wie das Originalfoto, aber zu flach ist, weiß der Kritiker: „Falsches Rezept!" Wenn Koch A einen Kuchen backt, der dem Foto exakt gleicht, sagt er: „Das ist es!"
Der Vorteil: Da Code mathematisch ist, kann die KI genau berechnen, ob die Zahlen stimmen. Sie muss nicht mehr raten. Wenn die Frage lautet „Wie viel höher ist Säule A?", kann die KI den Code ausführen und die exakte Differenz berechnen, statt sie nur zu schätzen.

4. Das Ergebnis: Von „Vermutungen" zu „Beweisen"

Durch diesen Prozess verwandelt RECODE eine vage, visuelle Aufgabe („Schau mal, das sieht höher aus") in ein präzises, logisches Problem („Der Code sagt, dass Säule A genau 15 Einheiten höher ist").

Warum ist das wichtig?
Bisherige KI-Modelle waren wie Menschen, die nur mit dem Auge messen – gut für grobe Schätzungen, aber schlecht für genaue Mathematik. RECODE ist wie ein Ingenieur, der erst die Baupläne (den Code) erstellt, um sicherzustellen, dass seine Antworten überprüfbar und korrekt sind.

Auf Tests mit Diagrammen und Geometrieaufgaben (wie CharXiv oder ChartQA) hat sich gezeigt, dass RECODE deutlich besser abschneidet als Modelle, die nur Bilder „schauen" oder Code nur für kleine Tricks verwenden. Es ist ein neuer Weg, der KI beibringt, nicht nur zu sehen, sondern zu verstehen, wie Dinge aufgebaut sind, indem sie sie in eine Sprache übersetzt, die keine Fehler zulässt: den Code.

RECODE: Reasoning Through Code Generation for Visual Question Answering

1. Der „Rückwärts-Koch" (Der Derendering-Prozess)

2. Der „Probelauf" (Das Generieren von Kandidaten)

3. Der „Kritische Koch" (Der Kritiker)

4. Das Ergebnis: Von „Vermutungen" zu „Beweisen"

Problemstellung

Methodik: Das RECODE-Framework

Hauptbeiträge

Ergebnisse

Bedeutung und Ausblick

RECODE: Reasoning Through Code Generation for Visual Question Answering

1. Der „Rückwärts-Koch" (Der Derendering-Prozess)

2. Der „Probelauf" (Das Generieren von Kandidaten)

3. Der „Kritische Koch" (Der Kritiker)

4. Das Ergebnis: Von „Vermutungen" zu „Beweisen"

Problemstellung

Methodik: Das RECODE-Framework

Hauptbeiträge

Ergebnisse

Bedeutung und Ausblick

Mehr davon

PnLCalib: Sports Field Registration via Points and Lines Optimization

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

Sparse Variational Student-t Processes for Heavy-tailed Modeling

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

DRUPI: Dataset Reduction Using Privileged Information