RECODE: Reasoning Through Code Generation for Visual Question Answering

Het paper introduceert RECODE, een agentisch framework dat multimodale redenering verbetert door visuele elementen zoals grafieken en diagrammen om te zetten in verifieerbare uitvoerbare code via een proces van afbeelding naar code en terug.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi

Gepubliceerd Wed, 11 Ma
📖 3 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een complexe grafiek of een lastig meetkundig diagram bekijkt. Voor een mens is het vaak duidelijk wat er gebeurt, maar voor een kunstmatige intelligentie (zoals een slimme computer) is het alsof ze naar een schilderij kijken en proberen te raden wat er in de verf zit, zonder de onderliggende structuur te begrijpen. Ze zien alleen de pixels, de kleuren en de lijnen, maar ze kunnen niet echt "rekenen" of controleren of hun antwoord klopt.

Deze nieuwe paper, genaamd RECODE, lost dit probleem op met een slimme truc. Het idee is als volgt:

De Truc: Van "Kijken" naar "Bouwen"

In plaats van dat de computer alleen naar de afbeelding kijkt en een gok doet, laten we de computer de afbeelding terugbouwen.

Stel je voor dat je een ingewikkeld LEGO-kasteel ziet. De oude manier was om te proberen te raden hoe het eruitzag door alleen naar de foto te staren. De nieuwe manier (RECODE) is:

  1. De computer probeert eerst de bouwinstructies (de code) te schrijven die nodig zijn om dat kasteel precies na te bouwen.
  2. Het maakt een paar verschillende versies van die instructies (alsof het drie verschillende bouwhandboeken schrijft).
  3. Vervolgens laat het de computer die instructies uitvoeren. De computer bouwt het kasteel daadwerkelijk op het scherm.
  4. Nu komt de slimme "criticus" (een controleur) kijken: "Klopt dit bouwwerk met de originele foto?" Als het niet klopt, past de computer de instructies aan en bouwt het opnieuw.

Waarom is dit zo krachtig?

Dit is als het verschil tussen gokken en rekenen.

  • De oude manier (Pixel-perceptie): Het is alsof iemand naar een foto van een koekje kijkt en zegt: "Ik denk dat er 3 chocoladevlokken op zitten." Ze kunnen het niet controleren zonder de foto te veranderen.
  • De RECODE-methode: De computer schrijft een recept: "Neem 3 vlokken en leg ze op de koek." Omdat het recept (de code) uitvoerbaar is, kan de computer het echt doen en tellen: "Ja, ik heb er precies 3 gebruikt. Het antwoord is dus 3."

Wat levert dit op?

Door visuals (grafieken, diagrammen, meetkunde) om te zetten in uitvoerbare code, verandert het probleem. Het wordt niet langer een vaag "wat zie ik?"-vraagstuk, maar een duidelijk "reken- en logisch" probleem.

De onderzoekers hebben getoond dat deze methode (RECODE) veel beter werkt dan andere methoden op moeilijke tests met grafieken en meetkunde. Het is alsof je een wiskundig probleem niet meer oplost door te gissen, maar door een exacte formule te schrijven en die uit te voeren.

Kortom: RECODE geeft computers een nieuwe bril. In plaats van alleen naar de buitenkant van een plaatje te kijken, leren ze de "bouwtekeningen" (de code) te achterhalen. Hierdoor kunnen ze niet alleen zien, maar ook verifiëren, rekenen en logisch redeneren met een precisie die ze voorheen misten.