Visual Planning: Let's Think Only with Images

Dit paper introduceert Visual Planning, een nieuw paradigma waarbij redenering plaatsvindt via sequenties van afbeeldingen in plaats van tekst, wat door middel van een versterkingsleerframework (VPRL) leidt tot aanzienlijke verbeteringen in visuele navigatietaken.

Yi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić

Gepubliceerd 2026-02-23
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🧠 Het Grote Idee: "Denk met je ogen, niet met je mond"

Stel je voor dat je een ingewikkeld labyrint moet doorlopen.

  • De oude manier (wat AI nu meestal doet): Je kijkt naar de kaart, beschrijft de muren en paden in woorden ("ik ga drie stappen naar rechts, dan een links..."), en probeert dan in je hoofd een route te bedenken op basis van die tekst. Het is alsof je een film probeert te regisseren door alleen de scripttekst te lezen, zonder de beelden te zien. Dit werkt vaak niet goed, vooral bij ruimtelijke puzzels.
  • De nieuwe manier (Visual Planning): Je kijkt naar de kaart en tekent direct de route op een vel papier. Je denkt niet in zinnen, maar in beelden. Je ziet het volgende vakje, dan het volgende, en zo ontstaat er een visuele route.

De onderzoekers van dit paper (uit Cambridge en Google) zeggen: "Waarom moeten we voor visuele taken altijd eerst alles in tekst omzetten? Laten we gewoon denken in plaatjes."


🎨 De Analogie: De Schilder versus de Verteller

Om dit te begrijpen, kun je twee soorten kunstenaars voorstellen:

  1. De Verteller (De huidige AI): Deze kunstenaar moet een schilderij van een storm beschrijven. Hij schrijft een lang verhaal: "De wind waait hard, de bomen buigen..." Maar als hij moet voorspellen hoe een tak precies breekt, raakt hij in de war. Hij probeert de fysica van de wereld te vertalen naar woorden, en dat gaat vaak mis.
  2. De Schilder (De nieuwe AI): Deze kunstenaar pakt zijn penseel en schildert direct het volgende moment. Hij ziet de tak buigen en schildert hem gebroken. Hij hoeft niet na te denken over de woorden "buigen" of "breken"; hij ziet het gebeuren en maakt het na.

Dit paper introduceert een AI die werkt als De Schilder. In plaats van een tekstueel antwoord te geven ("ga naar links"), genereert de AI een reeks nieuwe plaatjes die laten zien hoe de situatie verandert.


🚀 Hoe werkt het? (De "Visual Planning" methode)

De onderzoekers hebben een nieuwe manier bedacht om deze "Schilder-AI" slim te maken, genaamd VPRL (Visual Planning via Reinforcement Learning).

Stel je voor dat je een kind leert lopen in een donkere kamer:

  1. Stap 1: Het Leren van de Vorm (Supervised Fine-Tuning):
    Eerst laat je het kind een paar keer zien hoe het moet lopen. Je houdt zijn hand vast en leidt hem langs de juiste weg. Dit is de basis, maar het kind leert alleen de vaste route na te bootsen. Als de kamer anders wordt, weet het kind niet wat het moet doen.

  2. Stap 2: De Leermeester met Prikken (Reinforcement Learning):
    Nu laat je het kind zelf proberen.

    • Als het kind tegen een muur loopt (een fout), krijgt het een "prik" (een negatieve score).
    • Als het kind een stap dichter bij de uitgang komt (een goede stap), krijgt het een "koekje" (een positieve score).
    • Als het kind op de juiste plek blijft staan (geen vooruitgang), krijgt het niets.

    Door duizenden keren te proberen en te leren van de "prikken" en "koekjes", leert het kind niet alleen de weg, maar ook hoe het moet denken in de ruimte. Het ontwikkelt een gevoel voor wat wel en niet werkt, zonder dat iemand het in woorden uitlegt.


🏆 Wat hebben ze ontdekt?

Ze hebben deze nieuwe AI getest op drie soorten puzzels:

  1. FrozenLake: Een ijsbaan met gaten waar je niet in mag vallen.
  2. Maze: Een doolhof.
  3. Mini-Behavior: Een robot die een printer moet oppakken en op een tafel moet zetten.

De resultaten waren verrassend:

  • De AI die alleen in plaatjes dacht (Visual Planning), was veel slimmer dan de AI die alleen in tekst dacht.
  • De "tekst-AI" maakte vaak fouten omdat het de ruimte niet goed kon "voelen" door de vertaling naar woorden. Het was alsof iemand probeert een auto te besturen door alleen naar de handleiding te lezen in plaats van naar de weg te kijken.
  • De "plaatjes-AI" kon zelfs beter omgaan met moeilijkere situaties (grotere doolhoven) en maakte veel minder fouten.

💡 Waarom is dit belangrijk?

Vroeger dachten we dat AI slim moest zijn door te praten (zoals wij mensen). Maar dit onderzoek laat zien dat voor taken die te maken hebben met ruimte, beweging en visuele logica, praten juist een rem kan zijn.

Het is alsof je een dansstap probeert uit te leggen in woorden ("linkervoet naar voren, dan rechterarm omhoog") versus het gewoon voordoen. Voor complexe ruimtelijke taken is het "voordoen" (denken in plaatjes) veel natuurlijker en effectiever.

Kort samengevat:
Deze AI is als een visuele dromer die de toekomst in beelden ziet, in plaats van een verteller die de toekomst in zinnen probeert te beschrijven. En voor het oplossen van puzzels en het navigeren door de wereld, werkt dat beeldend denken gewoon beter!

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →