On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme robot hebt die je helpt door een doolhof te lopen. Je geeft de robot een kaart, een startpunt en een schat. De robot moet een route bedenken om de schat te vinden zonder in gaten (lakes) te vallen.

Dit is precies wat deze onderzoekers hebben gedaan met moderne kunstmatige intelligentie (AI). Ze wilden weten: leren deze robots echt hoe ze een doolhof moeten oplossen, of onthouden ze alleen de antwoorden die ze al eens hebben gezien?

Hier is een uitleg van hun bevindingen, vertaald naar alledaags taal met een paar leuke vergelijkingen.

1. Het Grote Experiment: De "Doolhof-Test"

De onderzoekers gaven een slimme AI (een groot taalmodel) de taak om door verschillende doolhoven te navigeren.

De training: De robot mocht oefenen met doolhoven van 3x3 tot 6x6 vakjes.
De test: Vervolgens gaven ze ze doolhoven die ze nooit eerder hadden gezien: grotere kaarten (tot 10x10) of doolhoven waar de start en de schat verder uit elkaar lagen.

Dit is als een kind dat leert fietsen op een kleine, vlakke weg. Als je het kind dan op een groot, steil heuvelachtig terrein zet, moet het echt begrijpen hoe fietsen werkt, niet alleen de weg onthouden.

2. De "Gedachten" van de Robot (Chain-of-Thought)

Om de robot te helpen, lieten ze hem eerst "hardop denken" voordat hij het antwoord gaf. Dit noemen ze Chain-of-Thought (CoT).

Slecht voorbeeld: De robot zegt alleen: "Ik ga naar rechts."
Goed voorbeeld: De robot zegt: "Ik moet naar rechts, want links zit een gat. Als ik naar rechts ga, zie ik de kaart er zo uit..." en tekent de nieuwe situatie op.

De onderzoekers ontdekten iets verrassends: Hoe de robot zijn gedachten opschrijft, is belangrijker dan hoe slim de robot zelf is.

3. De Drie Manieren om te Denken

Ze testten verschillende manieren waarop de robot zijn "gedachten" kon uiten:

Alleen tekst: "Ik ga naar rechts." (Zoals een verhaal vertellen).
Alleen een tekening (grid): Een ASCII-kaartje van het doolhof.
De combinatie (De Winnaar): Eerst een korte tekst uitleggen ("Ik ga naar rechts omdat...") en daarna direct een visueel kaartje tonen hoe het eruit ziet na die stap.

De Analogie:
Stel je voor dat je iemand de weg wijst in een stad.

Als je alleen zegt: "Ga rechtdoor, dan links," kan de persoon verdwalen als de stad groter is dan hij gewend is.
Als je alleen een tekening laat zien, kan de persoon de richting verkeerd interpreteren.
Maar als je zegt: "Ga rechtdoor (tekst), en kijk, hier is de nieuwe hoek (tekening)," dan begrijpt de persoon het veel beter, zelfs als de stad groter wordt.

4. De Belangrijkste Bevindingen

Oude robots faalden: De meeste AI-modellen, zelfs die met "gedachten", faalden volledig zodra de doolhoven groter waren dan waar ze voor getraind waren. Ze leken de antwoorden te mimikeren in plaats van de logica te begrijpen. Het was alsof ze een liedje uit hun hoofd hadden geleerd, maar als je het in een andere toonsoort zong, wisten ze het niet meer.
De "Grid + Beschrijving" is de sleutel: De modellen die de beste prestaties leverden op de grote, nieuwe doolhoven, waren degenen die tekst én een visueel kaartje combineerden in hun redenering. Dit gaf hen de beste kans om de logica van het doolhof te doorgronden.
Tekst is beter dan plaatjes: Verrassend genoeg deden modellen die alleen tekst zagen (geen foto's van de kaarten) het beter dan modellen die foto's kregen. Het bleek voor de AI makkelijker om de regels van het doolhof te begrijpen via tekst en simpele karakters dan via een echte afbeelding.
Geen magische "Latente Ruimte": Er was een nieuwe, populaire methode die probeerde om de robot te laten "dromen" in een onzichtbare ruimte (een soort abstracte denkruimte) om de weg te vinden. De onderzoekers vonden dat dit niet werkte. De simpele, duidelijke tekst en kaartjes waren veel effectiever.

5. Wat betekent dit voor de toekomst?

De conclusie is een beetje een koude douche, maar ook hoopvol:

De koude douche: Veel AI's die we vandaag zien, zijn eigenlijk heel goed in het herkennen van patronen die ze al hebben gezien, maar ze zijn nog niet echt slim genoeg om nieuwe situaties te begrijpen als ze er net iets anders uitzien.
De hoop: Als we de AI's de juiste "taal" leren spreken (in dit geval: een combinatie van tekst en simpele kaarten), kunnen ze veel beter generaliseren. Ze kunnen dan echt leren hoe ze een probleem oplossen, in plaats van alleen het antwoord te raden.

Kort samengevat:
Als je een robot wilt leren om een doolhof op te lossen, geef hem dan niet alleen een foto. Geef hem een verhaal en een simpele schets van de route. Dan heeft hij de beste kans om ook de grote, nieuwe doolhoven te overwinnen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel het integreren van redenering (zoals Chain-of-Thought of CoT) in grote taalmodellen (LLMs) en multimodale taal-vision modellen (LVLMs) hun prestaties aanzienlijk heeft verbeterd, blijft de generalisatie van redenering buiten de trainingsverdeling (Out-of-Distribution of OOD) slecht gedefinieerd en onvoldoende begrepen. Bestaande onderzoeken suggereren dat huidige redeneervermogens vaak gebaseerd zijn op statistische patroonherkenning in plaats van echt algoritmisch leren. Wanneer input afwijkt van de trainingsdata (bijvoorbeeld groere kaarten of langere afstanden), degradeert de prestatie van deze modellen vaak drastisch. Er is een gebrek aan gestructureerde frameworks om dit fenomeen te analyseren, vooral bij multimodale modellen die zowel visuele als tekstuele input verwerken.

Methodologie

De auteurs introduceren een gecontroleerd evaluatiekader gebaseerd op de FROZENLAKE-taak: een padvindingsprobleem in een raster waar een speler van een startpunt naar een doel moet navigeren zonder in gaten (obstakels) te vallen.

1. Taak en Data:

De complexiteit is nauwkeurig controleerbaar via:
- Kaartgrootte: Variërend van 3x3 tot 10x10.
- Start-Doel Afstand ( $d_\infty$ ): De L∞-afstand tussen start en doel.
- Optimale Oplossingslengte: De lengte van het kortste pad.
Het trainingsset bevat kaarten tot 6x6. Testsets omvatten zowel in-distribution (ID, 3x3-6x6) als out-of-distribution (OOD, 7x7-10x10) scenario's.

2. Input Representaties:
De auteurs testen vier verschillende formaten voor het weergeven van de kaart:

Afbeelding: Visuele input.
Beschrijving (Description): Ongestructureerde tekstuele beschrijving.
Tabel: Markdown-achtige tabelweergave.
Grid: Een compacte ASCII-rasterweergave (vereist minder tokens).

3. Chain-of-Thought (CoT) Strategieën:
Voor het redeneren worden verschillende formaten getest, variërend van geen CoT tot complexe combinaties:

Geen CoT: Directe antwoordgeneratie.
Beschrijving CoT: Tekstuele redenering over de volgende stap.
Grid/Table CoT: Visuele weergave van de kaart na de volgende stap.
Gecombineerde CoT: Een combinatie van tekstuele beschrijving (voor de redenering) en een gestructureerde weergave (Grid of Tabel) van de nieuwe kaarttoestand.

4. Experimenteel Setup:

Basismodel: Qwen2.5-VL-7B-Instruct.
Training: Supervised Fine-Tuning (SFT) gedurende 10, 20 of 30 epochen.
Vergelijking: De resultaten worden vergeleken met bestaande methoden zoals Mirage (die latent space reasoning gebruikt) en andere state-of-the-art benaderingen.

Belangrijkste Bijdragen

Gestructureerd Evaluatiekader: Een nieuwe benchmark die specifiek is ontworpen om OOD-generalisatie te isoleren van andere factoren, met controleerbare variabelen voor kaartgrootte en afstand.
Analyse van Format-Invloed: Het paper onthult dat de format van de CoT-traces een cruciale rol speelt in de generalisatiecapaciteit, iets wat eerder vaak werd genegeerd.
Vergelijking van Modale Input: Een systematische vergelijking tussen puur tekstuele input en visuele input, waarbij laatstgenoemde vaak slechter presteert.
Validatie van Algoritmisch Leren: Het paper toont aan dat bepaalde formaten modellen in staat stellen om beter te generaliseren, wat suggereert dat ze dichter bij echt algoritmisch leren komen dan bij loutere memorisatie.

Resultaten

OOD Generalisatie is Beperkt: De meeste modellen, inclusief die met standaard CoT, falen bij het generaliseren naar grotere kaarten (7x7 en groter) of grotere afstanden, vooral wanneer de start-doelafstand groter is dan in de training.
De Kracht van Gecombineerde Format: Het meest opvallende resultaat is dat modellen die Grid (of Tabel) gecombineerd met Beschrijving gebruiken, aanzienlijk beter presteren.
- Deze modellen behouden een niet-triviale nauwkeurigheid (tot 41% gemiddeld) op OOD-kaarten met $d_\infty \ge 6$ , zelfs getraind op kaarten tot 6x6.
- Ze bereiken zelfs goede resultaten op 10x10 kaarten, terwijl andere modellen bijna volledig falen.
Tekst vs. Beeld: Puur tekstuele modellen (met Grid/Table input) overtreffen consistent modellen die visuele input gebruiken, zelfs wanneer de visuele modellen CoT gebruiken. Dit suggereert dat huidige multimodale modellen moeite hebben om visuele informatie effectief te integreren in het redeneerproces.
Vergelijking met Mirage: De auteurs' modellen presteren beter dan Mirage (een methode die gebruikmaakt van continue ruimte redenering en helper-afbeeldingen), zelfs zonder complexe latent space technieken. Dit suggereert dat de keuze van het input- en CoT-formaat belangrijker is dan de complexiteit van de redeneerruimte.
Token-efficiëntie: De beste prestaties worden behaald met relatief korte outputs (Grid + Beschrijving), wat aantoont dat meer tekst (langer redeneren) niet per se leidt tot betere prestaties.

Betekenis en Conclusie

Dit paper biedt een scherp inzicht in de beperkingen van huidige redeneermodellen. Het bevestigt dat Chain-of-Thought vaak werkt door patroonherkenning binnen de trainingsverdeling, maar faalt bij echte algoritmische generalisatie.

De belangrijkste conclusie is dat de representatie van de data en het redeneerproces (het "format") een fundamentele invloed heeft op het vermogen tot generalisatie. Door een combinatie van een gestructureerde visuele weergave (Grid) en een natuurlijke taalredenering (Beschrijving) te gebruiken, kunnen modellen beter "nadenken" over de voortgang van de taak en generaliseren naar onbekende situaties.

Dit werk legt de basis voor toekomstig onderzoek naar het ontwikkelen van modellen die echt algoritmisch leren in plaats van memoriseren, en suggereert dat de focus moet verschuiven van het vergroten van modelgrootte naar het optimaliseren van data- en reasoning-formaten voor specifieke taken.

On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

1. Het Grote Experiment: De "Doolhof-Test"

2. De "Gedachten" van de Robot (Chain-of-Thought)

3. De Drie Manieren om te Denken

4. De Belangrijkste Bevindingen

5. Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

Memory-Guided Trust-Region Bayesian Optimization (MG-TuRBO) for High Dimensions

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank