On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un gatto molto intelligente (il modello di intelligenza artificiale) a cui hai insegnato a risolvere dei piccoli labirinti su un foglio di carta. Gli hai mostrato come muoversi in stanze piccole, dove devi trovare un pesce (l'obiettivo) evitando di cadere in buche piene d'acqua (gli ostacoli).

Finché gli dai lo stesso foglio piccolo che hai usato per allenarlo, il gatto è bravissimo. Ma cosa succede se gli dai un foglio gigante, molto più grande di quelli che ha mai visto? O se gli chiedi di attraversare una stanza dove il pesce è molto lontano, più di quanto abbia mai dovuto fare prima?

Questo è esattamente il problema che gli autori di questo studio hanno voluto investigare. Hanno chiesto: "Il nostro gatto sta davvero imparando la logica per risolvere il labirinto, o sta solo memorizzando i disegni che gli abbiamo mostrato?"

Ecco cosa hanno scoperto, spiegato in modo semplice:

1. Il problema del "Memorizzatore" vs. il "Pensatore"

Hanno scoperto che, nella maggior parte dei casi, questi modelli di intelligenza artificiale sono dei bravi memorizzatori, ma dei cattivi pensatori.
Quando gli dai un labirinto nuovo e più grande (che chiamano "fuori distribuzione"), il gatto va in panico e sbaglia tutto. Sembra che non abbia imparato la regola del gioco ("cammina verso il pesce, evita l'acqua"), ma abbia solo imparato a riconoscere i pattern dei fogli piccoli. È come se un bambino avesse imparato a contare fino a 10, ma se gli chiedessi di contare fino a 100, si bloccasse perché non ha capito il concetto di "numero", ma ha solo imparato a ripetere una sequenza.

2. La magia del "Metodo di Pensiero" (Chain-of-Thought)

Per aiutare il gatto, gli autori gli hanno insegnato a parlare mentre pensa. Invece di dire solo "Vado a destra", il gatto deve prima dire: "Ok, vedo che a destra c'è un muro, quindi non posso andare lì. Il pesce è in alto, quindi devo provare a salire".
Questo metodo si chiama Chain-of-Thought (CoT).

Risultato: Funziona benissimo sui fogli piccoli (quelli che il gatto conosce).
Il limite: Se il foglio è gigante, anche parlare da solo non basta. Il gatto si perde comunque.

3. La vera scoperta: Il "Metodo Misto" è il vincitore

Qui arriva la parte più interessante, come una ricetta segreta. Gli autori hanno provato a far parlare il gatto in modi diversi:

Solo parole (descrizioni).
Solo disegni (griglie di testo).
Un mix dei due: Prima il gatto spiega la sua idea con le parole, e poi disegna il nuovo stato della mappa con una griglia di testo.

La sorpresa: È stato proprio questo metodo misto (parole + griglia) a funzionare meglio.
Immagina di dover guidare qualcuno in una città sconosciuta. Se gli dici solo "vai a nord", potrebbe perdersi. Se gli mostri solo una mappa, potrebbe non capire le sfumature. Ma se gli dici: "Vai a nord, perché c'è un muro a est" e poi gli mostri come appare la strada dopo aver girato, il gatto (il modello) riesce a capire la logica e a risolvere anche labirinti giganti che non ha mai visto prima.

4. Le immagini non sono sempre la soluzione

C'è un altro dettaglio curioso. Tutti pensano che, per i labirinti, vedere un'immagine reale sia meglio di leggere un testo.
Invece, il loro gatto è stato molto più bravo quando gli davano il labirinto come testo (una griglia di punti e lettere) piuttosto che come immagine fotografica.
È come se il gatto fosse un lettore nato: preferisce leggere le istruzioni scritte e fare i calcoli a mente, piuttosto che guardare una foto e cercare di indovinare. Anche i modelli più moderni che usano "immagini nascoste" (spazi latenti) sono stati battuti da un semplice modello che legge e scrive testo.

In sintesi: Cosa ci insegna questo studio?

Questo studio ci dice che l'intelligenza artificiale attuale è molto potente, ma spesso è ingannevole.

Sembra intelligente perché risolve bene i compiti che ha già visto.
Ma se provi a cambiarle leggermente le regole (un labirinto più grande), spesso fallisce perché non ha imparato la "logica profonda", ma solo a riconoscere i disegni.

Tuttavia, c'è una speranza: se gli insegniamo a pensare ad alta voce e a rappresentare il mondo in modo strutturato (usando un mix di parole e schemi), possiamo insegnargli a generalizzare davvero, cioè a risolvere problemi nuovi senza averli mai visti prima.

È come se avessimo scoperto che per insegnare a un robot a guidare, non basta dargli un video di guida; bisogna fargli scrivere un diario di bordo mentre guida, descrivendo ogni sua decisione. Solo così imparerà davvero a guidare in una città nuova.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

L'integrazione del ragionamento (in particolare il Chain-of-Thought o CoT) nei Large Language Models (LLM) e nei Large Vision-Language Models (LVLM) ha portato a significativi miglioramenti nelle capacità di risoluzione dei compiti complessi. Tuttavia, la generalizzazione fuori distribuzione (OOD) di questi modelli di ragionamento rimane scarsamente definita e poco compresa.
Esiste il sospetto che le attuali capacità di ragionamento riflettano più proprietà statistiche dei dati di addestramento (pattern matching) che un vero apprendimento algoritmico. Quando gli input si discostano dalla distribuzione di addestramento (ad esempio, mappe più grandi o distanze diverse tra partenza e arrivo), le prestazioni crollano. Il paper mira a studiare sistematicamente questo fenomeno in un ambiente controllato per disaccoppiare l'effetto delle rappresentazioni degli input, del ragionamento e del formato del CoT.

2. Metodologia e Ambiente di Valutazione

Gli autori hanno costruito un ambiente di valutazione controllato basato sul dataset FROZENLAKE, un compito di pianificazione spaziale in cui un modello deve guidare un giocatore da una posizione di partenza a un tesoro su una mappa a griglia, evitando ostacoli (laghi).

Caratteristiche chiave dell'ambiente:

Complessità controllabile: La difficoltà può essere regolata variando la dimensione della mappa, la distanza tra partenza e arrivo ( $d_\infty$ ) e la lunghezza della soluzione ottimale.
Rappresentazioni Multiple: Il compito può essere presentato in quattro formati diversi:
1. Immagine: Rappresentazione visiva della mappa.
2. Descrizione: Testo non strutturato che descrive la mappa.
3. Tabella: Rappresentazione testuale strutturata (tipo Markdown).
4. Griglia (Grid): Una rappresentazione ASCII compatta che richiede meno token.
Tracce di Ragionamento (CoT): I modelli possono generare passaggi intermedi di ragionamento in diversi formati:
- Descrizione: Narrazione testuale del processo decisionale.
- Tabella/Griglia: Visualizzazione testuale della mappa dopo ogni mossa.
- Ibrido: Combinazione di descrizione testuale e rappresentazione strutturata (es. "Descrizione + Griglia").

Setup Sperimentale:

Modello Base: Qwen2.5-VL-7B-Instruct.
Addestramento: Supervised Fine-Tuning (SFT) su mappe fino a $6\times6$ .
Valutazione: Test su mappe In-Distribution (ID, $3\times3$ - $6\times6$ ) e Out-of-Distribution (OOD, mappe fino a $10\times10$ e distanze partenza-arrivo non viste in addestramento).

3. Contributi Chiave

Framework di Valutazione Rigoroso: Introduzione di un benchmark controllato che permette di isolare l'impatto del formato dei dati e del ragionamento sulla generalizzazione OOD, superando i limiti dei benchmark esistenti che non distinguono chiaramente tra ID e OOD.
Analisi del Formato del CoT: Dimostrazione che il formato delle tracce di ragionamento è un fattore critico per la generalizzazione. Non tutti i CoT sono uguali; la combinazione di formati testuali specifici è fondamentale.
Confronto Multimodale vs. Testuale: Evidenziazione del fatto che, in questo compito specifico, i modelli basati puramente su input testuali superano costantemente quelli che utilizzano input visivi (immagini), sfatando l'idea che l'input visivo sia sempre superiore per compiti di pianificazione spaziale.
Sconfitta di Metodi Avanzati: I risultati ottenuti con modelli standard e CoT ben progettati superano approcci recenti complessi come Mirage (che utilizza ragionamento nello spazio latente continuo) e modelli specializzati visione-only.

4. Risultati Principali

Limiti della Generalizzazione OOD: Sebbene il CoT migliori le prestazioni In-Distribution (ID), la generalizzazione OOD (es. a mappe più grandi) rimane molto limitata nella maggior parte dei casi, specialmente quando si controlla per corrispondenze banali con i dati di addestramento.
Il Potere dei Format Ibridi: La scoperta più sorprendente è che le tracce di ragionamento che combinano più formati testuali (in particolare Griglia + Descrizione o Tabella + Descrizione) producono la migliore generalizzazione OOD.
- I modelli con CoT ibrido mantengono prestazioni non banali (fino al 41% di accuratezza media) su mappe $10\times10$ con distanze partenza-arrivo elevate ( $d_\infty \ge 6$ ), mentre i modelli con CoT singolo formato o senza CoT crollano quasi a zero.
- L'ipotesi è che la rappresentazione strutturata (griglia) aiuti a tracciare lo stato della mappa, mentre la descrizione in linguaggio naturale aiuti a elaborare la logica del prossimo movimento.
Superiorità del Testo sull'Immagine: I modelli che utilizzano input testuali (griglia/tabella) superano costantemente quelli che usano input visivi (immagini), inclusi i modelli multimodali. Le immagini sembrano limitare la capacità del modello di cogliere la struttura logica del piano.
Confronto con Mirage: I modelli proposti, addestrati solo con SFT e CoT testuale, superano Mirage Direct (che usa ragionamento continuo nello spazio latente) sia in ID che in OOD, suggerendo che il ragionamento continuo non offre vantaggi in questo contesto specifico.
Robustezza alla Lunghezza della Soluzione: La generalizzazione fallisce rapidamente quando la lunghezza della soluzione ottimale supera quella dei dati di addestramento, a meno che non si utilizzi il formato CoT ibrido (Griglia + Descrizione), che estende la capacità di generalizzazione fino a soluzioni più lunghe.

5. Significato e Implicazioni

Il lavoro suggerisce che la capacità di ragionamento degli LLM attuali si basa ancora fortemente sul riconoscimento di pattern e sulla memorizzazione piuttosto che sull'apprendimento di procedure algoritmiche generali. Tuttavia, il paper offre una via d'uscita: la scelta accurata del formato dei dati e delle tracce di ragionamento può abilitare una generalizzazione OOD significativa.

Implicazioni per la Ricerca: Indica che per migliorare la generalizzazione dei modelli di ragionamento, non basta aumentare la potenza computazionale o la quantità di dati, ma è necessario progettare attentamente come l'informazione viene strutturata e presentata al modello (input e output).
Futuro: L'ambiente proposto serve come punto di partenza per sviluppare modelli che imparino realmente l'algoritmo sottostante al compito, aprendo la strada a studi teorici su come i transformer risolvono problemi di pianificazione e all'integrazione futura di input visivi strutturati nel CoT.

In sintesi, il paper dimostra che per compiti di pianificazione visiva semplici, la struttura del ragionamento (CoT) è più importante della modalità di input (visivo vs testuale), e che combinare rappresentazioni strutturate con spiegazioni testuali è la chiave per una vera generalizzazione fuori distribuzione.

On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

1. Il problema del "Memorizzatore" vs. il "Pensatore"

2. La magia del "Metodo di Pensiero" (Chain-of-Thought)

3. La vera scoperta: Il "Metodo Misto" è il vincitore

4. Le immagini non sono sempre la soluzione

In sintesi: Cosa ci insegna questo studio?

1. Il Problema

2. Metodologia e Ambiente di Valutazione

3. Contributi Chiave

4. Risultati Principali

5. Significato e Implicazioni

Articoli simili

GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

Memory-Guided Trust-Region Bayesian Optimization (MG-TuRBO) for High Dimensions

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank