On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

Questo lavoro presenta un framework di valutazione che dimostra come, sebbene il ragionamento a catena di pensiero migliori la generalizzazione in-distribuzione, la generalizzazione fuori distribuzione in compiti di pianificazione visiva rimanga limitata, con modelli puramente testuali e tracce di ragionamento ibride che superano quelli basati su input visivi.

Yannic Neuhaus, Nicolas Flammarion, Matthias Hein, Francesco Croce

Pubblicato 2026-02-18
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un gatto molto intelligente (il modello di intelligenza artificiale) a cui hai insegnato a risolvere dei piccoli labirinti su un foglio di carta. Gli hai mostrato come muoversi in stanze piccole, dove devi trovare un pesce (l'obiettivo) evitando di cadere in buche piene d'acqua (gli ostacoli).

Finché gli dai lo stesso foglio piccolo che hai usato per allenarlo, il gatto è bravissimo. Ma cosa succede se gli dai un foglio gigante, molto più grande di quelli che ha mai visto? O se gli chiedi di attraversare una stanza dove il pesce è molto lontano, più di quanto abbia mai dovuto fare prima?

Questo è esattamente il problema che gli autori di questo studio hanno voluto investigare. Hanno chiesto: "Il nostro gatto sta davvero imparando la logica per risolvere il labirinto, o sta solo memorizzando i disegni che gli abbiamo mostrato?"

Ecco cosa hanno scoperto, spiegato in modo semplice:

1. Il problema del "Memorizzatore" vs. il "Pensatore"

Hanno scoperto che, nella maggior parte dei casi, questi modelli di intelligenza artificiale sono dei bravi memorizzatori, ma dei cattivi pensatori.
Quando gli dai un labirinto nuovo e più grande (che chiamano "fuori distribuzione"), il gatto va in panico e sbaglia tutto. Sembra che non abbia imparato la regola del gioco ("cammina verso il pesce, evita l'acqua"), ma abbia solo imparato a riconoscere i pattern dei fogli piccoli. È come se un bambino avesse imparato a contare fino a 10, ma se gli chiedessi di contare fino a 100, si bloccasse perché non ha capito il concetto di "numero", ma ha solo imparato a ripetere una sequenza.

2. La magia del "Metodo di Pensiero" (Chain-of-Thought)

Per aiutare il gatto, gli autori gli hanno insegnato a parlare mentre pensa. Invece di dire solo "Vado a destra", il gatto deve prima dire: "Ok, vedo che a destra c'è un muro, quindi non posso andare lì. Il pesce è in alto, quindi devo provare a salire".
Questo metodo si chiama Chain-of-Thought (CoT).

  • Risultato: Funziona benissimo sui fogli piccoli (quelli che il gatto conosce).
  • Il limite: Se il foglio è gigante, anche parlare da solo non basta. Il gatto si perde comunque.

3. La vera scoperta: Il "Metodo Misto" è il vincitore

Qui arriva la parte più interessante, come una ricetta segreta. Gli autori hanno provato a far parlare il gatto in modi diversi:

  • Solo parole (descrizioni).
  • Solo disegni (griglie di testo).
  • Un mix dei due: Prima il gatto spiega la sua idea con le parole, e poi disegna il nuovo stato della mappa con una griglia di testo.

La sorpresa: È stato proprio questo metodo misto (parole + griglia) a funzionare meglio.
Immagina di dover guidare qualcuno in una città sconosciuta. Se gli dici solo "vai a nord", potrebbe perdersi. Se gli mostri solo una mappa, potrebbe non capire le sfumature. Ma se gli dici: "Vai a nord, perché c'è un muro a est" e poi gli mostri come appare la strada dopo aver girato, il gatto (il modello) riesce a capire la logica e a risolvere anche labirinti giganti che non ha mai visto prima.

4. Le immagini non sono sempre la soluzione

C'è un altro dettaglio curioso. Tutti pensano che, per i labirinti, vedere un'immagine reale sia meglio di leggere un testo.
Invece, il loro gatto è stato molto più bravo quando gli davano il labirinto come testo (una griglia di punti e lettere) piuttosto che come immagine fotografica.
È come se il gatto fosse un lettore nato: preferisce leggere le istruzioni scritte e fare i calcoli a mente, piuttosto che guardare una foto e cercare di indovinare. Anche i modelli più moderni che usano "immagini nascoste" (spazi latenti) sono stati battuti da un semplice modello che legge e scrive testo.

In sintesi: Cosa ci insegna questo studio?

Questo studio ci dice che l'intelligenza artificiale attuale è molto potente, ma spesso è ingannevole.

  • Sembra intelligente perché risolve bene i compiti che ha già visto.
  • Ma se provi a cambiarle leggermente le regole (un labirinto più grande), spesso fallisce perché non ha imparato la "logica profonda", ma solo a riconoscere i disegni.

Tuttavia, c'è una speranza: se gli insegniamo a pensare ad alta voce e a rappresentare il mondo in modo strutturato (usando un mix di parole e schemi), possiamo insegnargli a generalizzare davvero, cioè a risolvere problemi nuovi senza averli mai visti prima.

È come se avessimo scoperto che per insegnare a un robot a guidare, non basta dargli un video di guida; bisogna fargli scrivere un diario di bordo mentre guida, descrivendo ogni sua decisione. Solo così imparerà davvero a guidare in una città nuova.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →