Vision Language Models Cannot Reason About Physical Transformation

Il paper introduce ConservationBench, un benchmark che dimostra come i modelli visione-linguaggio attuali falliscano sistematicamente nel ragionare sulle trasformazioni fisiche, mostrando prestazioni vicine al caso e una dipendenza da priors testuali piuttosto che dalla comprensione visiva delle invarianti fisiche.

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng

Pubblicato 2026-03-10
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un bambino molto intelligente che ha letto tutti i libri del mondo e sa rispondere a qualsiasi domanda, ma che non ha mai davvero giocato con la realtà. Questo è il problema che gli autori di questo studio hanno scoperto nei moderni Modelli Linguistici Visivi (VLM), ovvero le intelligenze artificiali che "vedono" immagini e video e ne parlano.

Ecco la spiegazione semplice di cosa hanno scoperto, usando delle metafore quotidiane.

1. Il Test della "Pasticceria Magica" (Il Concetto di Conservazione)

Per capire se un bambino è davvero intelligente o sta solo indovinando, i psicologi usano un test classico chiamato test della conservazione.

  • L'esperimento: Prendi una pallina di pasta di zucchero e la schiacci per farla diventare una "pizza" piatta. Chiedi al bambino: "C'è più pasta ora o prima?".
  • La risposta corretta: Un bambino che ha capito la fisica dice: "È la stessa quantità, è solo cambiata la forma".
  • La risposta sbagliata: Un bambino che si fida solo degli occhi dice: "C'è più pasta perché ora è più larga!".

Gli autori hanno creato un banco di prova digitale chiamato ConservationBench per vedere se le intelligenze artificiali passano questo test. Hanno mostrato a 112 diversi modelli di AI video di:

  • Versare acqua da un bicchiere alto e stretto a uno basso e largo (l'acqua sembra cambiare volume, ma non cambia).
  • Allungare una fila di monete (sembrano di più, ma sono le stesse).
  • Schiacciare un pallone di argilla (cambia forma, ma non peso).

2. Il Risultato: L'AI è come un "Truffatore"

Il risultato è stato sconvolgente. L'intelligenza artificiale non riesce a capire la fisica di base.

  • Il trucco: Quando l'AI vedeva l'acqua versata in un bicchiere largo, spesso rispondeva: "C'è meno acqua!" perché l'acqua sembrava più bassa. Non capiva che la quantità era la stessa.
  • La statistica: La maggior parte dei modelli rispondeva giusto solo il 20-40% delle volte, che è quasi come tirare a caso (come lanciare una moneta). Gli umani, anche i bambini piccoli, riescono a farlo quasi sempre al 100%.

3. Il Paradosso: "Legge meglio di quanto vede"

Qui la cosa diventa strana e affascinante. Gli scienziati hanno fatto un esperimento per capire perché fallivano.

Hanno tolto le immagini e hanno dato all'AI solo il testo della domanda (es. "Se versiamo l'acqua, la quantità cambia?").

  • Risultato: L'AI ha iniziato a rispondere meglio!
  • Perché? Perché nei libri e nei testi che ha letto, c'è scritto che "la quantità si conserva". Quindi, l'AI sta indovinando basandosi su quello che ha letto, non su quello che sta "vedendo".

È come se avessi un lettore che ha studiato la teoria del volo, ma se lo metti davanti a un aereo che cade, non capisce che sta cadendo perché è troppo impegnato a ripetere la definizione di "portanza" che ha letto su un manuale.

Il paradosso è questo:

  1. Quando l'AI vede l'immagine reale, si fida dei suoi "occhi" (che sono confusi) e sbaglia.
  2. Quando togli l'immagine e le chiedi solo di ragionare sul testo, si fida della sua "memoria" (che è corretta) e indovina meglio.
  3. Conclusione: L'AI non sta "ragionando" sulla trasformazione fisica. Sta solo applicando regole a memoria che spesso vengono distrutte dalla confusione visiva.

4. Non serve più tempo o più dettagli

Gli scienziati hanno provato a dare all'AI:

  • Più fotogrammi: Invece di 3 immagini, ne hanno dati 16 (come un video più fluido).
  • Domande più guidate: Hanno chiesto all'AI di spiegare passo dopo passo cosa stava succedendo.
  • Immagini "migliori": Hanno provato a selezionare i momenti chiave del video.

Niente ha funzionato. Anche con più tempo e più dettagli, l'AI non è riuscita a capire che la quantità di monete o di acqua rimaneva la stessa. È come dare a qualcuno un microscopio per guardare un quadro, ma lui continua a non capire il disegno perché non ha il concetto di "disegno".

5. Cosa significa per il futuro?

Questo studio ci dice che le attuali intelligenze artificiali sono bravissime a imitare il linguaggio, ma pessime a capire il mondo fisico.

  • L'analogia finale: Immagina un attore che recita la parte di un medico. Può parlare di chirurgia con parole perfette, ma se gli metti in mano un bisturi e un paziente, non sa come muoversi.
  • Il rischio: Se vogliamo usare queste AI per guidare robot, fare chirurgia o gestire situazioni di emergenza nel mondo reale, dobbiamo stare attenti. Se un robot non capisce che versare dell'acqua non la fa sparire, potrebbe fare danni enormi.

In sintesi: Le AI attuali sono come bambini che hanno imparato a memoria le regole della fisica, ma non hanno mai davvero giocato con la sabbia e l'acqua. Non hanno ancora sviluppato quella "intuizione fisica" che noi umani abbiamo imparato da piccoli.