LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

Il paper introduce LikePhys, un metodo senza addestramento che valuta la comprensione della fisica intuitiva nei modelli di diffusione video misurando la preferenza di verosimiglianza su un benchmark curato, dimostrando che tale capacità migliora con la scalabilità del modello nonostante le attuali difficoltà con dinamiche complesse.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini

Pubblicato 2026-03-09
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un regista di film molto intelligente, ma che non ha mai visto il mondo reale. Questo regista è un modello di Intelligenza Artificiale chiamato "Video Diffusion Model". Il suo compito è creare video partendo da una descrizione testuale (ad esempio: "una palla che rimbalza").

Il problema? Questo regista è bravissimo a copiare lo stile (i colori, la luce, la bellezza dell'immagine), ma spesso sbaglia la fisica. Potrebbe far rimbalzare una palla come se fosse fatta di gomma da masticare, o farla attraversare un muro come un fantasma.

Il Problema: Come capire se il regista "capisce" la fisica?

Fino a oggi, per testare questi modelli, gli umani guardavano i video e dicevano: "Ehi, questa palla non dovrebbe passare attraverso il muro!". Ma gli umani sono lenti, e a volte i modelli di intelligenza artificiale (come le Chatbot avanzate) che fanno da giudici si confondono: a volte lodano un video perché è "bello da vedere", anche se la fisica è sbagliata. È come giudicare un'auto da corsa solo per il colore della vernice, ignorando se il motore funziona.

La Soluzione: LikePhys (Il "Sesto Senso" del Regista)

Gli autori di questo studio hanno inventato un metodo chiamato LikePhys. Invece di chiedere al modello di creare un video e poi giudicarlo, hanno deciso di chiedere al modello: "Quanto ti piace questa scena?".

Ecco come funziona, con una metafora:

Immagina che il modello di IA sia un musicista che ha ascoltato milioni di canzoni.

  1. Gli mostri due brani: uno è una canzone vera e propria (fisica corretta), l'altro è una versione "storta" dove gli strumenti suonano fuori tempo o le note saltano (fisica sbagliata).
  2. Chiedi al musicista: "Quale dei due suona più naturale?".
  3. Se il musicista ha "imparato" bene la musica, preferirà istintivamente la canzone vera, anche senza pensarci troppo.

LikePhys fa esattamente questo con i video:

  • Prende due video identici nell'aspetto (stessi colori, stessi oggetti), ma in uno la fisica è corretta e nell'altro è rotta (es. un oggetto che attraversa un muro).
  • Chiede al modello: "Quale dei due è più probabile che esista nella realtà?".
  • Il modello non deve "pensare" o "parlare", ma deve calcolare una probabilità (quanto è sicuro che quel video sia reale).

Se il modello assegna una probabilità più alta al video con la fisica corretta, significa che ha imparato le leggi della natura. Se sbaglia e preferisce il video "fantasma", allora non ha capito la fisica.

Cosa hanno scoperto? (I Risultati)

Gli autori hanno creato un "esame" con 12 scenari diversi:

  • Palle che rimbalzano (Meccanica dei corpi rigidi).
  • Tessuti che sventolano (Meccanica dei fluidi e materiali).
  • Acqua che scorre (Fluidodinamica).
  • Ombre che si muovono (Ottica).

Hanno fatto questo "esame" a 12 modelli di intelligenza artificiale diversi. Ecco cosa è emerso:

  1. I modelli più grandi e moderni sono più bravi: Proprio come un bambino che impara guardando più TV, i modelli più grandi (che hanno visto più dati) sembrano aver imparato meglio le regole del mondo.
  2. L'acqua è difficile: Tutti i modelli fanno fatica con i fluidi (acqua, liquidi). È come se l'IA capisse bene come cade una palla, ma non capisse come si comporta l'acqua che scorre.
  3. Non è solo una questione di bellezza: Hanno scoperto che un video può essere bellissimo e nitido, ma avere una fisica terribile. Il loro metodo riesce a separare la "bellezza" dalla "logica".

Perché è importante?

Se vogliamo che l'Intelligenza Artificiale ci aiuti a guidare le auto autonome, a progettare robot o a simulare il clima, non possiamo permetterci che l'IA inventi leggi fisiche a caso. Se un'auto autonoma "immagina" che un pedone attraversi il muro invece di fermarsi, è un disastro.

LikePhys è come un test di realtà per le macchine. Ci dice: "Ok, il tuo video è bello, ma la tua macchina non sa ancora come cade una mela".

In sintesi

Gli autori hanno creato un modo intelligente e veloce per testare se le Intelligenze Artificiali che creano video stanno imparando davvero come funziona il mondo, o se stanno solo copiando l'aspetto esteriore delle cose. È un passo fondamentale per costruire un'IA che non solo "sogna" immagini belle, ma che "capisce" la realtà.