Inference-time Physics Alignment of Video Generative Models with Latent World Models

Questo lavoro introduce WMReward, un metodo di allineamento a tempo di inferenza che sfrutta i modelli latenti del mondo come reward per guidare la generazione video verso una maggiore coerenza fisica, ottenendo risultati all'avanguardia nel challenge PhysicsIQ di ICCV 2025.

Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich, Nicolas Beltran-Velez, Melissa Hall, Reyhane Askari-Hemmat, Xiaochuang Han, Nicolas Ballas, Michal Drozdzal, Adriana Romero-Soriano

Pubblicato 2026-03-02
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un regista di film molto talentuoso, capace di creare video incredibilmente belli e realistici. Questo regista è un'intelligenza artificiale chiamata "modello generativo video". Tuttavia, c'è un piccolo problema: anche se i suoi film sono bellissimi da vedere, spesso la fisica non funziona.

Ad esempio, nel suo film, una palla potrebbe attraversare un muro come se fosse fantasma, un oggetto potrebbe cadere verso l'alto, o l'acqua potrebbe fluire come se fosse fatta di fumo invece che di liquido. Il pubblico si accorge subito che qualcosa "non torna", anche se non sa esattamente perché.

Gli scienziati hanno scoperto che il problema non è solo nel modo in cui il regista ha imparato (durante la sua "scuola" o addestramento), ma anche nel modo in cui sceglie le scene finali.

Ecco come la nuova ricerca, chiamata WMReward, risolve il problema usando un'idea semplice ma geniale.

1. Il Problema: Il Regista che non capisce la gravità

Finora, per correggere questi errori, si pensava di dover "ri-scuolare" il regista per mesi, mostrandogli milioni di video di fisica corretta. È costoso e lento.
Gli autori del paper dicono: "Aspetta! Forse non dobbiamo cambiare il regista, ma dobbiamo solo dargli un assistente che lo controlla mentre lavora."

2. La Soluzione: Il "Fisico Esperto" (Il Modello del Mondo Latente)

Immagina che il regista (il modello generatore) stia dipingendo un quadro a colpi di pennellate (questo è il processo di "denoising", dove l'immagine passa dal rumore alla chiarezza).
Ora, introduciamo un Fisico Esperto (chiamato VJEPA-2 nella ricerca).

  • Questo Fisico Esperto non guarda i dettagli estetici (i colori, la bellezza del viso).
  • Guarda solo come le cose si muovono. Capisce istintivamente che un oggetto lanciato in aria deve ricadere, che un bicchiere che cade si rompe, e che l'acqua scorre verso il basso.

3. Come funziona: Il "Giudice" durante la creazione

Invece di aspettare che il film sia finito per correggerlo, il Fisico Esperto guarda il regista mentre sta lavorando.

Ecco il processo passo dopo passo, con una metafora culinaria:

  • Il Cuoco (Il Modello Video): Sta preparando un piatto (il video).
  • Il Critico Gastronomico (Il Fisico Esperto): Non assaggia il piatto alla fine. Assaggia ogni ingrediente mentre viene aggiunto.
  • Il Sistema WMReward: È il sistema che collega i due.

Quando il Cuoco crea una scena, il Fisico Esperto dice: "Ehi, se lanci quella mela così, secondo le leggi della fisica dovrebbe cadere qui, non lì!".
Se la scena proposta dal Cuoco è "sorprendente" per il Fisico (cioè se viola le leggi della fisica), il sistema le dà un punteggio basso. Se la scena è coerente con la realtà, il punteggio è alto.

4. La Magia: Scegliere il Migliore (Best-of-N) e Guidare la Mano

Il sistema usa due trucchi per ottenere il risultato perfetto:

  1. Il "Best-of-N" (Scegliere il migliore tra molti):
    Immagina che il Cuoco prepari 16 piatti diversi (16 tentativi di video) partendo dallo stesso ingrediente iniziale. Il Fisico Esperto li assaggia tutti e sceglie quello che rispetta meglio le leggi della fisica. È come dire: "Di questi 16 tentativi, questo è l'unico in cui la gravità funziona!".

  2. La "Guida" (Guidance):
    Invece di aspettare la fine, il Fisico Esperto sussurra al Cuoco durante la preparazione: "Attento, stai mescolando troppo forte, l'acqua sta per uscire dalla pentola!". Questo aiuta il Cuoco a correggere la rotta mentre crea, spingendo il video verso una direzione più realistica.

5. Il Risultato: Vincitori Assoluti

Grazie a questo metodo, il team ha partecipato a una gara chiamata PhysicsIQ (una specie di Olimpiade della fisica per le intelligenze artificiali).

  • Prima: I modelli migliori prendevano circa il 55% di punti.
  • Con WMReward: Hanno preso il 62,64%, vincendo la gara e battendo tutti i precedenti record.

Inoltre, hanno fatto testare i video a persone vere. Gli umani hanno preferito i video corretti dal Fisico Esperto perché sembravano più naturali, più fluidi e meno "strani", anche se la qualità visiva era la stessa.

In sintesi

Questa ricerca ci insegna che non serve sempre "ri-addestrare" un'intelligenza artificiale da zero per renderla più intelligente. A volte, basta darle un bravo supervisore (un modello del mondo che capisce la fisica) che la controlla mentre lavora, facendole scegliere le opzioni migliori tra molte possibilità.

È come se avessimo un regista geniale ma distratto, e gli avessimo messo accanto un consulente di fisica esperto che gli dice: "No, non così. Prova a girare la telecamera in quel modo, la fisica sarà perfetta!". Il risultato? Film che non solo sono belli, ma che hanno senso.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →