SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un regista di film molto talentuoso, ma un po' distratto. Questo regista (chiamiamolo "Generatore di Video") è bravissimo a creare immagini bellissime, con colori vivaci e animali realistici. Tuttavia, quando gli dai un copione che dice: "Il gatto è prima sulla sedia, poi salta giù e si siede a destra della sedia", il regista spesso fa confusione. Potrebbe far saltare il gatto a sinistra, o farlo sparire, o addirittura farlo rimanere fermo sulla sedia.

Il problema è che i modelli attuali per creare video dall' testo (Text-to-Video) sono come bambini che guardano un film: capiscono che c'è un gatto e una sedia, ma faticano a capire la logica dello spazio e del movimento nel tempo.

Ecco come gli autori di questo paper, SPATIALALIGN, hanno risolto il problema, spiegato in modo semplice:

1. Il Problema: Il Regista Distratto

Fino a poco tempo fa, se chiedevi a un'intelligenza artificiale di creare un video con un movimento specifico (es. "la volpe va da destra a sinistra"), l'AI spesso ignorava la direzione. Era come dare a un attore le battute giuste ma non la regia: l'attore recitava bene, ma si muoveva nel posto sbagliato.

2. La Soluzione: Un "Righello" Matematico (DSR-SCORE)

Gli autori si sono resi conto che non potevano fidarsi di altri computer "intelligenti" (chiamati VLM, modelli linguistici visivi) per correggere il regista. Questi computer, infatti, sono bravi a descrivere cosa vedono, ma pessimi a fare calcoli geometrici precisi (come dire: "è davvero a sinistra?").

Hanno quindi creato un nuovo strumento chiamato DSR-SCORE.

L'analogia: Immagina di avere un righello digitale che misura la posizione esatta di ogni oggetto in ogni fotogramma del video.
Invece di chiedere a un computer "Cosa vedi?", il righello calcola: "L'oggetto A è a coordinate X, l'oggetto B è a coordinate Y. La differenza è corretta?".
Questo strumento assegna un punteggio: se il video rispetta il movimento descritto (es. da sinistra a destra), il punteggio è alto. Se il gatto salta nel posto sbagliato, il punteggio crolla.

3. L'Allenamento: Il Metodo "Premio e Punizione" (DPO)

Una volta che hanno questo "righello" infallibile, come insegnano al regista a fare meglio? Non gli mostrano solo video perfetti (perché l'AI potrebbe imparare a memoria i video e non capire la regola).

Hanno usato una tecnica chiamata DPO (Ottimizzazione Diretta delle Preferenze).

L'analogia: Immagina di avere due copie dello stesso video.
- Video A (Il Vincitore): Il gatto si muove correttamente da sinistra a destra. Il righello dice: "Punteggio 0.9! Ottimo!".
- Video B (Il Perdente): Il gatto si muove male. Il righello dice: "Punteggio 0.2! Disastro!".
Invece di far vedere all'AI milioni di video, gli mostri solo queste coppie e dici: "Preferisco A, non B".
L'AI impara così la logica dietro il movimento, non solo a copiare l'immagine.

4. Il Trucco Magico: La "Zavorra" (Zeroth-Order Regularization)

C'era un piccolo rischio: se premi troppo l'AI per fare il movimento giusto, potrebbe diventare così ossessionata dalla direzione che il video diventa brutto (colori strani, animali deformati). È come se un attore, per recitare bene la scena, iniziasse a urlare o a fare movimenti goffi.

Gli autori hanno aggiunto un "freno" o una zavorra (chiamata Zeroth-Order Regularization).

L'analogia: È come dire all'attore: "Sì, muoiti da sinistra a destra, ma fallo mantenendo il tuo stile naturale e la tua faccia normale".
Questo impedisce all'AI di "barare" per ottenere un punteggio alto, costringendola a migliorare il movimento mantenendo la bellezza del video.

Il Risultato

Grazie a questo metodo, il nuovo modello SPATIALALIGN è diventato un regista molto più attento.

Se gli chiedi: "Un cane è sopra un cesto, poi salta a sinistra", il cane salta davvero a sinistra.
Se gli chiedi: "Uno scoiattolo è a destra di un sasso, poi corre in alto", lo scoiattolo sale davvero.

In sintesi: Hanno smesso di chiedere all'AI "Cosa vedi?" (che è soggettivo) e hanno iniziato a misurare "Dove sono gli oggetti?" (che è matematico), usando questo dato per addestrare il modello a seguire le regole dello spazio come un vero regista, senza rovinare la qualità artistica del film.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I generatori di video da testo (Text-to-Video o T2V) attuali eccellono nella qualità estetica, ma spesso falliscono nel rispettare i vincoli spaziali dinamici specificati nei prompt testuali. In particolare, faticano a rappresentare correttamente le Relazioni Spaziali Dinamiche (DSR - Dynamic Spatial Relationships), ovvero cambiamenti nella posizione relativa degli oggetti nel tempo (es. "una volpe è inizialmente a destra di un ceppo, poi si sposta a sinistra").

Le valutazioni attuali basate su Modelli Linguistici Visivi (VLM) si sono rivelate inaffidabili per questo compito specifico, poiché i VLM attuali hanno capacità di ragionamento spaziale limitate, specialmente in contesti dinamici. Inoltre, i metodi esistenti per il controllo spaziale (come GLIGEN o InstanceDiffusion) funzionano principalmente per immagini statiche e richiedono input aggiuntivi come bounding box, non essendo direttamente applicabili alla generazione video puramente testuale.

2. Metodologia: SPATIALALIGN

Gli autori propongono SPATIALALIGN, un framework di auto-miglioramento che allinea i modelli T2V pre-addestrati alle istruzioni DSR utilizzando una strategia di ottimizzazione delle preferenze. Il processo si articola in tre componenti principali:

A. DSR-SCORE: Una Metrica Geometrica

Per valutare e guidare l'addestramento, gli autori introducono DSR-SCORE, una metrica basata sulla geometria che supera i limiti dei VLM.

Funzionamento: Utilizza un rilevatore e tracciatore di oggetti (GroundedSAM) per estrarre le coordinate delle bounding box (bboxes) dell'animale e dell'oggetto statico in ogni frame.
Calcolo:
1. Calcola un SSR-Score (Static Spatial Relationship) per ogni frame, misurando la distanza normalizzata e la coerenza vettoriale tra le due entità rispetto alla relazione richiesta (es. "sinistra", "destra", "sopra").
2. Deriva il DSR-SCORE aggregando la sequenza di SSR-Score su tutto il video. La metrica premia i video che mostrano un pattern di "incrocio": la conformità alla relazione iniziale deve diminuire nel tempo, mentre quella alla relazione finale deve aumentare.
3. Il punteggio finale è normalizzato tra 0 e 1.

B. Curation dei Dati e Creazione di Coppie

Vengono generati video multipli per ogni prompt utilizzando un modello T2V di riferimento.
I video vengono filtrati per garantire la validità (presenza di un solo animale e un solo oggetto tracciabili per almeno 20 frame).
I video validi vengono classificati in "vincitori" (winner) e "perdenti" (loser) in base a una soglia applicata al DSR-SCORE.

C. Addestramento con DPO a Ordine Zero (Zeroth-Order Regularized DPO)

Invece del classico Supervised Fine-Tuning (SFT) o di metodi RL online costosi come PPO, gli autori utilizzano la Direct Preference Optimization (DPO).

Sfida: La DPO standard può portare a un "spostamento della verosimiglianza" (likelihood displacement), dove il modello degrada la qualità generale per massimizzare il margine di preferenza, o impara scorciatoie che non migliorano realmente la comprensione spaziale.
Soluzione: Viene introdotta una regolarizzazione a ordine zero (Zeroth-Order Regularization - LZO). Questa perdita aggiuntiva vincola il modello addestrato a rimanere vicino al modello di riferimento ( $\epsilon_{ref}$ ) nello spazio dei latenti, prevenendo la deriva della qualità visiva e stabilizzando l'addestramento. La funzione di perdita totale è:
$L = L_{DPO} + \lambda_{ZO} L_{ZO}$

3. Contributi Chiave

DSR-SCORE: Una metrica di valutazione geometrica, precisa e interpretabile per le relazioni spaziali dinamiche, che supera l'inaffidabilità dei VLM.
SPATIALALIGN: Una strategia di addestramento basata su DPO con regolarizzazione a ordine zero, che permette di migliorare le capacità di ragionamento spaziale dei modelli T2V senza bisogno di video reali etichettati manualmente o input di controllo esterni (come le bbox).
DSR-DATASET: Un nuovo dataset di benchmark controllato contenente prompt con diverse relazioni spaziali (sinistra/destra/sopra) e pattern di movimento, creato per facilitare lo studio e la valutazione di questo compito.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su diversi modelli SOTA (Wan2.1, CogVideoX, OpenSora, HunyuanVideo, LTX-Video).

Performance Quantitativa: Il modello fine-tuned con SPATIALALIGN (basato su Wan2.1-1.3B) ha superato significativamente i baseline nella metrica Correctness@0.7 (percentuale di video con DSR-SCORE $\ge$ 0.7), passando da un 12.5% del baseline a un 58.5%.
Qualità Visiva: Il metodo mantiene la coerenza dell'identità dell'oggetto (ID Consistency) e la qualità dell'immagine (CLIP-IQA) paragonabili al modello base, dimostrando che il miglioramento spaziale non compromette la qualità estetica.
Ablation Study:
- L'uso di reward basati su VLM (es. Qwen3-VL) ha portato a risultati peggiori rispetto al baseline, confermando l'inaffidabilità dei VLM per questo compito.
- La regolarizzazione $L_{ZO}$ è risultata superiore alla semplice SFT, evitando problemi di saturazione dei colori e instabilità nell'addestramento.
- Il modello addestrato mostra una buona generalizzazione su strutture di prompt diverse da quelle usate per l'addestramento.

5. Significato e Impatto

SPATIALALIGN rappresenta un passo fondamentale verso la generazione video fisicamente plausibile e semanticamente coerente.

Superamento dei limiti attuali: Dimostra che è possibile istruire i modelli generativi su concetti spaziali dinamici complessi partendo solo dal testo, senza dipendere da input di controllo manuali.
Generalizzabilità: Sebbene focalizzato sulle DSR, il framework (metrica geometrica + DPO regolarizzato) offre una ricetta generale per allineare i generatori video ad attributi fisici complessi, aprendo la strada a applicazioni in robotica, modellazione del mondo fisico e simulazioni.
Efficienza: L'approccio evita il costo computazionale elevato dei metodi RL online, rendendo l'ottimizzazione delle preferenze scalabile per i modelli video.

In sintesi, il lavoro risolve un problema critico di allineamento semantico-spaziale nei video generati, fornendo sia un nuovo strumento di valutazione (DSR-SCORE) che una metodologia di addestramento robusta (SPATIALALIGN).