SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een regisseur bent die een film draait met een magische camera. Je geeft de camera een opdracht: "Laat de vos eerst rechts van de boomstronk staan, en loop dan naar links."

In de echte wereld is dit heel makkelijk. Maar voor een kunstmatige intelligentie (AI) die video's maakt, is dit alsof je vraagt om een danspas te doen terwijl je blinddoek op hebt. De AI ziet de woorden, maar begrijpt de ruimte en de beweging niet goed. De vos blijft soms staan, loopt de verkeerde kant op, of verdwijnt gewoon.

Dit paper introduceert SPATIALALIGN, een slimme methode om deze AI te leren hoe het echt werkt in de ruimte. Hier is hoe het werkt, vertaald naar alledaags taal:

1. Het Probleem: De "Blinddoek" van de AI

Tot nu toe waren de beste AI-video's (zoals Wan2.1 of CogVideoX) geweldig in het maken van mooie beelden. Ze konden een bos of een dier heel realistisch tekenen. Maar als je vroeg om een specifieke beweging (bijvoorbeeld: "van rechts naar links"), faalden ze vaak. Het was alsof de AI dacht: "Oh, een vos? En een boom? Hier is een mooie video van een vos." Maar de AI vergeet dat de vos eigenlijk moet verplaatsen.

2. De Oplossing: Een Meetlat in plaats van een Oordeel

De onderzoekers zeiden: "We kunnen de AI niet vertrouwen om te zeggen of ze het goed heeft gedaan. Ze is nog te slordig."

In plaats van een menselijke beoordelaar of een andere AI te vragen "Is de vos nu links of rechts?" (wat vaak fout gaat), hebben ze een meetlat bedacht die op meetkunde gebaseerd is.

De Analogie: Stel je voor dat je een meetlint gebruikt in plaats van te vragen of iets "lekker" ruikt.
Hoe het werkt: De computer kijkt niet naar de "sfeer" van de video, maar naar de coördinaten. Hij tekert een onzichtbaar kaders (een doosje) om de vos en een om de boom. Dan meet hij precies: "Is de doos van de vos nu links van de doos van de boom?"
Dit noemen ze DSR-SCORE. Het is een cijfer dat zegt: "Hoe goed volgt de video de regels?" Als de vos van rechts naar links loopt, gaat dit cijfer omhoog.

3. De Training: Een Slimme Coach (DPO)

Nu hebben ze een meetlat, maar hoe leer je de AI?
Je kunt de AI niet simpelweg zeggen: "Leer dit." Je moet haar belonen als ze het goed doet en straffen als ze het fout doet.

De Oude Methode (SFT): Dit is alsof je een leerling laat oefenen door alleen de beste voorbeelden na te doen. Soms leert de leerling dan alleen maar het antwoord uit het hoofd, zonder te begrijpen waarom het goed is.
De Nieuwe Methode (SPATIALALIGN): De onderzoekers gebruiken een techniek genaamd DPO (Direct Preference Optimization).
- De AI maakt twee video's: één waar de vos goed loopt (de "winnaar") en één waar hij vastloopt (de "verliezer").
- De meetlat (DSR-SCORE) zegt: "Deze video is een winnaar, die is een verliezer."
- De AI krijgt een boodschap: "Kijk naar het verschil tussen deze twee. Probeer de volgende keer meer op de winnaar te lijken."

Het Magische Extraatje (Zeroth-Order Regularization):
Er was een klein probleem. Soms probeerde de AI te "cheaten". Ze leerde de regels, maar de video zag er dan raar uit (bijvoorbeeld: de kleuren waren te fel of het dier leek op een monster).
Om dit te voorkomen, voegden ze een anker toe. Stel je voor dat je een dansleraar bent die zegt: "Beweeg je armen zoals ik wil, maar zorg dat je niet op je hoofd gaat staan." Dit "anker" zorgt ervoor dat de AI de regels leert zonder de kwaliteit van de video te verpesten.

4. Het Resultaat: Een AI die de Ruimte Begrijpt

Na deze training kan de AI plotseling veel beter:

Voorheen: "De vos staat rechts... wacht, hij blijft staan."
Nu: "De vos staat rechts... en hij loopt soepel naar links, precies zoals gevraagd."

De onderzoekers hebben zelfs een nieuwe testbank gemaakt (een soort olympische spelen voor AI-video's) om dit te bewijzen. Hun model won met gemak van de beste concurrenten.

Samenvatting in één zin

SPATIALALIGN is als het geven van een meetlat en een slimme coach aan een AI-filmmaker, zodat hij niet alleen mooie plaatjes maakt, maar ook echt begrijpt hoe dingen zich in de ruimte moeten verplaatsen.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Text-to-Video (T2V) generatiemodellen zijn de laatste jaren aanzienlijk verbeterd wat betreft esthetische kwaliteit en realisme. Echter, ze missen vaak het vermogen om dynamische ruimtelijke relaties (DSR) nauwkeurig te volgen die in de tekstprompt worden beschreven.

De uitdaging: Mensen kunnen complexe ruimtelijke veranderingen begrijpen en plannen (bijv. "een vos staat rechts van een stronk en loopt daarna naar links"). Bestaande SOTA-modellen (zoals Wan2.1, CogVideoX) falen vaak bij het correct uitvoeren van deze bewegingen; ze negeren de ruimtelijke instructies of genereren inconsistenties (bijv. het dier beweegt naar de verkeerde kant of blijft staan).
Beperkingen van bestaande evaluatie: Bestaande benchmarks vertrouwen vaak op Vision-Language Models (VLM's) om ruimtelijke relaties te evalueren. De auteurs vinden dat VLM's onbetrouwbaar zijn voor deze specifieke taak vanwege hun beperkte ruimtelijke redeneringscapaciteiten in dynamische omgevingen.
Beperkingen van bestaande methoden: Methoden voor ruimtelijke controle (zoals GLIGEN) werken voornamelijk voor statische afbeeldingen en vereisen extra inputs zoals bounding boxes. Er is geen oplossing die DSR's puur uit tekstprompts genereert voor video's.

2. Methodologie: SPATIALALIGN

De auteurs stellen SPATIALALIGN voor, een zelfverbeteringsframework dat T2V-modellen fine-tunt om beter te aligneren met DSR-instructies. De aanpak bestaat uit drie kerncomponenten:

A. DSR-SCORE: Een meetbaar, geometrisch criterium

In plaats van te vertrouwen op VLM's, introduceren de auteurs DSR-SCORE, een meetbare, op geometrie gebaseerde metric.

Werking: Voor elke frame in een gegenereerde video worden bounding boxes (bboxes) van het dier en het statische object geëxtraheerd (met GroundedSAM).
SSR-Score: Per frame wordt een Static Spatial Relationship (SSR) score berekend (tussen -1 en 1) op basis van de afstand en hoek tussen de centra van de bboxes.
Dynamische berekening: De DSR-SCORE voor de hele video wordt berekend door de SSR-scores over de tijd te analyseren. Een ideale video toont een "kruisend" patroon: de alignering met de initiële relatie (bijv. "links van") neemt af, terwijl de alignering met de finale relatie (bijv. "rechts van") toeneemt.
Voordeel: Dit is een objectieve, differentieerbare (via de loss-functie) en nauwkeurige meting die niet afhankelijk is van de subjectieve interpretatie van een VLM.

B. Data Curation en Selectie

Het framework genereert meerdere video-sample per prompt met een referentiemodel.
Ongeldige samples (waarbij objecten niet worden gedetecteerd of er meerdere objecten zijn) worden verwijderd.
Geldige samples worden gesorteerd op basis van hun DSR-SCORE. Samples boven een bepaalde drempel ( $\tau_{train}$ ) worden gemarkeerd als "winnaars" (hoge kwaliteit), en de rest als "verliezers".

C. Training met Direct Preference Optimization (DPO) met Zeroth-Order Regularisatie

De kern van de training is het fine-tunen van het T2V-model met Direct Preference Optimization (DPO), in plaats van Supervised Fine-Tuning (SFT) of online Reinforcement Learning (zoals PPO).

Waarom DPO? DSR-SCORE is een niet-differentieerbare numerieke waarde, wat SFT moeilijk maakt. Online RL is te rekenintensief voor video-diffusie. DPO omzeilt dit door gepaarde data (winnaar/verliezer) te gebruiken.
Het probleem met standaard DPO: De auteurs merken op dat puur DPO-training kan leiden tot "likelihood displacement", waarbij het model de loss minimaliseert door de kwaliteit van zowel winnaars als verliezers te verslechteren (het leert "shortcuts").
De oplossing: Zeroth-Order Regularization ( $L_{ZO}$ ): Om dit te voorkomen, voegen ze een regularisatieterm toe die het gefine-tuned model dicht bij het referentiemodel houdt op basis van de noise-prediction. Dit voorkomt dat het model de fundamentele beeldkwaliteit opoffert om alleen de ruimtelijke score te maximaliseren.
- Totale Loss: $L = L_{DPO} + \lambda_{ZO} L_{ZO}$

3. Belangrijkste Bijdragen

DSR-SCORE: Een nieuwe, op geometrie gebaseerde metric voor het kwantificeren van dynamische ruimtelijke relaties in video's. Deze is nauwkeuriger en betrouwbaarder dan VLM-gebaseerde evaluaties.
SPATIALALIGN Framework: Een trainingss strategie die DPO combineert met Zeroth-Order regularisatie om T2V-modellen te leren DSR-instructies te volgen zonder de beeldkwaliteit te verstoren.
DSR-DATASET: Een nieuw benchmark-dataset met gecontroleerde tekst-video-paren voor het trainen en evalueren van DSR-taken.

4. Resultaten

De auteurs hebben hun methode getest op diverse state-of-the-art modellen (Wan2.1, CogVideoX, OpenSora, LTX-Video, HunyuanVideo).

Kwantitatieve resultaten: Het gefine-tunde model (op basis van Wan2.1-1.3B) behaalde een Correctness@0.7 van 0.585, wat een enorme verbetering is ten opzichte van de baseline (0.125) en andere SOTA-modellen (die rond de 0.05 - 0.49 scoren).
Kwalitatieve resultaten: Visuele vergelijkingen tonen aan dat SPATIALALIGN correcte bewegingen genereert (bijv. een dier dat van links naar rechts beweegt), terwijl baselines vaak de richting verkeerd hebben of de objecten niet bewegen.
Beeldkwaliteit: Ondanks de focus op ruimtelijke logica, behoudt het model een hoge ID-consistentie en visuele kwaliteit (CLIP-IQA), wat aantoont dat de regularisatie werkt.
Ablatie studies:
- VLM-based rewards presteren slechter dan DSR-SCORE (soms zelfs slechter dan geen fine-tuning).
- De combinatie van DPO en $L_{ZO}$ is superieur aan puur DPO of SFT (SFT leidt tot oververzadiging van kleuren).
- Het model generaliseert goed naar verschillende promptstructuren, wat suggereert dat het de semantiek van ruimtelijke relaties heeft geleerd en niet alleen de prompt-indeling heeft gememoriseerd.

5. Betekenis en Impact

SPATIALALIGN is een belangrijke stap voorwaarts in het begrijpen en genereren van fysiek plausibele video's.

Betrouwbaarheid: Het vervangt subjectieve VLM-evaluaties door objectieve geometrische metingen, wat de evaluatie van ruimtelijke redenering in AI fundamenteel verbetert.
Efficiëntie: Door DPO en Zeroth-Order regularisatie te gebruiken, biedt het een schaalbare en rekenkundig efficiënte manier om complexe ruimtelijke vaardigheden aan te leren zonder dure online RL-procedures.
Toepassingen: Hoewel de focus ligt op DSR, biedt de methode een algemeen recept voor het vertalen van complexe relationele vereisten naar automatisch berekenbare signalen, wat nuttig is voor robotica, fysieke wereldmodelleren en geavanceerde contentcreatie.

Kortom, SPATIALALIGN lost een fundamentele tekortkoming in huidige T2V-modellen op: het vermogen om dynamische ruimtelijke instructies uit tekst nauwkeurig en betrouwbaar om te zetten in bewegende beelden.