SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation

Each language version is independently generated for its own context, not a direct translation.

SPATIALALIGN: Wie man KI-Video-Generatoren beibringt, sich im Raum zurechtzufinden

Stell dir vor, du bist ein Regisseur und gibst einer KI den Drehbuchbefehl: „Ein Fuchs steht rechts neben einem Baumstumpf und läuft dann links darum herum."

Das Problem? Die aktuellen KI-Modelle, die aus Text Videos machen, sind wie sehr talentierte, aber etwas verwirrte Schauspieler. Sie können wunderschöne Bilder malen, aber wenn es um Bewegung und Position geht, verlieren sie oft den Faden. In unserem Beispiel würde die KI vielleicht den Fuchs einfach in der Mitte des Bildes stehen lassen oder er läuft in die falsche Richtung. Sie verstehen den „Raum" nicht wirklich.

Die Forscher von SPATIALALIGN haben eine Lösung gefunden, um diesen KI-Schauspielern beizubringen, wie man sich im Raum bewegt. Hier ist die Erklärung, wie sie das gemacht haben, mit ein paar einfachen Vergleichen:

1. Das Problem: Die KI ist „raumblind"

Aktuelle KI-Modelle sind darauf trainiert, Dinge schön aussehen zu lassen (wie ein Fotograf, der nur auf das Licht achtet). Aber sie vergessen oft die Logik der Szene. Wenn du sagst „links", denkt die KI vielleicht nur an das Wort, nicht an die geometrische Realität.

2. Die Lösung: Ein neuer „Schiedsrichter" (DSR-SCORE)

Um die KI zu verbessern, brauchen wir einen Trainer, der genau weiß, ob die Bewegung stimmt. Früher haben Forscher versucht, andere große KI-Modelle (die man „Sprach-KIs" nennt) als Schiedsrichter zu nutzen. Das Problem: Diese Sprach-KIs sind gut im Reden, aber schlecht im Rechnen und Sehen. Sie sagen oft „Ja", auch wenn der Fuchs in die falsche Richtung läuft.

Der Trick von SPATIALALIGN:
Statt eine Sprach-KI zu fragen, bauen die Forscher einen mathematischen Schiedsrichter.

Die Analogie: Stell dir vor, du hast zwei unsichtbare Boxen (wie bei einem Boxkampf). Eine Box umschließt den Fuchs, die andere den Baumstumpf.
Der Schiedsrichter misst nicht mit Augen, sondern mit Linealen und Winkeln. Er berechnet exakt: „Der Fuchs war bei Frame 1 bei Koordinate X (rechts) und bei Frame 50 bei Koordinate Y (links)."
Dieser Schiedsrichter gibt eine Punktzahl (den DSR-SCORE). Wenn die Bewegung stimmt, gibt es Punkte. Wenn nicht, gibt es Nullen. Das ist viel genauer als ein menschliches Urteil oder eine Sprach-KI.

3. Die Methode: „Lernen durch Belohnung" (DPO)

Jetzt haben wir den Schiedsrichter, aber wie bringt man der KI bei, besser zu werden?

Der alte Weg (SFT): Man würde der KI tausend Videos zeigen und sagen: „Mach es so!" Das funktioniert oft schlecht, weil die KI die Videos nur auswendig lernt, ohne das Prinzip zu verstehen.
Der neue Weg (DPO - Direct Preference Optimization):
Stell dir vor, du trainierst einen Hund. Du wirfst ihm einen Ball.
1. Der Hund bringt den Ball zurück (falsch).
2. Der Hund bringt den Ball richtig zurück (richtig).
3. Der Schiedsrichter (unser mathematischer Score) sagt: „Der erste Versuch war schlecht, der zweite war gut."
4. Die KI lernt daraus: „Ah, ich muss mich mehr auf die richtige Bewegung konzentrieren, nicht nur auf das Aussehen."

Die Forscher nutzen also Tausende von Versuchen. Die KI erzeugt viele Videos. Der mathematische Schiedsrichter sortiert die „schlechten" (Loser) von den „guten" (Winner) Videos aus. Die KI wird dann so trainiert, dass sie mehr „Gewinner"-Videos produziert.

4. Der „Zaubertrick": Die Sicherheitsbremse (Zeroth-Order Regularization)

Es gab ein kleines Problem: Wenn man die KI nur darauf trainiert, den Schiedsrichter zu befriedigen, wird sie verrückt. Sie könnte versuchen, den Score zu manipulieren, indem sie das Video so verändert, dass es zwar die Bewegung zeigt, aber die Farben so übersteuert sind, dass es wie ein Albtraum aussieht (wie ein Bild, das zu hell ist, um es anzusehen).

Die Lösung: Die Forscher fügten eine Sicherheitsbremse hinzu.

Die Analogie: Stell dir vor, du fährst ein Auto. Du willst schneller werden (bessere Bewegung), aber du darfst nicht aus der Kurve fliegen (schlechtes Bild). Die Sicherheitsbremse sagt der KI: „Du darfst die Bewegung ändern, aber vergiss nicht, wie das Originalvideo aussah. Bleib im Rahmen."
Dadurch bleibt das Video stabil, die Farben sind natürlich, aber die Bewegung ist jetzt perfekt.

Das Ergebnis

Am Ende haben die Forscher ein System, das KI-Modellen beibringt, Raumbeziehungen zu verstehen.

Vorher: Ein Fuchs steht irgendwo, läuft vielleicht gar nicht oder in die falsche Richtung.
Nachher: Der Fuchs steht genau rechts, läuft genau links herum und sieht dabei natürlich aus.

Zusammenfassend:
SPATIALALIGN ist wie ein strenger, aber fairer Mathematik-Lehrer für KI-Video-Generatoren. Er nutzt exakte Messungen statt vager Gefühle, um der KI beizubringen, dass „links" wirklich „links" bedeutet und nicht nur ein schönes Wort ist. Das ist ein großer Schritt hin zu KI, die nicht nur hübsche Bilder macht, sondern die Welt so versteht, wie wir sie sehen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Text-zu-Video-Generatoren (T2V) haben in den letzten Jahren enorme Fortschritte bei der ästhetischen Qualität erzielt. Ein kritisches Defizit besteht jedoch darin, dass diese Modelle oft dynamische räumliche Beziehungen (Dynamic Spatial Relationships, DSR) aus Textprompts nicht zuverlässig umsetzen.

Das Szenario: Ein Prompt beschreibt eine Bewegung eines Objekts (z. B. eines Tieres) relativ zu einem statischen Objekt, die eine Änderung der räumlichen Beziehung über die Zeit erfordert (z. B. „Ein Fuchs ist rechts eines Baumstumpfs, dann läuft er nach links").
Das Versagen bestehender Modelle: State-of-the-Art-Modelle (wie Wan2.1, CogVideoX) scheitern häufig an solchen Aufgaben. Sie ignorieren die räumliche Dynamik, bewegen Objekte in die falsche Richtung oder ändern die Beziehung gar nicht.
Herausforderung bei der Evaluation: Bisherige Evaluierungsmethoden stützen sich oft auf Vision-Language-Modelle (VLMs), die jedoch als unzuverlässig für die Bewertung feiner räumlicher Beziehungen in dynamischen Videos erweisen.

2. Methodik: SPATIALALIGN

Das Paper stellt SPATIALALIGN vor, ein Selbstverbesserungs-Framework, das T2V-Modelle durch eine Kombination aus einer neuen Metrik und einem optimierten Trainingsansatz an DSR-Prompts anpasst.

A. DSR-SCORE (Geometrie-basierte Metrik)

Anstatt auf VLMs zu vertrauen, entwickelt das Team eine präzise, geometrische Metrik zur Quantifizierung der Übereinstimmung zwischen Video und Prompt.

Funktionsweise:
1. Objekterkennung: Mittels GroundedSAM werden Bounding Boxes (BBoxes) für das Tier und das statische Objekt in jedem Frame extrahiert.
2. SSR-Score (Static Spatial Relationship): Für jeden Frame wird ein Score berechnet, der die räumliche Beziehung (z. B. „links von", „oben auf") basierend auf den Koordinaten der BBox-Mittelpunkte und Vektoren misst.
3. DSR-Score: Der finale Score für das gesamte Video analysiert die Sequenz der SSR-Scores. Ein ideales Video zeigt ein „Kreuzungsmuster": Der Score für die initiale Beziehung muss im Laufe des Videos sinken, während der Score für die finale Beziehung steigen muss.
Vorteil: Diese Metrik ist interpretierbar, präzise und unabhängig von den oft fehlerhaften räumlichen Schlussfolgerungen von VLMs.

B. Trainingsstrategie: DPO mit Zeroth-Order Regularization

Das Ziel ist die Feinabstimmung (Fine-Tuning) eines vortrainierten T2V-Modells ( $p_\theta$ ) basierend auf den durch DSR-SCORE generierten Präferenzen.

Direkte Präferenzoptimierung (DPO): Anstatt auf komplexe Reinforcement-Learning-Methoden (wie PPO) zurückzugreifen, die rechenintensiv sind und Online-Inferenz erfordern, nutzt das Team DPO. Es werden Paare aus „Gewinner"-Videos (hoher DSR-SCORE) und „Verlierer"-Videos (niedriger DSR-SCORE) erstellt.
Das Problem der Likelihood-Displacement: Reines DPO-Training führt oft dazu, dass das Modell „Abkürzungen" lernt, um den Loss zu minimieren, was die generelle Bildqualität (z. B. Farben, Textur) verschlechtert (Likelihood-Displacement).
Lösung: Zeroth-Order Regularization ( $L_{ZO}$ ): Um dies zu verhindern, wird ein zusätzlicher Regularisierungsterm eingeführt. Dieser bestraft Abweichungen des feinabgestimmten Modells vom Referenzmodell ( $p_{ref}$ $p_{r e f}$ ), solange die Präferenzordnung erhalten bleibt.
- Formel: $L = L_{DPO} + \lambda_{ZO} L_{ZO}$
- Dies stabilisiert das Training und verhindert, dass das Modell die generative Qualität opfert, nur um die räumliche Beziehung zu erfüllen.

C. Datensatz (DSR-DATASET)

Es wurde ein neuer Benchmark-Datensatz mit kontrollierten Szenarien erstellt, der Paare aus Textprompts und Videos enthält, die spezifische DSR-Muster (z. B. von „links" zu „oben") abdecken.

3. Schlüsselbeiträge

DSR-SCORE: Eine neue, geometrie-basierte Metrik zur zuverlässigen und feinkörnigen Evaluierung dynamischer räumlicher Beziehungen, die VLM-basierte Ansätze in Zuverlässigkeit und Genauigkeit übertrifft.
SPATIALALIGN: Eine effiziente Trainingsstrategie, die DPO mit Zeroth-Order-Regularisierung kombiniert, um T2V-Modelle ohne reale Trainingsdaten (nur generierte Samples) an räumliche Anweisungen anzupassen.
DSR-DATASET: Ein neuer Benchmark für die kontrollierte Evaluierung von DSR in T2V-Modellen.

4. Ergebnisse

Die Experimente wurden an mehreren State-of-the-Art-Modellen (Wan2.1, CogVideoX, OpenSora, HunyuanVideo) durchgeführt.

Quantitative Ergebnisse: Das feinabgestimmte Modell (basierend auf Wan2.1-1.3B) erreicht einen Correctness@0.7 Score von 0.585, im Vergleich zu nur 0.125 beim Baseline-Modell Wan2.1 und sehr niedrigen Werten bei anderen Modellen (z. B. 0.053 bei CogVideoX).
Qualitative Ergebnisse: Die generierten Videos zeigen korrekte Bewegungsabläufe und räumliche Übergänge, während Baseline-Modelle oft in falsche Richtungen bewegen oder die Beziehung gar nicht ändern.
Qualitätserhalt: Trotz der starken Verbesserung der räumlichen Logik bleiben die Bildqualität (Imaging Quality) und die Konsistenz der Objektdarstellung (ID Consistency) auf dem Niveau des Baseline-Modells.
Ablationsstudien:
- VLM-basierte Belohnungssignale führen zu schlechteren Ergebnissen als DSR-SCORE.
- Reines SFT (Supervised Fine-Tuning) führt zu Überanpassung und schlechter visueller Qualität (Farbsättigung).
- Die Zeroth-Order-Regularisierung ist entscheidend für stabile Trainingskurven und hohe Qualität.

5. Bedeutung und Ausblick

SPATIALALIGN adressiert eine fundamentale Lücke in der Text-zu-Video-Generierung: das Verständnis physikalischer und räumlicher Dynamiken.

Generalisierung: Der Ansatz ist nicht auf DSR beschränkt, sondern bietet ein generisches Rezept, um komplexe relationale Anforderungen in automatisch berechenbare, geometrische Signale zu übersetzen.
Effizienz: Durch die Vermeidung von Online-RL und die Nutzung von DPO mit Regularisierung ist die Methode skalierbar und recheneffizient.
Zukunft: Die Arbeit ebnet den Weg für physikalisch fundierte Video-Generierung, die für Anwendungen in Robotik, Simulationen und interaktiven Medien essenziell ist.

Zusammenfassend beweist SPATIALALIGN, dass durch die Kombination einer präzisen geometrischen Metrik und einer stabilisierten Präferenzoptimierung Text-zu-Video-Modelle signifikant verbessert werden können, um komplexe räumliche Anweisungen korrekt zu interpretieren und umzusetzen.