LayerT2V: A Unified Multi-Layer Video Generation Framework

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen Film drehen oder einen Clip bearbeiten. Normalerweise ist ein Video wie ein fertiger Kuchen: Sobald er gebacken ist, kannst du die Schokolade nicht mehr einfach herausnehmen, um sie durch Erdbeeren zu ersetzen, ohne den ganzen Kuchen zu zerstören. Du musst den ganzen Kuchen neu backen.

Das ist das Problem bei den aktuellen KI-Videogeneratoren: Sie spucken nur diesen fertigen „Kuchen" aus. Wenn du den Hintergrund ändern willst, musst du das ganze Video neu generieren, und oft sieht das Ergebnis dann komisch aus oder die Figuren verschwimmen.

Die Forscher in diesem Papier haben eine Lösung namens LayerT2V entwickelt. Hier ist die einfache Erklärung, wie das funktioniert:

1. Das große Problem: Der „Ein-Schichten-Kuchen"

Bisherige KI-Modelle sehen ein Video als eine einzige, undurchdringliche Schicht. Sie wissen nicht, was „Hintergrund" ist und was „Vordergrund". Es ist, als würdest du versuchen, ein Bild zu malen, indem du alle Farben gleichzeitig auf einmal auf die Leinwand sprühst. Wenn du später etwas ändern willst, ist es zu spät.

2. Die Lösung: LayerT2V – Der „Schichten-Keks"

Stell dir LayerT2V wie einen transparenten Schichten-Keks oder einen Folienstapel vor.
Wenn du der KI sagst: „Erstelle ein Video von einem Hund, der auf einer Wiese läuft", macht LayerT2V nicht nur ein Bild. Es erstellt gleichzeitig vier Dinge:

Die volle Szene: Der fertige Film (Hund + Wiese).
Der Hintergrund: Nur die Wiese (ohne den Hund).
Der Vordergrund: Nur der Hund (auf einem schwarzen Hintergrund).
Die Maske: Eine unsichtbare Schablone, die genau sagt, wo der Hund ist und wo die Wiese ist.

Das ist wie beim Filmen im Studio: Man filmt den Schauspieler vor einem grünen Hintergrund und den Hintergrund separat. Später kann man den Schauspieler einfach auf einen anderen Planeten setzen, ohne dass er sich bewegt oder verzerrt.

3. Wie funktioniert das technisch? (Die Magie)

Normalerweise ist es für eine KI sehr schwer, all diese Schichten gleichzeitig zu verstehen, ohne dass sie durcheinandergeraten (z. B. dass der Hund plötzlich Teile der Wiese „isst" oder der Hintergrund mit dem Hund verschmilzt).

Die Forscher haben zwei clevere Tricks angewendet:

Der „Identitäts-Ausweis" (LayerAdaLN): Jede Schicht bekommt einen kleinen digitalen Ausweis. Die KI weiß also genau: „Aha, dieser Teil gehört zum Hund, dieser Teil gehört zur Wiese." So verwechseln sie nichts.
Der „Sprecher" (Layered Cross-Attention): Wenn die KI den Hund zeichnet, hört sie nur auf den Befehl „Hund". Wenn sie die Wiese zeichnet, hört sie nur auf „Wiese". Sie mischen die Anweisungen nicht.

4. Der neue Datensatz: „VidLayer"

Um diese KI zu trainieren, brauchten sie viele Beispiele. Aber im Internet gibt es fast keine Videos, bei denen Hintergrund und Vordergrund sauber getrennt sind.
Also haben die Forscher eine automatische Fabrik gebaut. Sie haben Tausende von Videos genommen und mit Hilfe anderer KI-Tools (wie einem sehr cleveren Schere-Messer) den Vordergrund automatisch ausgeschnitten und den Hintergrund neu gemalt. Das Ergebnis ist eine riesige Bibliothek von „Schichten-Videos", die sie VidLayer nennen.

5. Warum ist das so cool?

Stell dir vor, du bist ein Regisseur oder ein YouTuber.

Früher: Du hast ein Video generiert, gefiel dir der Hintergrund nicht? -> Alles löschen, neu generieren, hoffen, dass der Hund wieder so aussieht.
Mit LayerT2V: Du generierst das Video. Dann sagst du: „Ändere den Hintergrund in einen Wald." Die KI tauscht nur die Hintergrund-Schicht aus. Der Hund bleibt genau so, wie er war. Du kannst sogar den Hund durch eine Katze ersetzen, ohne dass der Rest des Videos flackert.

Zusammenfassung:
LayerT2V verwandelt Videogenerierung von einem „Einweg-Kunstwerk" in einen baubaren Baukasten. Es erlaubt uns, Videos Schicht für Schicht zu erstellen, genau wie Profis in Hollywood, aber jetzt direkt aus einer Textbeschreibung heraus. Das macht Videos nicht nur schöner, sondern auch viel flexibler und einfacher zu bearbeiten.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Text-zu-Video-Generierung (T2V) hat in den letzten Jahren enorme Fortschritte gemacht (z. B. durch Modelle wie Sora, Wan, HunyuanVideo). Die bestehenden Methoden generieren jedoch typischerweise nur ein einheitliches, zusammengesetztes Endvideo.

Einschränkung: Es fehlt eine editierbare, schichtbasierte (layered) Repräsentation. In professionellen Produktionspipelines werden Videos jedoch selten als ein Block bearbeitet; stattdessen werden Vordergrund, Hintergrund und Alpha-Matten separat manipuliert, um Hintergründe auszutauschen, Motive zu verfeinern oder lokale Effekte anzuwenden.
Lücken in der Forschung: Bisherige Ansätze zur schichtbasierten Generierung konzentrierten sich oft nur auf einzelne RGBA-Vordergründe (ohne explizite Hintergrundmodellierung) oder litten unter mangelnder Stabilität und Inkonsistenz zwischen den Schichten, da ihnen hochwertige Trainingsdaten und explizite Modellierungsmechanismen fehlten.

2. Methodik: LayerT2V

LayerT2V ist ein einheitliches Framework, das mehrere semantisch konsistente Ausgaben in einem einzigen Inferenzschritt generiert: das vollständige Video, eine unabhängige Hintergrundschicht und mehrere Vordergrund-RGB-Schichten mit den entsprechenden Alpha-Matten.

Kernidee

Die Autoren nutzen die Erkenntnis, dass moderne Video-Generierungs-Backbones (basierend auf Diffusion Transformern, DiT) eine hohe Kompression in Zeit und Raum verwenden. Dies ermöglicht es, mehrere Schicht-Repräsentationen entlang der Zeitdimension zu serialisieren und sie gemeinsam auf einer gemeinsamen Generierungstrajektorie zu modellieren. Dadurch wird die Konsistenz zwischen den Schichten zu einem intrinsischen Ziel der Generierung, anstatt nur eine nachträgliche Einschränkung zu sein.

Architektur und Schlüsselkomponenten

Das Framework basiert auf einem geteilten DiT-Backbone (Wan VAE), erweitert um spezifische Module zur Handhabung der Schicht-Identität:

Datenrepräsentation:
- Die latenten Codes für Vollvideo, Hintergrund, Vordergrund und Alpha-Matte werden entlang der Zeitachse konkateniert ( $z_0 := \text{Concat}([z_{\text{full}}, z_{\text{bg}}, z_{\text{fg}}, z_{\text{mask}}])$ ).
- Der Vordergrund wird als prämultiplizierter Inhalt ( $V_{\text{fg}} = V_{\text{full}} \odot A$ ) kodiert, um die Interaktion mit der Alpha-Matte zu erleichtern.
LayerAdaLN (Layer Adaptive Normalization):
- Da verschiedene Schichten unterschiedliche statistische Eigenschaften aufweisen (z. B. sind Alpha-Matten spärlich und binär, während RGB-Schichten reichhaltig sind), wird für jede Schichtkategorie ein lernbarer Modulationsvektor eingeführt.
- Dieser Vektor fügt Shift-, Scale- und Gate-Parameter in die Self-Attention und FFN-Blöcke ein, um die gemeinsamen Backbone-Parameter an die spezifischen Statistiken jeder Schicht anzupassen, ohne den Overhead signifikant zu erhöhen.
Layered Cross-Attention Modulation:
- Um semantisches „Leckagen" (Condition Leakage) zu verhindern, werden Text-Prompts für Vollvideo, Vordergrund und Hintergrund unabhängig kodiert.
- Eine spezielle Attention-Maske steuert, welche Text-Token für welche visuellen Schicht sichtbar sind (z. B. attendiert der Vordergrund nur auf den Vordergrund-Prompt). Dies erzwingt eine strikte semantische Trennung.
VAE-Anpassung für Alpha-Matten:
- Da Alpha-Matten sich stark von RGB-Videos unterscheiden, wird der pretrained Wan VAE durch Fine-Tuning des Decoders (mit LoRA) angepasst, um hochwertige, zeitlich stabile Alpha-Matten zu rekonstruieren.

Trainingsstrategie (3 Stufen)

Stage 1 (Mask VAE Adaptation): Anpassung des VAE-Decoders für Alpha-Matten bei eingefrorenem Encoder.
Stage 2 (Multi-layer Generation): Gemeinsames Lernen aller Schichten mit den neuen Modulen (LayerAdaLN, Cross-Attention) und zusätzlichen Verlustfunktionen für Kompositions-Konsistenz und Masken-Rekonstruktion.
Stage 3 (Multi-foreground Extension): Erweiterung des Modells, um mehrere Vordergrund-Schichten (bis zu drei) durch weitere Serialisierung entlang der Zeitachse zu unterstützen.

3. Der VidLayer-Datensatz

Ein zentrales Hindernis für dieses Forschungsfeld war das Fehlen großer Datensätze mit schichtbasierten Annotationen.

VidLayer: Der erste große Datensatz für Multi-Layer-Video-Generierung mit ca. 4 Millionen Frames (50.000 Clips).
Aufbau: Jeder Sample enthält das Vollvideo, den Hintergrund, den Vordergrund, die Alpha-Matte und feingranulare Textbeschreibungen für jede Schicht.
Pipeline: Ein vollautomatischer Prozess nutzt Qwen3-VL für semantische Annotation, SAM3 für die Masken-Extraktion, MatAnyone für zeitlich konsistente Vordergrund-Extraktion und Gen-Omnimatte für die Hintergrund-Inpainting. GPT-4o dient als automatischer Qualitätsprüfer, um Artefakte zu filtern.

4. Ergebnisse und Evaluation

Die Autoren führen umfangreiche Experimente durch, die LayerT2V mit dem aktuellen State-of-the-Art (LayerFlow) vergleichen.

Qualitative Ergebnisse: LayerT2V erzeugt saubere Vordergrund-Trennungen, scharfe Alpha-Matten und vollständige Hintergründe ohne Leckagen oder Rand-Artefakte, selbst bei komplexen Bewegungen.
Quantitative Ergebnisse (VBench):
- LayerT2V übertrifft LayerFlow in allen Metriken (Ästhetik, Bewegungsglättung, zeitliches Flackern, Subjektkonsistenz, Text-Alignment).
- Besonders hervorzuheben ist die hohe Subjektkonsistenz im Vordergrund und die zeitliche Kohärenz des Hintergrunds ohne Vordergrund-Leckagen.
User Study: In einer Studie mit 30 Teilnehmern wurde LayerT2V in den Kategorien Ästhetik, Vordergrund-Qualität und Text-Alignment signifikant bevorzugt (ca. 72–77% Präferenzrate).
Ablationsstudien: Sie zeigen, dass sowohl LayerAdaLN als auch Layered Cross-Attention essenziell sind. Ein reines zeitliches Konkatenieren ohne diese Module führt zu Verflechtungen der Schichten und schlechter Text-Alignment.

5. Bedeutung und Fazit

LayerT2V stellt einen Paradigmenwechsel dar, indem es die Text-zu-Video-Generierung von der Erzeugung eines flachen Bildstroms hin zu einer strukturierten, schichtbasierten Generierung führt.

Professionelle Anwendbarkeit: Das Framework schließt die Lücke zwischen KI-Generierung und professionellen Videoproduktions-Workflows, da es direkte Editierbarkeit und Kontrolle über einzelne Elemente ermöglicht.
Ressourcen: Durch die Veröffentlichung von Code, Modell und dem VidLayer-Datensatz wird eine skalierbare und evaluable Basis für zukünftige Forschung in der compositionalen und kontrollierbaren Video-Generierung geschaffen.

Zusammenfassend demonstriert LayerT2V, dass durch die intelligente Serialisierung von Schichten und die Einführung schichtspezifischer Modulationsmechanismen hochqualitative, konsistente und editierbare Videos in einem einzigen Durchlauf generiert werden können.