Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een film maakt van een kamer, maar in plaats van een echte camera te gebruiken, probeer je de film te maken door te dromen over hoe de kamer eruit zou zien als je eromheen liep.

Het probleem met de oude methoden was dat ze dit als een "puzzel" deden. Ze probeerden eerst een 3D-model van de kamer te bouwen (een digitale schets), en dan probeerden ze een nieuwe foto te maken vanuit een ander hoekje. Als die schets ook maar een klein beetje fout was, werd de nieuwe foto ook fout. En als je dat 50 keer achter elkaar deed, werd de kamer op het einde van de film een complete rommel. Het was alsof je een tekening maakt, de tekening uitveegt, een nieuwe tekening maakt op basis van de oude, en elke keer een beetje meer fouten maakt.

Deze paper introduceert een nieuwe manier om dit te doen, genaamd Geometry-as-Context (GaC). Laten we het uitleggen met een paar simpele analogieën:

1. De Oude Manier: De "Fout-Verergerende" Kettingreactie

Stel je voor dat je een lange ketting van mensen hebt.

Persoon A kijkt naar een object en zegt: "Het is een stoel."
Persoon B luistert, maakt een schets van die stoel, en geeft die door aan Persoon C.
Persoon C kijkt naar de schets en zegt: "Oké, ik zie nu de stoel vanuit een andere hoek."

Het probleem? Als Persoon B de poot van de stoel een beetje te dik tekent, ziet Persoon C een dikke poot. Als Persoon C die dikke poot weer doorgeeft aan Persoon D, wordt de poot nog dikker. Na 20 mensen is de stoel een enorme, onherkenbare klomp. In de wereld van computers heet dit "cumulatieve fouten". De computer bouwt een 3D-wereld op, maar omdat het rekenen niet perfect is, loopt de wereld uit elkaar naarmate de video langer wordt.

2. De Nieuwe Manier (GaC): De "Alwetende Regisseur"

De auteurs van dit paper zeggen: "Waarom maken we die ketting van mensen? Laten we één super-intelligente regisseur hebben die alles in één keer ziet."

In plaats van eerst een 3D-schets te maken en die dan om te zetten in een foto, doet het nieuwe model (GaC) alles tegelijk in één brein.

De Analogie: Stel je voor dat je een regisseur bent die een film draait. Je hebt een script (de camera-beweging) en je hebt een geheugen van hoe de kamer eruit ziet.
In plaats van eerst een blauwdruk te tekenen en die dan om te bouwen, droomt de regisseur direct de nieuwe scène.
Maar hier is de truc: De regisseur houdt in zijn hoofd een "geheugen" bij van de geometrie (de vorm en diepte van de kamer). Hij gebruikt dit geheugen als een context (een leidraad) terwijl hij de nieuwe beelden tekent.

Dit is wat ze "Geometry-as-Context" noemen. De vorm van de kamer is niet meer een aparte, moeilijke stap die fouten maakt; het is gewoon een hint die het model helpt om de volgende foto perfect te tekenen.

3. De Magische Knop: De "Camera-Gated Attention"

Het model moet weten wat het precies moet doen. Soms moet het de vorm van de kamer schatten, en soms moet het de kleur van de muur tekenen.

De Analogie: Stel je voor dat de camera een magische bril is. Als je de bril opzet, ziet de regisseur niet alleen de muur, maar ook de "diepte" en de "vorm" ervan.
De auteurs hebben een speciale knop (de Camera Gated Attention) ontworpen. Deze knop zorgt ervoor dat de regisseur precies weet: "Ah, nu moet ik de vorm berekenen" of "Ah, nu moet ik de foto tekenen". Zonder deze knop zou de regisseur verward raken en misschien een vorm tekenen waar hij een foto van wilde maken.

4. De Leerstrategie: "Soms de Hints Weglaten"

Tijdens het trainen van de computer (leren hoe het moet), geven ze het model soms hints over de vorm van de kamer, en soms niet.

De Analogie: Stel je voor dat je een kind leert fietsen. Eerst geef je het een steun (de hints over de vorm). Maar soms laat je die steun even los, zodat het kind leert om alleen te fietsen.
Dit heet "Geometry Dropout". Het zorgt ervoor dat het model niet afhankelijk wordt van de hints. Als de hints er niet zijn, kan het model de vorm van de kamer nog steeds "voelen" en de video maken. Dit maakt het model veel sterker en sneller.

Wat levert dit op?

Dankzij deze methode:

Geen rommel meer: De video blijft scherp en consistent, zelfs als de camera heel ver weg gaat en weer terugkomt (zoals een ritje heen en weer).
Echte 3D-gevoel: Als je door de video kijkt, voelt het alsof je echt door een ruimte loopt, niet als een platte film. Objecten verdwijnen niet of veranderen niet in vreemde vormen.
Sneller en slimmer: Omdat het model alles in één keer doet in plaats van in stappen, zijn er minder fouten en is het resultaat mooier.

Kortom: Ze hebben de computer geleerd om niet meer stap-voor-stap een 3D-wereld te "rekenen" (waarbij fouten zich optellen), maar om de wereld te "voelen" en direct de volgende frame te dromen, met de vorm van de wereld als een onzichtbare leidraad.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het doel van scène-consistente videogenatie is het creëren van video's die een 3D-scene verkennen op basis van een door de gebruiker opgegeven cameratrajectoire, waarbij de geometrie en textuur van objecten consistent blijven. Bestaande methoden vallen uiteen in twee categorieën, die beide beperkingen hebben:

Op video gebaseerde methoden: Deze vertrouwen op externe geheugenmechanismen voor consistentie, maar hebben moeite om 3D-consistentie te behouden in complexe scènes of bij grote camerabewegingen.
Op reconstructie gebaseerde methoden: Deze gebruiken expliciete 3D-signalen (zoals puntwolken of 3D-Gaussian Splatting) om nieuwe beelden iteratief te synthetiseren. Hoewel ze robuust zijn op korte afstand, lijden ze onder cumulatieve fouten bij langere trajecten. Deze fouten ontstaan door:
- Onnauwkeurigheden in de geometrische schatting en inpainting.
- Het gebruik van niet-differentieerbare operatoren (zoals inverse rendering) die een end-to-end training tussen de reconstructie- en inpainting-netwerken onmogelijk maken.
- Het feit dat fouten zich in elke iteratie versterken (een "vlinder-effect"), wat leidt tot vage of onherkenbare scènes.

Methodologie: Geometry-as-Context (GaC)

De auteurs introduceren Geometry-as-Context (GaC), een raamwerk dat expliciete 3D-informatie integreert in een reconstructie-gebaseerde videogenatie-pijplijn, maar dan volledig differentieerbaar en end-to-end trainbaar.

Kernidee:
In plaats van aparte modellen te gebruiken voor geometrie-schatting, 3D-reconstructie en inpainting, vervangt GaC de niet-differentieerbare onderdelen door een autoregressief, camera-gestuurd videogenatie-model. Dit model leert om geometrie te schatten, nieuwe weergaven te simuleren en afbeeldingen te herstellen in één unified proces.

Belangrijkste Componenten:

Unificatie van taken in één model:
Het traditionele iteratieve proces (schat geometrie -> reconstructeer 3D -> render -> inpaint) wordt omgezet in een autoregressieve sequentie. Het model voert de volgende stappen tegelijkertijd uit binnen één netwerk:
- Schatting van geometrie ( $G_i$ ) voor het huidige beeld.
- Simulatie van het gerendeerde nieuwe beeld ( $I'_{i+1}$ ) op basis van de vorige afbeelding en geometrie.
- Generatie van het fotorealistische nieuwe beeld ( $I_{i+1}$ ).
Camera Gated Attention (CGA):
Omdat het model meerdere taken moet uitvoeren (geometrie schatten vs. afbeeldingen genereren), is precieze camerabesturing nodig.
- Cameraposities worden gecodeerd als Plücker-stralen.
- Deze stralen worden gebruikt om de Query in de self-attention laag te moduleren en een gating-matrix te genereren.
- Dit helpt het model te onderscheiden of de camera-informatie moet leiden tot geometrische voorspelling of tot het synthetiseren van een nieuwe weergave.
Training Strategie: Geometrie Dropout:
Tijdens het training worden tekst-gebaseerde prompts gebruikt om het model te vertellen of het geometrie of een RGB-afbeelding moet genereren (interleaved sequence: <Geometry>, $G_i$ , <Image>, $I_{i+1}$ ).
- Om de efficiëntie te verhogen en redundantie tijdens inferentie te voorkomen, wordt geometrie dropout toegepast. Hierbij wordt de geometrie-context willekeurig verwijderd met een bepaalde kans.
- Hierdoor leert het model niet alleen om te vertrouwen op geometrie, maar ook om direct van beeld tot beeld te gaan (variant zonder context), wat de inferentie versnelt zonder de 3D-consistentie significant te verliezen.

Belangrijkste Bijdragen

Eliminatie van cumulatieve fouten: Door de niet-differentieerbare reconstructiestappen te vervangen door een differentieerbaar generatief model, kunnen fouten worden gecorrigeerd via backpropagation in plaats van zich op te stapelen.
End-to-End Training: Voor het eerst wordt een iteratief proces van geometrie-schatting, reconstructie en inpainting volledig end-to-end getraind in één autoregressief model.
Nieuwe Architectuur (CGA): De introductie van Camera Gated Attention verbetert de controle over de cameratrajectoire en helpt het model de juiste modus (geometrie vs. RGB) te selecteren.
Flexibiliteit: Het model kan zowel geometrie als RGB-afbeeldingen genereren, afhankelijk van de inferentie-eisen, dankzij de dropout-strategie.

Resultaten

Het model is getest op datasets zoals RealEstate10K en Tanks-and-Temples, met zowel eenrichtings- als heen-en-weer (forth-and-back) cameratrajectoires.

Kwantitatieve Prestaties: GaC presteert superieur ten opzichte van state-of-the-art methoden (zoals ViewCrafter, Voyager, GEN3C) op alle belangrijke metrics:
- FID (Fréchet Image Distance): Laagste score (55.76), wat aangeeft dat de gegenereerde video's dichter bij de echte data-distributie liggen.
- PSNR & SSIM: Hogere scores, wat wijst op betere pixel- en structurele consistentie.
- Camera Accuracy (Rerr & Terr): Significant lagere rotatie- en translatiefouten, wat aantoont dat het model de camerabewegingen nauwkeuriger volgt.
Kwalitatieve Prestaties:
- GaC behoudt consistentie zelfs bij cyclische bewegingen (waarbij de camera terugkeert naar het startpunt). Objecten die tijdelijk uit beeld verdwijnen, worden correct en consistent hersteld in latere frames.
- Er is minder vervaging en meer detail in texturen vergeleken met bestaande methoden.

Betekenis en Impact

Deze studie biedt een fundamentele doorbraak in het veld van 3D-consistente videogenatie. Door het probleem van cumulatieve fouten op te lossen via een differentieerbare, end-to-end aanpak, maakt GaC het mogelijk om langdurige, interactieve 3D-ervaringen te genereren met hoge kwaliteit. Dit is cruciaal voor toepassingen zoals AR/VR, gaming en embodied AI, waar betrouwbare en consistente 3D-werelden essentieel zijn. De methode bewijst dat het integreren van expliciete 3D-context in generatieve modellen een krachtigere route is dan het loskoppelen van reconstructie en generatie.

Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context

1. De Oude Manier: De "Fout-Verergerende" Kettingreactie

2. De Nieuwe Manier (GaC): De "Alwetende Regisseur"

3. De Magische Knop: De "Camera-Gated Attention"

4. De Leerstrategie: "Soms de Hints Weglaten"

Wat levert dit op?

Probleemstelling

Methodologie: Geometry-as-Context (GaC)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation