BetterScene: 3D Scene Synthesis with Representation-Aligned Generative Model

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een fotoalbum hebt met slechts een paar willekeurige foto's van een kamer. Je wilt nu precies weten hoe die kamer eruitziet als je erin zou staan, of hoe het eruitziet vanuit een hoek die je nooit hebt gefotografeerd. Dit noemen we in de tech-wereld "Nieuwe Weergave Synthese" (Novel View Synthesis).

Het probleem is: als je te weinig foto's hebt, proberen oude methoden om de rest "in te vullen", maar dat resulteert vaak in een dromerige, wazige rommel of vreemde, zwevende objecten (artefacten). Het is alsof je probeert een complete puzzel te maken met slechts drie stukjes; de rest is giswerk.

BetterScene is een nieuwe, slimme manier om dit op te lossen. Hier is hoe het werkt, vertaald naar alledaags taal:

1. De Basis: Een Snel Schetsje (MVSplat)

Eerst maakt het systeem een snel, ruw schetsje van de kamer op basis van je paar foto's. Dit is als een architect die snel een plattegrond tekent. Het ziet er ongeveer goed uit, maar de details ontbreken en de muren zijn misschien een beetje krom. Dit is de "coarse" (grove) versie.

2. De Magische Veredelaar (De Video-Diffusie)

Hier komt de echte kracht van BetterScene naar voren. In plaats van alleen te proberen het schetsje scherper te maken, gebruiken ze een AI die is getraind op miljarden video's (Stable Video Diffusion).

Stel je voor dat je die ruwe plattegrond geeft aan een meester-schilder die duizenden films heeft gezien. Deze schilder weet precies hoe licht valt, hoe textuur eruitziet en hoe objecten eruitzien als je ze van een andere kant bekijkt. Hij "droomt" de ontbrekende details in, maar dan op een manier die logisch en consistent blijft.

3. Het Geheim: De "Super-Resolutie" Kleurpotloden (De VAE)

De echte innovatie zit in de "penselen" die deze schilder gebruikt. Normaal gesproken gebruiken AI-modellen een beperkt aantal "kleurpotloden" (dit noemen ze latent channels, vaak maar 4).

BetterScene heeft echter 64 potloden.

Het probleem: Meestal werkt het niet om meer potloden te gebruiken; de AI raakt dan in de war en maakt rare dingen (hallucinaties).
De oplossing van BetterScene: Ze hebben de AI getraind met twee speciale regels:
1. De "Spiegel-regel" (Equivariantie): Als je de AI een foto geeft en je draait die foto, moet de AI de "inwendige" beschrijving van de foto ook precies zo draaien. Hierdoor blijft alles stabiel en schokt het beeld niet als je beweegt.
2. De "Onderwijzer-regel" (Representation Alignment): Ze gebruiken een andere, zeer slimme AI (een "visuele grondlegger") als leraar. Deze leraar zegt: "Kijk, dit is hoe een echte muur eruitziet in mijn hoofd. Zorg dat jouw beschrijving daarop lijkt."

Dit zorgt ervoor dat de AI met al die 64 potloden niet in de war raakt, maar juist super-dikke, realistische details kan toevoegen zonder de structuur te verstoren.

4. Het Resultaat

Wanneer je BetterScene gebruikt, krijg je geen wazige droom meer. Je krijgt een kristalheldere, nieuwe foto van de kamer die eruitziet alsof je er echt was.

Geen gaten: De AI vult de gebieden die je niet hebt gefotografeerd in met logische details.
Geen schokken: Als je door de kamer "loopt" (in een video), bewegen de objecten soepel en niet springerig.
Scherp detail: Zelfs tekst op een muur of de structuur van een tapijt blijft scherp, zelfs als de oorspronkelijke foto's dat niet waren.

Kortom:
BetterScene is als het hebben van een fotograaf die niet alleen kijkt naar wat je hebt gefotografeerd, maar die ook een onzichtbare, super-slimme assistent heeft. Deze assistent kent de wereld uit duizenden films en kan de ontbrekende stukjes van je foto's invullen met een precisie die voorheen onmogelijk leek, zodat je een compleet en realistisch 3D-beeld krijgt van een scène die je eigenlijk maar heel weinig hebt vastgelegd.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Novel View Synthesis (NVS), het genereren van nieuwe perspectieven van een 3D-scène op basis van een beperkt aantal ingangsfoto's, is cruciaal voor 3D-reconstructie. Bestaande methoden zoals Neural Radiance Fields (NeRF) en 3D Gaussian Splatting (3DGS) presteren goed bij dichte input, maar lijden onder degradatie van prestaties bij zeer schaarse (sparse) en onbeperkte foto's. Dit leidt tot artefacten, ontbrekende gebieden en inconsistenties in de gegenereerde weergaven.

Recente oplossingen gebruiken video-diffusiemodellen om deze problemen aan te pakken door "te hallucineren" wat niet zichtbaar is. Echter, bestaande methoden hebben twee belangrijke beperkingen:

Gebrek aan verschuivingsstabiliteit (shift stability): De gegenereerde frames vertonen inconsistenties bij beweging.
Beperkte detailherstel: Ze hebben moeite om geloofwaardige details te genereren in onderconstrueerde gebieden.
Ondiepe optimalisatie: De meeste huidige methoden fine-tunen alleen het UNet-denoising-deel van diffusiemodellen, terwijl de potentie van de latent space (de interne representatie) van het model onbenut blijft. Dit leidt vaak tot een compromis tussen reconstructiekwaliteit en generatiecapaciteit.

Methodologie

BetterScene introduceert een nieuw raamwerk dat een feed-forward 3D Gaussian Splatting (3DGS) model combineert met een representatie-uitgelijnde en equivariantie-geregulariseerde video-diffusiemodel. De aanpak bestaat uit twee hoofdfasen:

1. Verbeterde Variational Autoencoder (VAE)

Het kernidee is het uitbreiden van de latent space van het diffusiemodel. In plaats van de standaard 4-kanaals VAE (zoals in Stable Video Diffusion), trainen de auteurs een VAE met 64 latent kanalen. Dit lost het probleem op dat hogere dimensies vaak leiden tot slechtere generatieprestaties door twee nieuwe componenten toe te voegen aan het trainingsdoel:

Representatie-uitgelijnde Loss (Representation-Aligned Loss):
- De auteurs gebruiken een vision foundation model (DINOv2) als gids.
- Ze introduceren een cosine similarity loss en een distance similarity loss om de latent representaties van de VAE uit te lijnen met de robuuste visuele features van DINOv2.
- Dit zorgt ervoor dat de latent space flexibeler is en niet beperkt wordt door de standaard Gaussische aannames, waardoor details beter behouden blijven.
Equivariantie Regularisatie (Equivariance Regularization):
- Om tijdsinconsistentie en "scene shifts" te voorkomen, wordt een regularisatieterm toegevoegd die eist dat de latent representatie invariant is onder ruimtelijke transformaties (bijv. rotatie of translatie).
- Formeel: $Z(\tau \circ I) = \tau \circ Z(I)$ . Dit zorgt ervoor dat het model consequente frames genereert zonder plotselinge veranderingen in de scène.

2. BetterScene Pipeline (Stage 2)

Coarse Generation: Een feed-forward 3DGS model (MVSplat) genereert ruwe, nieuwe weergaven en bijbehorende Gaussische features vanuit de schaarse inputfoto's.
Refinement met SVD: Deze ruwe features worden gebruikt als conditionering voor een Stable Video Diffusion (SVD) model.
- Het vooraf getrainde BetterScene-VAE wordt ingevroren.
- Alleen het UNet-denoiser-deel van de SVD wordt gefine-tuned.
- De ruwe Gaussische features worden direct aan de noise-latents gekoppeld, wat supervisie biedt vanuit de ground-truth VAE-embeddings.
Output: Het resultaat is een continue, artefactvrije en visueel consistente nieuwe weergave.

Belangrijkste Bijdragen

Nieuw Framework: Een combinatie van feed-forward 3DGS met een representation-aligned en equivariantie-geregulariseerde video LDM (Latent Diffusion Model) voor NVS.
Uitbuiting van High-Dimensionale Latent Spaces: Door het trainen van een VAE met 64 kanalen onder leiding van vision foundation models en met equivariantie-regularisatie, overwinnen ze het traditionele compromis tussen reconstructie en generatie.
Superieure Prestaties: De methode overtreft bestaande state-of-the-art methoden in zowel fideliteit als visuele kwaliteit, met name in het herstellen van details en het verminderen van artefacten.

Resultaten

De evaluatie vond plaats op de uitdagende DL3DV-10K dataset (real-world scènes).

Kwantitatieve resultaten (5 input views):
- BetterScene behaalde de beste scores op SSIM (0.579), LPIPS (0.347) en FID (16.59) vergeleken met concurrenten zoals MVSplat360 en LatentSplat.
- De PSNR (17.81) was vergelijkbaar met MVSplat360, maar de visuele kwaliteit was aanzienlijk beter.
Ablatie-studie:
- Het verhogen van het aantal latent kanalen van 4 (SD-VAE) naar 64 (BetterScene-VAE) resulteerde in een drastische verbetering van de reconstructiekwaliteit (rFID daalde van 13.83 naar 4.90).
- De 64-kanaals configuratie toonde de meest robuuste detailconsistentie.
Kwalitatieve resultaten:
- BetterScene slaagde erin artefacten effectief te verwijderen en details (zoals tekst op muren) scherper weer te geven dan MVSplat360.
- De gegenereerde video's vertoonden geen sprongen of inconsistente inhoud tussen frames.

Significantie

BetterScene markeert een belangrijke stap voorwaarts in 3D-scènesynthese door in te zien dat de latent space van diffusiemodellen zelf geoptimaliseerd moet worden, en niet alleen het denoising-deel. Door de latent representaties uit te lijnen met visuele foundation modellen en equivariantie af te dwingen, lost het paper fundamentele beperkingen op van huidige NVS-methoden:

Het maakt het mogelijk om fotorealistische nieuwe weergaven te genereren vanuit extreem schaarse input.
Het biedt een oplossing voor het "hallucineren" van plausibele details zonder in te leveren op tijdsconsistentie.
Het demonstreert dat het uitbreiden van de latent dimensie, mits goed geregulariseerd, superieure resultaten oplevert dan de huidige standaard in de gemeenschap.

De auteurs merken op dat de training computatie-intensief is en dat toekomstig werk gericht kan zijn op het vervangen van de huidige pipeline door efficiëntere video-diffusie-architecturen.

BetterScene: 3D Scene Synthesis with Representation-Aligned Generative Model

1. De Basis: Een Snel Schetsje (MVSplat)

2. De Magische Veredelaar (De Video-Diffusie)

3. Het Geheim: De "Super-Resolutie" Kleurpotloden (De VAE)

4. Het Resultaat

Probleemstelling

Methodologie

1. Verbeterde Variational Autoencoder (VAE)

2. BetterScene Pipeline (Stage 2)

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems