Joint Optimization for 4D Human-Scene Reconstruction in the Wild

Each language version is independently generated for its own context, not a direct translation.

JOSH: De Digitale Regisseur die Alles Tegelijk Ziet

Stel je voor dat je een gewone video bekijkt van iemand die door een drukke stad loopt. Voor een computer is dit een enorme puzzel. De camera beweegt, de persoon beweegt, en de gebouwen en bomen in de achtergrond lijken ook te bewegen door de perspectiefverandering. De computer moet raden: beweegt die persoon echt, of beweegt de camera? En waar ligt de grond precies?

Tot nu toe waren computers hier niet erg goed in. Ze probeerden de puzzelstukjes één voor één op te lossen: eerst de camera, dan de persoon, dan de achtergrond. Maar net als bij het bouwen van een huis zonder blauwdruk, leidden deze losse stappen vaak tot rare resultaten: mensen die door de grond zakken, of die zweven alsof ze op de maan lopen.

Wat is JOSH?
De onderzoekers van UCLA hebben JOSH bedacht. JOSH staat voor Joint Optimization of Scene Geometry and Human Motion. In het Nederlands kunnen we het zien als een slimme regisseur die niet één voor één, maar alles tegelijk regisseert.

Hier is hoe het werkt, met een paar creatieve vergelijkingen:

1. De "Drie-Dans" (Samenwerken in plaats van los)

Vroeger deden de systemen alsof de camera, de mens en de achtergrond drie aparte dansers waren die elk hun eigen routine deden. Soms stapten ze op elkaars tenen (de mens zakt door de vloer) of ze hielden geen gelijke tred.

JOSH ziet het als één grote, gecoördineerde dans.

De Mens: De danser.
De Camera: De cameraman die rondrent.
De Scène: De dansvloer en de muren.

JOSH zorgt ervoor dat als de danser (de mens) zijn voet neerzet, de dansvloer (de scène) daar ook echt is. Als de cameraman beweegt, past de dansvloer en de danser zich direct aan. Ze "praten" constant met elkaar tijdens het oplossen van de puzzel.

2. De "Magische Magneet" (Contactpunten)

Het geheim van JOSH is een krachtige magneet: contact.
Wanneer iemand op een bankje zit, of op de grond loopt, raakt hun lichaam de wereld aan. JOSH gebruikt deze aanrakingen als ankers.

Als de computer denkt dat de mens zweeft, maar de voeten raken de grond in de video, zegt JOSH: "Nee, wacht even! Als de voet de grond raakt, moet de grond daar ook zijn, en moet de camera op de juiste hoogte staan."
Dit zorgt ervoor dat de reconstructie fysiek logisch wordt. Mensen zakken niet door de grond en zweven niet in de lucht.

3. Van "Ruwe Diamant" naar "Gepolijst Juweel"

Stel je voor dat je een ruwe diamant hebt (de ruwe video van internet).

Oude methoden: Probeerden de diamant te slijpen door eerst de bovenkant, dan de onderkant, dan de zijkant te bewerken. Vaak bleef het er nog steeds lelijk uitzien.
JOSH: Houdt de diamant vast en slijpt alle kanten tegelijkertijd. Door de druk van alle kanten tegelijk toe te passen, ontstaat er een perfect, schitterend juweel.

Waarom is dit zo belangrijk?

1. Het werkt met "gewone" video's
Je hoeft geen dure camera's of laserscanners te gebruiken. JOSH kan werken met video's die je gewoon op YouTube of TikTok vindt. Het kan de wereld reconstrueren vanuit een simpele webcam.

2. Het leert van chaos
Omdat JOSH zo goed is in het oplossen van deze puzzels, kunnen we het gebruiken om duizenden uren aan internetvideo's te analyseren. Het maakt er "perfecte" 3D-data van.

De analogie: Stel je voor dat je een schoolkinder wilt leren hoe mensen lopen. Je kunt ze 100 minuten laten oefenen in een studio (oude methoden), of je kunt ze 10.000 uur laten kijken naar echte mensen die overal ter wereld lopen, en JOSH helpt hen om die bewegingen perfect te begrijpen.

3. De toekomst: JOSH3R
De onderzoekers hebben ook een snellere versie gemaakt, genaamd JOSH3R.

JOSH is als een meester-detective die langzaam en zorgvuldig elke aanwijzing onderzoekt om het perfecte verhaal te reconstrueren.
JOSH3R is als een getrainde agent die, door te kijken naar de patronen die JOSH heeft geleerd, het verhaal in realtime kan voorspellen. Dit is essentieel voor toekomstige toepassingen, zoals robots die in onze wereld kunnen lopen of virtuele werelden die direct reageren op wat jij doet.

Samenvattend:
JOSH is een doorbraak omdat het stopt met het oplossen van de wereld in losse stukjes. Het ziet de mens, de camera en de omgeving als één groot, samenhangend geheel. Hierdoor kunnen we voor het eerst realistische 3D-werelden maken van gewone video's, wat een enorme stap is voor robotica, virtual reality en het begrijpen van hoe mensen zich in onze wereld bewegen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het reconstrueren van menselijke beweging en de omringende omgeving uit enkele monokulaire video's (webvideo's) is een fundamentele uitdaging in computer vision. Bestaande methoden hebben vaak te kampen met de volgende beperkingen:

Gescheiden optimalisatie: Traditionele benaderingen optimaliseren camera-pose, menselijke beweging en scène-reconstructie als aparte taken of in sequentiële stappen. Dit negeert de sterke onderlinge afhankelijkheid en wederzijdse versterking tussen deze elementen.
Gebrek aan fysische consistentie: Door de scheiding tussen mens en scène ontstaan vaak onrealistische interacties, zoals menselijke ledematen die door de grond "zinken" (foot penetration) of glijden (foot sliding), omdat de fysieke contactpunten niet strikt worden opgelegd.
Beperkte data: Hoewel webvideo's een rijke bron van data vormen, ontbreken er betrouwbare ground-truth annotaties voor globale menselijke beweging in de echte wereld. Bestaande datasets zijn vaak klein, beperkt tot gecontroleerde omgevingen of missen diverse scènes.

Het doel van dit werk is om een robuust framework te ontwikkelen dat 4D mens-scène reconstructie (3D ruimte + tijd) uitvoert op "in-the-wild" video's, waarbij camera, scène en mens gelijktijdig en consistent worden gereconstrueerd.

Methodologie: JOSH

De auteurs stellen JOSH (Joint Optimization of Scene Geometry and Human Motion) voor, een generalisatie-optimalisatieframework dat alle parameters in één enkele fase optimaliseert.

1. Initialisatie:
JOSH start met off-the-shelf modellen om initiële schattingen te genereren:

Dicht puntwolk & Correspondenties: Verkregen via modellen zoals DROID-SLAM, MonST3R of MASt3R. Menselijke objecten worden uitgesloten (gemaskerd) met een video-segmentatiemodel (DEVA) om ruis in de dieptekaart te voorkomen.
Lokale Menselijke Mesh: Initieel geschat met modellen zoals HMR2.0, WHAM of VIMO.
Contactlabels: Voorspeld met BSTRO om te bepalen welke delen van het menselijk lichaam (bijv. voeten, handen) contact maken met de omgeving.

2. Gezamenlijke Optimalisatie (Joint Optimization):
In plaats van sequentiële stappen, optimaliseert JOSH alle variabelen tegelijkertijd: camera-intrinsiek ( $K_t$ ), camera-extrinsiek ( $P_t$ ), schaal ( $\sigma_t$ ), dieptekaarten ( $Z_t$ ) en lokale SMPL-parameters ( $\Theta_c$ ) voor alle mensen in de scène.

De kern van de methode ligt in het gebruik van mens-scène contact als sterke constraints via een nieuwe loss-functie:

Contact Scene Loss ( $L_{c1}$ ): Deze loss zorgt ervoor dat de geprojecteerde contactpunten op het menselijk mesh en de dichtstbijzijnde punten in de achtergrond-puntwolk fysiek dicht bij elkaar liggen. Dit elimineert diepte-ambiguïteiten en zorgt voor fysisch plausibele interacties.
Contact Static Loss ( $L_{c2}$ ): Als een contactpunt over meerdere frames behouden blijft, wordt deze loss gebruikt om te forceren dat het contactpunt statisch blijft ten opzichte van de scène. Dit voorkomt "glijdende" bewegingen (foot sliding).
Focus Lengte Optimalisatie: Een uniek aspect is dat JOSH ook de camera brandpuntsafstand ( $f$ ) optimaliseert. Omdat de geschatte diepte van menselijke modellen evenredig is met de brandpuntsafstand, helpt het gezamenlijk optimaliseren van $f$ en de menselijke diepte om schaalfouten te corrigeren die bij vaste brandpuntsafstanden vaak optreden.

De totale loss-functie combineert:

Scène-reconstructie loss (3D en 2D reprojectie).
Menselijke prior loss (temporele gladheid, SMPL-priors, 2D-keypoint reprojectie).
De nieuwe mens-scène contact losses ( $L_{c1}, L_{c2}$ ).

3. JOSH3R (End-to-End Model):
Om schaalbaar te trainen op webvideo's zonder ground-truth, gebruiken de auteurs JOSH om "pseudo-labels" te genereren voor ongeveer 20 uur aan webvideo's. Op basis hiervan trainen ze JOSH3R, een end-to-end model dat direct relatieve menselijke transformaties voorspelt tussen frames, gebaseerd op de architectuur van MASt3R. Dit maakt real-time inferentie mogelijk.

Belangrijkste Resultaten

De experimenten zijn uitgevoerd op datasets zoals SLOPER4D, EMDB en RICH.

Verbeterde 4D Reconstructie: JOSH overtreft de state-of-the-art baseline (SynCHMR) significant. Bijvoorbeeld, op de SLOPER4D dataset reduceert JOSH3 (geïnitialiseerd met VIMO en MASt3R) de fout in globale menselijke beweging (WA-MPJPE) met 46,6% en de Chamfer Distance (scène-reconstructie) met 70,1% ten opzichte van SynCHMR.
Fysische Plausibiliteit: Er is een drastische verbetering in fysieke consistentie. Het "foot floating rate" (voeten zweven boven de grond) daalt van 9,0% naar 3,3%, en "foot sliding" (glijden) wordt sterk gereduceerd.
State-of-the-Art Menselijke Beweging: JOSH3 bereikt een nieuwe state-of-the-art op de EMDB dataset met een W-MPJPE van 174,7 mm, wat een duidelijke verbetering is ten opzichte van eerdere methoden zoals WHAM en TRAM.
Schaalbaar Trainen: Het end-to-end model JOSH3R, getraind op pseudo-labels gegenereerd door JOSH uit webvideo's, presteert beter dan modellen getraind op bestaande ground-truth datasets (EMDB). Dit bewijst dat JOSH effectief kan worden gebruikt om grote, diverse datasets te creëren voor het trainen van robuuste modellen.
Efficiëntie: Hoewel JOSH zelf een optimalisatieproces is (0,8 FPS), is het afgeleide end-to-end model JOSH3R zeer snel (15,4 FPS), wat real-time toepassing mogelijk maakt.

Bijdragen

JOSH Framework: Een algemeen optimalisatieframework dat camera-pose, globale menselijke beweging en scène-reconstructie gezamenlijk optimaliseert in één stap, gebruikmakend van mens-scène contact als cruciale constraint.
Prestatieverbetering: Aantonen dat gezamenlijke optimalisatie leidt tot aanzienlijk betere resultaten in zowel menselijke bewegingsschatting als dichte scène-reconstructie vergeleken met gescheiden methoden.
Schaalbare Pseudo-labeling: Het demonstreren dat JOSH kan worden gebruikt om nauwkeurige pseudo-labels te genereren voor webvideo's, wat leidt tot end-to-end modellen (JOSH3R) die beter presteren dan modellen getraind op traditionele datasets.
Open Source: De publicatie van code en modellen om reproduceerbaarheid en verdere ontwikkeling te stimuleren.

Betekenis

Dit werk is van groot belang voor het veld van computer vision en 3D-reconstructie. Het doorbreekt de beperking van gescheiden optimalisatie en toont aan dat mens-scène interacties (contact) een krachtige bron van geometrische informatie zijn die kan worden gebruikt om alle aspecten van een video (camera, mens, omgeving) simultaan en consistent te reconstrueren.

De mogelijkheid om nauwkeurige 4D-reconstructies te genereren uit ongeordende webvideo's opent de deur voor:

Autonome systemen: Betere begrip van hoe voetgangers interageren met hun omgeving voor autonoom rijden.
Stedelijke planning: Analyse van menselijke stromen en interacties in openbare ruimtes.
VR/AR en Gaming: Het creëren van realistische, fysiek correcte menselijke animaties in diverse omgevingen.
Data-gedreven onderzoek: Het bieden van een methode om grote, diverse datasets te creëren voor het trainen van toekomstige AI-modellen, waar het verzamelen van ground-truth data vaak onmogelijk of te duur is.

Kortom, JOSH biedt een robuuste en schaalbare oplossing voor het begrijpen van menselijke dynamiek in de echte wereld, waarbij de fysieke wetten van interactie centraal staan.

Joint Optimization for 4D Human-Scene Reconstruction in the Wild

1. De "Drie-Dans" (Samenwerken in plaats van los)

2. De "Magische Magneet" (Contactpunten)

3. Van "Ruwe Diamant" naar "Gepolijst Juweel"

Waarom is dit zo belangrijk?

Probleemstelling

Methodologie: JOSH

Belangrijkste Resultaten

Bijdragen

Betekenis

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation