Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot hebt die door een drukke, rommelige kamer loopt. Om veilig te bewegen, moet deze robot niet alleen weten waar de muren en vloer zijn (de geometrie), maar ook begrijpen wat voor objecten er staan: is dat een stoel, een stapel boeken, of misschien een verborgen sok?

Vroeger konden robots alleen objecten herkennen die ze tijdens hun "schooltijd" (training) hadden geleerd. Als ze een nieuwe, vreemde voorwerp zagen, zoals een "roze flamingo-sok", wisten ze niet wat het was. Dit noemen we een gesloten vocabulaire.

Deze paper introduceert LegoOcc, een nieuwe manier om robots slim te maken zodat ze elk object kunnen begrijpen, zelfs als ze het nog nooit hebben gezien. Ze kunnen dit doen door gewoon naar een foto te kijken en te vragen: "Waar zit die sok?"

Hier is hoe het werkt, vertaald in alledaagse taal:

1. Het Probleem: De Rommelige Kamer

Indoors (binnen) is alles veel dichter op elkaar gepakt dan buiten op straat. Er zijn veel meer kleine details en objecten. Bestaande methoden die voor auto's op de weg zijn ontworpen, werken hier niet goed. Ze raken in de war door de chaos.

Bovendien is het heel duur en lastig om elke losse sok, elke krant en elke kopje in een kamer handmatig te labelen voor een robot. De auteurs wilden een oplossing die werkt met alleen maar informatie over "is het hier vol of leeg?" (geometrie), zonder dat ze hoeven te weten wat er precies zit.

2. De Oplossing: De "Taal-Ingemaakte" Bellen

De kern van LegoOcc is een slimme techniek die 3D Language-Embedded Gaussians (LE-Gaussians) heet.

De Analogie: Stel je voor dat de kamer niet uit vaste bakstenen bestaat, maar uit miljoenen onzichtbare, zwevende bellen (Gaussians).
Elke bel heeft twee eigenschappen:
1. Zijn vorm en plek: Waar zit hij? Hoe groot is hij? (Dit helpt de robot de ruimte te begrijpen).
2. Zijn "taal-geheugen": Elke bel heeft een klein stukje geheugen dat verbonden is met taal. Als je zegt "stoel", weten de bellen die een stoel vormen wat dat betekent.

3. De Twee Grote Uitdagingen (En hun slimme oplossingen)

De auteurs stuitte op twee problemen bij het laten werken van deze bellen:

Probleem A: De "Dikke" Bel (Geometrie)

Als je probeert te berekenen of een ruimte vol zit door simpelweg de bellen op te tellen, werkt het niet goed als je alleen maar "ja/nee" (vol/leeg) informatie hebt. Het wordt onstabiel, alsof je een toren van kaarten probeert te bouwen op een trillende tafel.

De Oplossing: Ze gebruikten een wiskundig trucje genaamd Poisson.
De Analogie: In plaats van te tellen hoeveel bellen er zijn, kijken ze naar de kans dat er iets gebeurt. Stel je voor dat elke bel een klein lichtje is dat soms flitst. Als er genoeg lichtjes flitsen op één plek, weten we: "Aha, hier is het vol!" Deze methode zorgt ervoor dat de robot de ruimte stabiel en nauwkeurig kan "voelen", zelfs zonder gedetailleerde labels.

Probleem B: De "Grijze" Bel (Betekenis)

Wanneer de robot een foto maakt, vallen de bellen over elkaar heen. Als er een stoel en een tafel dicht bij elkaar staan, worden hun kleuren en betekenissen door elkaar gehaald. Het resultaat is een grijze, onduidelijke mix. De robot weet niet meer of hij naar een stoel of een tafel kijkt.

De Oplossing: Ze noemen dit Progressive Temperature Decay (Gedwongen afkoeling).
De Analogie: Stel je voor dat je een potje verf hebt dat heel vloeibaar is (warm). De kleuren mengen zich makkelijk. De robot begint met deze "warme" fase om rustig te leren. Maar naarmate de training vordert, laten ze de temperatuur zakken. De verf wordt steeds dikker en stroperiger.
Uiteindelijk is de verf zo dik dat de kleuren niet meer kunnen mengen. De bel die bij de stoel hoort, blijft een heldere "stoel-bel", en de tafel-bel blijft een "tafel-bel". Dit zorgt voor scherpe, duidelijke antwoorden.

4. Het Resultaat: De Robot die Alles Begrijpt

Dankzij deze technieken kan LegoOcc:

Kijken naar één foto van een kamer.
Een 3D-kaart maken van alles wat er is (geometrie).
Vragen beantwoorden als: "Waar staat die oude krant?" of "Is er een blauwe vaas?"

Zelfs als de robot tijdens zijn training nooit een "krant" of een "vaas" heeft gezien, kan hij het begrijpen omdat hij de taal en de vorm koppelt.

Samengevat:
LegoOcc is als het geven van een superkracht aan een robot. In plaats van een lijstje met 10 vaste objecten te leren, leert de robot hoe hij de wereld in 3D bouwt met "taal-bellen". Met een slimme wiskundige methode (Poisson) bouwt hij een stabiele wereld, en met een "afkoelingsproces" zorgt hij dat de objecten scherp en duidelijk blijven. Hierdoor kan hij zich veilig en slim verplaatsen in onze complexe, rommelige huizen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Voor embodied agents (zoals service-robots en drones) is een grondig begrip van de 3D-omgeving essentieel. Bestaande methoden voor semantische bezettingsvoorspelling (occupancy prediction) zijn echter vaak beperkt tot een gesloten vocabulaire (closed vocabulary), wat betekent dat ze alleen objecten kunnen herkennen die tijdens het trainen zijn gedefinieerd. Dit is onvoldoende voor real-world toepassingen waar de semantiek van binnenruimten complex, fijnmazig en open-ended is (bijv. specifieke meubelstukken, losse voorwerpen).

Hoewel er vooruitgang is geboekt in open-vocabulary scenario's voor buitenomgevingen (zoals autonoome rijden), falen deze methoden in binnenruimtes vanwege:

Dichtere geometrie: Interieurs hebben complexere structuren en meer occlusies dan wegen.
Fijnmazige semantiek: De categorieën zijn talrijker en vertonen een lange staartverdeling (long-tailed distribution).
Data-tekort: Het annoteren van 3D-semantische labels voor elke voxel is extreem duur en tijdrovend.

Het paper richt zich op het oplossen van dit probleem door monoculaire open-vocabulary bezettingsvoorspelling te realiseren met uitsluitend geometrische supervisie (binair: bezet vs. vrij), zonder gebruik te maken van dure 3D-semantische labels tijdens het trainen.

Methodologie: LegoOcc

De auteurs introduceren LegoOcc, een framework dat 3D Language-Embedded Gaussians (LE-Gaussians) gebruikt als een unificerende tussenrepresentatie. Elke Gaussian koppelt geometrische parameters (positie, rotatie, schaal, dekking/opacity) aan een leerbaar semantisch embedding dat is uitgelijnd met taalmodellen.

Het framework bestaat uit drie kerncomponenten:

1. Poisson-gebaseerde Gaussian-to-Occupancy (G2O)

Bestaande methoden om Gaussians om te zetten naar een bezettingsveld (zoals in GaussianFormer2) gebruiken vaak een Bernoulli-achtige aggregatie die de dekking (opacity) negeert of onstabiel maakt onder zwakke supervisie.

Innovatie: De auteurs introduceren een opacity-aware, Poisson-benadering. Ze behandelen de bijdrage van elke Gaussian als een niet-negatieve gebeurtenisintensiteit in een Poisson-proces.
Werking: De bezettingswaarde van een voxel wordt berekend als de kans dat er ten minste één gebeurtenis is opgetreden in dat volume. Dit leidt tot een stabielere volumetrische aggregatie die consistent is met de dekking die wordt gebruikt voor het renderen van beelden, wat cruciaal is voor training met alleen binair bezettingsverlies.

2. Progressieve Temperatuurverval (Progressive Temperature Decay)

Bij het renderen van LE-Gaussian-features naar een 2D-afbeelding voor semantische uitlijning, treedt er vaak "feature mixing" op: een pixel wordt een gewogen som van meerdere Gaussians langs een straal, wat leidt tot vage semantische signalen.

Innovatie: In plaats van een harde selectie (zoals Top-k), gebruiken de auteurs een temperatuurparameter ( $\tau$ ) in de sigmoid-functie die de dekking (opacity) scherpstelt.
Werking: Ze hanteren een progressieve temperatuurverval-schedule. Tijdens het trainen begint de temperatuur hoog (zachte menging voor stabiele convergentie) en daalt deze exponentieel naar een lage waarde. Hierdoor worden de opaciteiten geleidelijk scherper (richting 0 of 1), wat de feature-menging reduceert en zorgt voor een sterkere uitlijning tussen de 3D-Gaussians en de taal-embeddings, zonder de differentieerbaarheid te verliezen.

3. Trainingsparadigma

Geometrie: Supervisie gebeurt uitsluitend met binaire bezettingslabels (bezet/vrij), afgeleid van dieptereconstructie (bijv. SC-Fusion).
Semantiek: Er worden geen 3D-semantische labels gebruikt. In plaats daarvan worden de gerenderde features van de Gaussians uitgelijnd met features van een vrij trainbaar open-vocabulary segmentatiemodel (zoals Trident) via een cosine-afstandsfunctie. Dit maakt het mogelijk om willekeurige tekstqueries te ondersteunen.

Kernbijdragen

LegoOcc Framework: Het eerste framework dat monoculaire open-vocabulary bezettingsvoorspelling mogelijk maakt voor grote binnenruimtes zonder 3D-semantische annotaties, gebruikmakend van LE-Gaussians.
Poisson-based G2O Operator: Een nieuwe operator die stabiele volumetrische aggregatie garandeert onder binair supervisie, in tegenstelling tot eerdere onstabiele methoden.
Progressive Temperature Decay: Een trainingsstrategie die feature-mixing tijdens het splatting-proces effectief onderdrukt, wat leidt tot scherpere en meer discriminerende 3D-features.
State-of-the-Art Resultaten: Prestaties die alle bestaande methoden overtreffen, zowel in geometrische nauwkeurigheid als semantische generalisatie.

Resultaten

De methode is geëvalueerd op de Occ-ScanNet dataset (een benchmark voor binnenruimtes met 11 semantische klassen).

Open-Vocabulary Prestaties: LegoOcc bereikte een IoU van 59,50% en een mIoU van 21,05%.
Vergelijking:
- Het overtreft bestaande open-vocabulary methoden (zoals POP-3D en LOcc) met een enorme marge (+11,80 mIoU).
- Het presteert zelfs beter dan gesloten-vocabulary methoden die volledig gesuperviseerd zijn met semantische labels (in termen van totale IoU), wat aantoont dat de geometrische supervisie zeer effectief is.
- Het is aanzienlijk sneller dan veel concurrenten (22,47 FPS op een RTX 4090).
Ablatie-studies: Deze bevestigen dat zowel de Poisson-benadering als de progressieve temperatuurverval essentieel zijn voor de hoge prestaties; het verwijderen van deze componenten leidt tot een drastische daling in mIoU.

Betekenis en Impact

Dit werk is een belangrijke stap voorwaarts voor embodied AI. Het lost het probleem op van de afhankelijkheid van dure, gesloten vocabulaire-annotaties voor het trainen van robots in complexe binnenomgevingen.

Real-world Toepasbaarheid: Robots kunnen nu objecten en ruimtelijke lay-outs begrijpen die niet vooraf zijn gedefinieerd, simpelweg door tekstqueries te gebruiken (bijv. "waar is de stoel?" of "is er een vaas op de tafel?").
Efficiëntie: Door te vertrouwen op geometrische supervisie (die makkelijker te schalen is dan semantische annotatie) en een efficiënt Gaussians-based framework, maakt het de weg vrij voor robuuste 3D-perceptie in dynamische, onvoorspelbare binnenruimtes.

Samenvattend biedt LegoOcc een robuust, schaalbaar en semantisch flexibel alternatief voor traditionele 3D-voorspelling, specifiek ontworpen voor de complexiteit van indoor-scenario's.