SelfOccFlow: Towards end-to-end self-supervised 3D Occupancy Flow prediction

Each language version is independently generated for its own context, not a direct translation.

SelfOccFlow: De "Geest van de Straat" die alles ziet en begrijpt

Stel je voor dat een zelfrijdende auto een blindeman is die probeert te wandelen door een drukke stad. Hij heeft alleen maar camera's (ogen) om de wereld te zien, maar hij kan niet voelen wat er om hem heen gebeurt. Hij moet raden: "Is dat een geparkeerde auto? Beweegt die fiets? En wat zit er achter die bus?"

Meer dan dat: hij moet niet alleen weten waar de dingen zijn, maar ook waarheen ze gaan. Dit noemen we 3D-bezetting en stroom (3D occupancy flow).

De meeste huidige systemen zijn als een student die alleen kan leren als een leraar (een mens) elke seconde urenlang de wereld in detail uitlegt en labels plakt op elke auto en voetganger. Dat is duur, tijdrovend en niet schaalbaar.

SelfOccFlow is de oplossing: het is een auto die zichzelf leert zonder hulp van een leraar. Het kijkt gewoon naar de video van de straat en leert van de patronen die het ziet.

Hier is hoe het werkt, vertaald naar alledaagse beelden:

1. Het Grote Splitsen: De Statische Muur vs. De Dansende Dingen

De wereld bestaat uit twee soorten dingen:

Statisch: De weg, gebouwen, bomen. Dit verandert niet.
Dynamisch: Auto's, fietsers, mensen. Dit beweegt.

Oude systemen probeerden alles door elkaar te halen, wat verwarrend was. SelfOccFlow doet alsof het twee verschillende hersenen heeft:

Hersen 1 (Statisch): Kijkt alleen naar de dingen die stil staan. Omdat de weg niet beweegt, kan de auto kijken naar hoe de weg er gisteren uitzag, vandaag en morgen, en zo een perfect 3D-kaart maken, zelfs van plekken die nu door een bus worden geblokkeerd.
Hersen 2 (Dynamisch): Kijkt alleen naar de bewegende dingen.

Door deze twee te scheiden, kan de auto de "stille" wereld gebruiken als een anker om de "bewegende" wereld nauwkeurig te volgen.

2. De Tijd-Machine: Kijken naar Gisteren en Morgen

Stel je voor dat je door een raam kijkt en een auto voorbij ziet rijden. Als je alleen naar één foto kijkt, weet je niet hoe snel hij ging. Maar als je kijkt naar de foto van één seconde geleden en één seconde later, zie je de beweging.

SelfOccFlow doet dit continu. Het pakt beelden van de tijd t, t-1 (gisteren) en t+1 (morgen).

Voor de statische wereld (de weg) pakt het gewoon de beelden en legt ze op elkaar. Als ze overeenkomen, weet het: "Ja, dit is de weg."
Voor de bewegende wereld (de auto's) moet het iets slimme doen. Het moet de beelden van gisteren en morgen "verschuiven" (warpen) om te zien waar de auto nu is. Door te proberen deze beelden perfect op elkaar te laten passen, leert de auto vanzelf hoe snel en in welke richting de objecten bewegen. Het is alsof je een film terugdraait en vooruitspoelt om de beweging te begrijpen.

3. De "Spiegel-Test": Zelfgemaakte Hints

Het grootste probleem bij het zelf leren is: "Hoe weet ik of ik het goed heb als er geen leraar is?"

SelfOccFlow gebruikt een slimme truc, een soort spiegel-test.
Het kijkt naar de beelden van nu en de beelden van een seconde geleden. Het vraagt zich af: "Als ik dit stukje van de auto nu zie, waar zag ik datzelfde stukje een seconde geleden?"

Het zoekt in de buurt naar het meest vergelijkbare stukje beeld (zoals het zoeken naar een match in een puzzel). Als het beeld van nu overeenkomt met het beeld van gisteren op een bepaalde plek, dan is dat de beweging!

Analogie: Stel je voor dat je een foto van een danser maakt. Vervolgens maak je een foto een fractie van een seconde later. Als je kijkt waar de hand nu is en waar hij een fractie geleden was, kun je de beweging afleiden zonder dat iemand je vertelt "de hand gaat naar links". SelfOccFlow doet dit met miljoenen puntjes tegelijk.

4. Waarom is dit zo speciaal?

Geen dure labels: Je hoeft geen menselijke experts te betalen om urenlang 3D-modellen te tekenen.
Geen externe hulpmiddelen: Veel andere systemen gebruiken al getrainde "optische stroom"-modellen (software die al weet hoe beweging werkt). SelfOccFlow leert dit zelf, van nul af.
Beter in het donker: Omdat het de statische wereld gebruikt als anker, kan het zelfs de vorm van objecten achter andere objecten (occlusie) raden. Het weet dat er een weg moet zijn achter die bus, omdat de weg overal anders ook bestaat.

Samenvatting

SelfOccFlow is als een slimme, nieuwsgierige leerling die in plaats van een handboek te lezen, gewoon naar de wereld kijkt. Door te scheiden tussen wat stil staat en wat beweegt, en door slim te kijken naar hoe beelden in de tijd verschuiven, leert het auto's om een volledig 3D-landschap te begrijpen en te voorspellen waar alles naartoe gaat – allemaal zonder dat iemand het ooit heeft verteld.

Het is de stap van "kijken met een instructieboekje" naar "kijken en begrijpen door zelf te observeren".

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Voor autonoom rijden is het essentieel om zowel de 3D-bezetting (occupancy) als de beweging (flow) van objecten in de omgeving van het voertuig te schatten. Bestaande methoden voor 3D-occupancy flow hebben echter te maken met belangrijke beperkingen:

Afhankelijkheid van dure annotaties: Veel modellen vereisen menselijk gegenereerde 3D-occupancy-annotaties of flow-labels, wat extreem kostbaar en tijdrovend is.
Afhankelijkheid van externe supervisie: Andere benaderingen vertrouwen op voorgeïmplementeerde optische flow-modellen (2D) of snelheidslabels van bounding boxes om beweging te leren.
Inconsistenties in dynamische scènes: Het schatten van geometrie alleen is vaak onvoldoende in dynamische omgevingen, maar het gezamenlijk leren van geometrie en beweging zonder labels is uitdagend vanwege de vrijheidsgraden die beweging introduceert.

Het doel van dit werk is een methode te ontwikkelen die end-to-end zelftoezichtend (self-supervised) 3D-occupancy flow voorspelt, zonder menselijke annotaties, flow-labels of voorgeïmplementeerde optische flow-modellen.

Methodologie

De voorgestelde methode, SelfOccFlow, lost het probleem op door de scène te ontleden in statische en dynamische componenten en beweging impliciet te leren via tijdsaggregatie en een nieuwe zelftoezichtende signaal.

1. Statisch-Dynamische Ontleding (Disentanglement)

In plaats van beweging als basis te nemen voor ontleding (zoals bij dynamische NeRFs), ontleden de auteurs de scène op basis van semantische klassen (bijv. auto's, voetgangers vs. weg, gebouwen).

SDF's: Er worden twee aparte Signed Distance Fields (SDF) voorspeld: een statische SDF ( $\phi_s$ ) en een dynamische SDF ( $\phi_d$ ).
Blending: De totale scène wordt gevormd door het minimum van beide velden: $\phi_b = \min(\phi_s, \phi_d)$ . Dit wordt differentieerbaar benaderd via een softmax-functie.
Straal-classificatie: Supervisie-stralen (rays) worden geclassificeerd als statisch of dynamisch door een generiek beeld-foundation model (Grounded-SAM) te gebruiken om dynamische maskers te genereren. LiDAR-punten die binnen deze maskers vallen, worden als dynamisch gelabeld; de rest als statisch.

2. Tijdsaggregatie en Implicit Flow Learning

Om consistentie tussen frames te garanderen en beweging te leren, wordt een tijdsaggregatiemechanisme toegepast:

Statisch veld: Omdat statische objecten niet bewegen, worden de SDF-predicties van aangrenzende frames ( $t-1, t, t+1$ ) direct samengevoegd na uitlijning op basis van de ego-beweging.
Dynamisch veld: Voor dynamische objecten worden de stralen van aangrenzende frames eerst vervormd (warped) op basis van de geschatte flow ( $f_{t-}, f_{t+}$ ) voordat ze worden samengevoegd.
Impliciet leren: Door de geometrische verliezen (zoals fotometrisch en LiDAR-verlies) toe te passen op dit samengevoegde dynamische veld, wordt de flow-head impliciet getraind om accurate beweging te voorspellen om de consistentie te maximaliseren.

3. Zelftoezichtende Similarity Flow Loss

Om de flow te stabiliseren zonder externe labels, introduceren de auteurs een Similarity Flow Loss ( $\mathcal{L}_{sim}$ ):

Principe: De methode vergelijkt de BEV-features (Bird's Eye View) van het dynamische veld tussen het huidige frame en aangrenzende frames.
Pseudo-labels: Voor elke cel wordt de cosine-similariteit berekend met naburige cellen in het vorige/volgende frame binnen een zoekvenster. De verplaatsing van de meest vergelijkbare buur wordt gebruikt als een pseudo-flow-label.
Consistentie: Een gewichtsfactor wordt toegepast die de loss verlaagt waar de voorwaartse en achterwaartse flow-pseudo-labels niet overeenkomen, om ruis in de vroege trainingsfase te verminderen.

Belangrijkste Bijdragen

Eerste volledig zelftoezichtende 3D-occupancy flow methode: Het is de eerste aanpak die geometrie en beweging gezamenlijk leert zonder occupancy-labels, flow-annotaties of voorgeïmplementeerde 2D-optische flow-modellen.
Semantische ontleding: Een nieuwe strategie om statische en dynamische SDF's te scheiden op basis van semantiek in plaats van beweging, wat leidt tot stabielere training en betere geometrie in occlusies.
Per-veld tijdsaggregatie: Een mechanisme dat statische en dynamische velden apart verwerkt, waarbij dynamische velden worden vervormd door flow om impliciet beweging te leren.
Similarity Flow Loss: Een nieuwe zelftoezichtende loss-functie die flow-pseudo-labels genereert uit de cosine-similariteit van features, wat de convergentie van de flow-head mogelijk maakt.

Resultaten

De methode is geëvalueerd op drie grote datasets: SemanticKITTI, KITTI-MOT en nuScenes.

SemanticKITTI (3D Occupancy): Het model behaalde een verbetering van +4,39% in RayIoU ten opzichte van een versie zonder tijdsaggregatie en flow-loss. Het presteerde beter dan bestaande methoden zoals LetOccFlow, vooral bij kleine dynamische objecten en in occlusies (bijv. achter geparkeerde auto's).
KITTI-MOT (Flow & Occupancy): Zelfs zonder 2D-optische flow-supervisie, behaalde het model concurrerende resultaten in diepte- en flow-schatting. Het toonde ook goede generalisatievermogen toen getraind op SemanticKITTI en direct getest op KITTI-MOT zonder fine-tuning.
nuScenes (State-of-the-Art): Het model verbeterde de RayIoU met +1,73% ten opzichte van OccNet en verlaagde de Mean Average Velocity Error (mAVE) met 7,7% ten opzichte van LetOccFlow, wat een nieuwe state-of-the-art neerzet voor 3D-occupancy flow op deze dataset.
Efficiëntie: Het model is aanzienlijk lichter dan LetOccFlow (32,4M parameters vs. 253,3M) en is 3,6x sneller in inferentie (3,78 FPS vs. 1,04 FPS op een V100 GPU), dankzij het gebruik van een BEV-representatie in plaats van zware 3D-convoluties.

Significantie

SelfOccFlow vertegenwoordigt een belangrijke stap naar end-to-end zelftoezichtende 3D-perceptie voor autonoom rijden. Door de afhankelijkheid van dure menselijke annotaties en externe flow-modellen te elimineren, maakt deze methode schaalbare training mogelijk op grote datasets. De combinatie van semantische ontleding en zelftoezichtende flow-cues biedt een robuuste oplossing voor het gezamenlijk schatten van geometrie en beweging in complexe, dynamische omgevingen, wat cruciaal is voor de veiligheid en situational awareness van autonome voertuigen.