SelfOccFlow: Towards end-to-end self-supervised 3D Occupancy Flow prediction

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Die „versteckte" Welt des autonomen Fahrens

Stell dir vor, du fährst ein Auto, das nicht nur sieht, wo andere Autos sind, sondern auch, wohin sie sich bewegen. Das ist wie ein 3D-Radar, das die ganze Welt um dich herum in kleine Würfel (Voxel) zerlegt.

Das Problem bei den bisherigen Methoden war: Um dieses System zu trainieren, brauchten die Entwickler riesige Mengen an teuren, von Menschen handgemachten „Hausaufgaben". Jemand musste stundenlang vor dem Computer sitzen und jedes Pixel in 3D markieren und sagen: „Das ist ein Auto, das bewegt sich 5 km/h nach links." Das ist teuer, langsam und schwer zu skalieren.

Andere Methoden versuchten, das mit fertigen 2D-Optik-Fluss-Modellen zu lösen (wie ein extra Auge, das nur auf flache Bilder schaut), aber das war auch nicht perfekt.

Die Lösung: SelfOccFlow – Der „Selbstlernende" Detektiv

Die Autoren von SelfOccFlow haben eine clevere Idee entwickelt: Warum sollte das Auto nicht einfach aus sich selbst heraus lernen, wie die Welt aussieht und wie sie sich bewegt? Sie nennen das „selbstüberwacht" (self-supervised). Das System braucht keine menschlichen Hausaufgaben mehr.

Hier ist, wie es funktioniert, mit ein paar Analogien:

1. Die Trennung von „Statisch" und „Dynamisch" (Das Kino-Prinzip)

Stell dir eine Straßenszene vor. Es gibt Dinge, die stehen fest (Bäume, Häuser, die Straße) und Dinge, die sich bewegen (Autos, Fußgänger).
Früher versuchten die Computer, alles durcheinander zu lernen. Das war wie ein verwirrter Maler, der versucht, ein stehendes Haus und ein vorbeifahrendes Auto auf einmal zu malen, ohne zu wissen, was was ist.

SelfOccFlow macht etwas Cleveres: Es teilt die Szene in zwei separate „Schichten" auf:

Schicht A (Statisch): Hier lernt das System nur die unbeweglichen Dinge. Da diese Dinge nicht weglaufen, kann das Auto sie aus verschiedenen Blickwinkeln über die Zeit hinweg perfekt vermessen.
Schicht B (Dynamisch): Hier lernt das System nur die beweglichen Dinge.

Die Analogie: Stell dir vor, du filmst einen Fluss. Das Wasser (dynamisch) fließt, aber die Felsen im Flussbett (statisch) bleiben. Wenn du zwei Bilder machst, kannst du die Felsen leicht vergleichen, weil sie sich nicht bewegt haben. Das Wasser hingegen hat sich verschoben. SelfOccFlow lernt, diese beiden Dinge getrennt zu betrachten, damit es nicht verwirrt wird.

2. Der Trick mit der Zeit (Das „Zeit-Reisende")

Das System schaut nicht nur auf das Bild jetzt, sondern auch auf das Bild eine Sekunde vorher und eine Sekunde später.

Für die statischen Dinge (Bäume) vergleicht es einfach die Bilder. Wenn ein Baum in Bild 1 und Bild 2 an derselben Stelle ist, weiß das System: „Aha, das ist ein fester Punkt."
Für die beweglichen Dinge (Autos) ist es schwieriger. Das Auto ist in Bild 1 links und in Bild 2 rechts. Das System muss herausfinden: „Wie weit ist das Auto gelaufen?"

Hier kommt der Flow-Warping-Trick ins Spiel: Das System versucht, das Bild des Autos aus der Vergangenheit so zu „verzerren" (zu wickeln), dass es perfekt auf das aktuelle Bild passt. Wenn es das schafft, hat es die Bewegung (den Flow) berechnet.

3. Der „Spiegel-Effekt" (Die Selbstüberwachung)

Das ist der genialste Teil. Wie weiß das System, ob seine Bewegungsschätzung richtig ist, wenn es keine Antwort vom Lehrer (den Daten) bekommt?

Es nutzt einen Spiegel-Effekt:
Das System schaut sich die Merkmale (Features) eines Autos im aktuellen Bild an und vergleicht sie mit dem Bild der Sekunde davor.

Frage: „Welches Pixel im alten Bild sieht am ähnlichsten aus wie dieses Pixel hier?"
Antwort: „Das Pixel, das genau dort ist, wo das Auto jetzt ist."

Wenn das System die Bewegung richtig berechnet hat, passen die Bilder perfekt zusammen. Wenn es falsch liegt, sehen die Bilder wie ein schlechter Doppelbelichtung aus. Das System nutzt diesen „Unschärfe-Effekt" als Bestrafung. Es lernt also: „Wenn die Bilder nicht zusammenpassen, habe ich die Bewegung falsch berechnet."

Die Analogie: Stell dir vor, du versuchst, ein Puzzle zu lösen, ohne die Bildvorlage zu haben. Du nimmst zwei Puzzleteile und verschiebst sie gegeneinander. Wenn sie perfekt ineinander greifen, hast du die richtige Position gefunden. Wenn sie nicht passen, weißt du, dass du sie noch bewegen musst. Das System macht das millionenfach pro Sekunde mit jedem Punkt in der 3D-Welt.

Warum ist das so wichtig?

Kein menschlicher Aufwand mehr: Man braucht keine Teams von Menschen mehr, die 3D-Modelle manuell zeichnen. Das System lernt aus den Rohdaten der Kamera.
Besser in schwierigen Situationen: Da es die statische Welt (Bäume, Häuser) so gut versteht, kann es auch Bereiche „erraten", die gerade verdeckt sind (z. B. was hinter einem großen LKW versteckt ist), indem es die Zeit nutzt.
Schneller und effizienter: Das System ist so gebaut, dass es weniger Rechenleistung braucht als die bisherigen Champions (wie LetOccFlow). Es ist leichter und schneller.

Zusammenfassung

SelfOccFlow ist wie ein autodidaktischer Navigator für autonome Fahrzeuge. Anstatt sich von einem Lehrer alles vorrechnen zu lassen, schaut es sich die Welt an, trennt das, was steht, von dem, was läuft, und nutzt die Zeit als Maßstab, um zu lernen, wie sich alles bewegt. Es ist ein großer Schritt hin zu autonomen Fahrzeugen, die wirklich „sehen" und „verstehen", ohne dass wir ihnen jeden einzelnen Schritt erklären müssen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Schätzung von 3D-Besetztheit (Occupancy) und Bewegung (Flow) in der Umgebung eines autonomen Fahrzeugs ist entscheidend für die Situationswahrnehmung in dynamischen Umgebungen. Bestehende Ansätze zur gemeinsamen Vorhersage von Geometrie und Bewegung leiden unter folgenden Einschränkungen:

Abhängigkeit von teuren Annotationen: Viele Methoden benötigen manuell erstellte 3D-Besetztheits-Labels oder Fluss-Annotationen, die extrem aufwendig zu erstellen sind.
Abhängigkeit von externen Modellen: Andere Ansätze (z. B. LetOccFlow) nutzen vortrainierte 2D-optische Flussmodelle, um Pseudo-Labels zu generieren, was die Skalierbarkeit einschränkt und externe Abhängigkeiten schafft.
Dynamische Objekte: Die Trennung von statischer und dynamischer Geometrie ist schwierig, da sich bewegende Objekte (z. B. Fahrzeuge, Fußgänger) die zeitliche Konsistenz und die geometrische Rekonstruktion stören können.

Das Ziel dieser Arbeit ist es, eine vollständig selbstüberwachte (self-supervised) Methode zur 3D-Besetztheits- und Flussvorhersage zu entwickeln, die weder menschliche Annotationen noch externe Flussmodelle benötigt.

2. Methodik

Das vorgestellte Framework, SelfOccFlow, basiert auf neuronalen Feldern (Neural Fields) und nutzt Spatio-Temporal-Konsistenz sowie fundamentale Modell-gestützte Selbstüberwachung.

A. Entkopplung von statischen und dynamischen Szenen

Anstatt die Szene nur nach instantaner Bewegung zu trennen (was bei parkenden Autos, die sich später bewegen, zu Ambiguitäten führt), entkoppelt das Modell die Szene basierend auf semantischen Klassen:

Es werden zwei separate Signed Distance Fields (SDFs) vorhergesagt: ein statisches SDF ( $\phi_s$ ) und ein dynamisches SDF ( $\phi_d$ ).
Das gemischte SDF ( $\phi_b$ ) wird als Minimum der beiden Felder approximiert, um Differenzierbarkeit zu gewährleisten.
Ray-Klassifizierung: Mithilfe eines generischen Bild-Foundation-Modells (Grounded-SAM) werden dynamische Klassen (z. B. Auto, Fußgänger) maskiert. LiDAR-Strahlen werden basierend auf diesen Masken in statische und dynamische Strahlen unterteilt, um die jeweiligen SDFs zu überwachen.

B. Zeitliche Aggregation (Temporal Aggregation)

Um zeitliche Konsistenz zu erzwingen, werden Vorhersagen aus benachbarten Zeitpunkten ( $t-1, t, t+1$ ) aggregiert:

Statisches Feld: Da statische Elemente stationär sind, werden die Felder direkt nach Ausrichtung mit der Eigenbewegung (Ego-Motion) gemittelt. Dies verbessert die Geometrie in verdeckten Bereichen.
Dynamisches Feld: Hier wird der vorhergesagte Fluss genutzt, um die Abtastpositionen der benachbarten Frames zu verzerren (Warping). Die Aggregation erfolgt nur in dynamisch besetzten Regionen. Dies erzwingt implizit das Lernen des Flusses, da die geometrischen Verluste nur dann minimiert werden, wenn der Fluss korrekt ist.

C. Selbstüberwachter Fluss-Verlust (Similarity Flow Loss)

Da keine externen Fluss-Labels vorhanden sind, wird ein neuer Verlustterm ( $\mathcal{L}_{sim}$ ) eingeführt:

Es werden die Cosinus-Ähnlichkeiten zwischen den dynamischen BEV-Features (Bird's-Eye-View) des aktuellen Frames und den benachbarten Frames berechnet.
Der Versatz des ähnlichsten Nachbarn in einem Suchfenster ( $N \times N$ ) dient als Pseudo-Label für den Fluss.
Dieser Verlust wird durch eine Konsistenz-Weighting-Funktion gewichtet, um Inkonsistenzen zwischen Vorwärts- und Rückwärtsfluss zu berücksichtigen.

D. Ray-basierte Überwachung

Das Modell wird durch Strahlen (Rays) von Kameras und LiDAR überwacht:

Fotometrischer Verlust ( $\mathcal{L}_{photo}$ ): Nutzt Photometrie und Depth-Loss (erweitert über die epipolare Linie) für die Kamera.
LiDAR-Loss ( $\mathcal{L}_{lidar}$ ): Überwacht die Distanz der vorhergesagten Tiefe mit den gemessenen LiDAR-Werten. Statische Strahlen können aus mehreren Zeitpunkten stammen, dynamische nur aus dem aktuellen Frame, um Inkonsistenzen zu vermeiden.

3. Hauptbeiträge

Entkoppelte SDFs: Ein Modell, das statische und dynamische SDFs explizit trennt, was das Lernen der Geometrie in verdeckten Bereichen durch statische Strahlen aus Nachbarn ermöglicht.
Implizites Flusslernen: Durch zeitliche Aggregation mit Fluss-Warping auf dem dynamischen Feld wird der Fluss implizit gelernt, ohne externe Fluss-Labels.
Selbstüberwachter Fluss-Cue: Ein neuer Verlustmechanismus basierend auf der Ähnlichkeit von Features (Cosine Similarity), der als Pseudo-Label für den Fluss dient und die Notwendigkeit von vortrainierten optischen Flussmodellen eliminiert.
End-to-End Selbstüberwachung: Der erste Ansatz für 3D-Occupancy-Flow, der vollständig ohne Occupancy-Labels, Fluss-Annotationen oder externe Flussnetzwerke auskommt.

4. Ergebnisse

Das Modell wurde auf drei Datensätzen evaluiert: SemanticKITTI, KITTI-MOT und nuScenes.

SemanticKITTI (3D Occupancy): Das Modell erreicht einen RayIoU von 50,20 %, was eine Verbesserung von +3,14 % gegenüber dem aktuellen State-of-the-Art (LetOccFlow) darstellt. Es zeigt besonders gute Ergebnisse bei kleinen dynamischen Objekten und in verdeckten Bereichen.
KITTI-MOT (Occupancy Flow): Obwohl keine Ground-Truth-Flussdaten vorhanden sind, erzielt das Modell die besten Ergebnisse bei der Tiefenschätzung (DE) und wettbewerbsfähige Ergebnisse beim optischen Fluss (EPE), ohne 2D-Fluss-Überwachung zu nutzen. Es generalisiert gut, wenn es auf SemanticKITTI trainiert und direkt auf KITTI-MOT getestet wird.
nuScenes (3D Occupancy Flow): Das Modell verbessert den RayIoU um +1,73 % gegenüber OccNet und reduziert den mittleren Geschwindigkeitsfehler (mAVE) um 7,7 % im Vergleich zu LetOccFlow, wodurch ein neuer State-of-the-Art für 3D-Occupancy-Flow auf nuScenes erreicht wird.
Effizienz: Im Vergleich zu LetOccFlow ist SelfOccFlow deutlich effizienter:
- Parameter: 32,4 M vs. 253,3 M.
- FPS: 3,78 vs. 1,04 (auf einer V100 GPU).
- FLOPs: 405 G vs. 3202 G.

5. Bedeutung und Fazit

SelfOccFlow stellt einen bedeutenden Schritt in Richtung end-to-end selbstüberwachter 3D-Wahrnehmung dar. Durch die Eliminierung der Abhängigkeit von teuren manuellen Annotationen und externen Flussmodellen macht es die Entwicklung robuster 3D-Perzeptionssysteme skalierbarer und kostengünstiger. Die Methode demonstriert, dass durch geschickte Nutzung von zeitlicher Konsistenz und semantischer Entkopplung komplexe Aufgaben wie die gemeinsame Vorhersage von Geometrie und Bewegung in dynamischen Umgebungen effektiv gelöst werden können. Die signifikanten Verbesserungen in der Genauigkeit bei gleichzeitig drastisch reduzierter Rechenkomplexität unterstreichen das Potenzial für den Einsatz in Echtzeit-Systemen autonomer Fahrzeuge.