FreeOcc: Training-free Panoptic Occupancy Prediction via Foundation Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie fahren mit dem Auto durch eine unbekannte Stadt. Normalerweise brauchen Sie dafür einen hochpräzisen 3D-Scanner (wie einen teuren Laserscanner), der die Umgebung millimetergenau vermisst. Das ist aber teuer und nicht in jedem Auto verbaut. Die meisten Autos haben nur Kameras. Das Problem: Kameras sehen nur flache Bilder. Sie wissen nicht, wie weit weg ein Baum ist oder ob ein Fußgänger gerade hinter einem LKW steht.

Bisherige KI-Systeme, die aus diesen flachen Bildern eine 3D-Welt bauen, müssen erst „lernen". Dafür braucht man riesige Mengen an Daten, die von Menschen mühsam von Hand markiert wurden. Das ist wie ein Schüler, der jahrelang Pauken muss, bevor er eine Prüfung besteht. Und wenn er in eine neue Stadt fährt, muss er oft wieder von vorne anfangen zu lernen.

FreeOcc ist eine völlig neue Idee. Es ist wie ein Super-Experte, der sofort loslegt, ohne jemals eine Schule besucht zu haben.

Hier ist die einfache Erklärung, wie das funktioniert:

1. Die zwei genialen Assistenten (Die „Foundation Models")

Statt ein neues Gehirn zu trainieren, nutzt FreeOcc zwei bereits existierende, extrem starke KI-Modelle, die wie zwei Spezialisten zusammenarbeiten:

Der „Maler" (SAM3): Dieser Assistent schaut sich das Bild an und malt sofort Masken um alles herum. Er weiß: „Das hier ist ein Auto, das ist ein Grasstreifen, das ist ein Gebäude." Er kann sogar mit Textbefehlen gesteuert werden (z. B. „Zeig mir alles, was wie ein Bus aussieht").
Der „Architekt" (MapAnything): Dieser Assistent nimmt das gleiche Bild und rechnet aus: „Wenn dieser Punkt hier ist, dann muss er in der Realität genau 15 Meter entfernt und 2 Meter hoch sein." Er baut aus dem flachen Bild eine 3D-Welt.

2. Die Baustelle ohne Bauleiter (Training-frei)

Normalerweise müsste man diese beiden Assistenten erst auf einer Baustelle (den Trainingsdaten) anleiten, damit sie zusammenarbeiten. FreeOcc macht das nicht. Es ist training-frei.

Der Prozess: Das System nimmt die Bilder, lässt den „Maler" die Objekte erkennen und den „Architekten" die Entfernungen berechnen.
Der Trick: Es gibt eine kleine Filter-Regel. Wenn der „Architekt" unsicher ist (z. B. bei Nebel oder weiter Ferne), wirft er die Daten weg. Nur die sicheren Punkte werden behalten.
Die Zusammenführung: Alle diese 3D-Punkte werden über die Zeit gesammelt (wie ein 3D-Scan, der sich mit jeder Sekunde verbessert).

3. Das Puzzle und die „Geister"

Ein großes Problem bei solchen Systemen sind „Geisterobjekte". Wenn ein Auto sich bewegt, könnte das System denken, es gäbe an zwei Orten gleichzeitig ein Auto.
FreeOcc hat einen cleveren Korrektur-Schritt:

Es schaut sich nur die aktuellen Daten an, um zu erkennen: „Aha, das ist ein einzelnes Auto, das sich bewegt."
Es passt die Form an (wie eine 3D-Box) und sorgt dafür, dass die Punkte logisch zusammengehören.
Am Ende wird alles in ein feines 3D-Gitter (Voxel) gepackt, wie ein riesiges 3D-Pixel-Bild.

4. Warum ist das so wichtig? (Die Analogie)

Stellen Sie sich vor, Sie wollen ein neues Spielzeug bauen.

Die alte Methode: Sie kaufen ein Baukasten-Set, müssen aber erst 100 Stunden lang Anleitung lesen und üben, bevor Sie das erste Teil zusammenstecken können. Wenn Sie ein neues Spielzeug kaufen, müssen Sie wieder von vorne anfangen.
FreeOcc: Sie haben einen Baukasten, der von selbst weiß, wie man baut. Sie nehmen einfach die Teile, und das System fügt sie sofort zusammen. Sie können sofort loslegen, egal ob Sie in Paris, Tokio oder auf einem unbekannten Planeten sind.

Die Ergebnisse: Was kann es?

Ohne Lernen: FreeOcc ist so gut wie Systeme, die jahrelang trainiert wurden. Es versteht die 3D-Welt fast genauso gut wie teure, trainierte KIs.
Als Lehrer: Wenn man doch ein trainiertes System braucht (für Echtzeit-Reaktionen im Auto), kann FreeOcc als „Lehrer" dienen. Es erstellt perfekte Übungsblätter (Daten), mit denen man dann ein schnelles, kleines System trainieren kann.
Alles auf einen Blick: Es erkennt nicht nur was da ist (Semantik), sondern auch welches Auto genau (Instanzen). Das ist wie der Unterschied zwischen „da ist ein Auto" und „das ist mein rotes Auto".

Fazit

FreeOcc ist ein Durchbruch, weil es zeigt, dass wir nicht mehr jahrelang Daten sammeln und Modelle trainieren müssen, um autonome Autos sicher zu machen. Wir können einfach die „Wissensspeicher" (Foundation Models) nutzen, die wir bereits haben, und diese clever kombinieren. Es ist wie der Übergang vom manuellen Pauken zum sofortigen Verstehen durch Intuition.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Vorhersage der 3D-Struktur von Straßenszenen (Occupancy Prediction) ist ein Eckpfeiler für autonomes Fahren. Während LiDAR-Sensoren präzise Geometrie liefern, erhöhen sie die Kosten und sind nicht immer verfügbar. Kamera-basierte Ansätze sind skalierbarer, leiden jedoch unter der inhärenten Mehrdeutigkeit der Tiefenrekonstruktion aus RGB-Bildern (Okklusionen, lange Entfernungen, dynamische Objekte).

Bestehende State-of-the-Art-Methoden für die semantische und panoptische Occupancy-Vorhersage benötigen meist eine dichte 3D-Überwachung (Supervision), die aufwendig durch LiDAR-Annotationen generiert wird. Dies limitiert die Skalierbarkeit auf neue Domänen oder Sensor-Konfigurationen. Schwach überwachte Ansätze (Weakly Supervised) versuchen dies zu umgehen, erfordern jedoch oft immer noch das Training eines Zielfeld-Modells und konzentrieren sich meist nur auf semantische (nicht instanzbasierte) Vorhersagen.

Die zentrale Herausforderung: Wie kann man eine robuste, instanzbewusste 3D-Occupancy-Vorhersage (Panoptic Occupancy) durchführen, ohne ein spezifisches 3D-Modell für die Zielumgebung zu trainieren und ohne aufwendige 3D-Annotationen?

2. Methodik: FreeOcc

FreeOcc ist eine trainingsfreie Pipeline, die vortrainierte Foundation Models nutzt, um sowohl Semantik als auch Geometrie aus multi-view Bildern zu rekonstruieren. Der Ansatz verzichtet vollständig auf das Training eines neuronalen Netzwerks für die 3D-Aufgabe.

Der Prozess gliedert sich in folgende Hauptphasen:

A. Semantische Vorkenntnisse (Semantic Branch)

Modell: SegmentAnything Model 3 (SAM3).
Mechanismus: Anstatt feste Klassenlabels zu verwenden, werden Prompt-basierte Masken generiert. Das System verwendet eine handgefertigte Menge von Prompts (Synonyme, spezifischere Begriffe), die auf die Ziel-Taxonomie (z. B. Occ3D-nuScenes) abgestimmt sind.
- Beispiel: Statt „Terrain" wird „Gras" oder „Erde" promptet, da SAM3 diese Begriffe besser versteht.
Fusion: Die Masken werden pro Ansicht fusioniert, wobei die Kandidaten mit dem höchsten Konfidenz-Score pro Pixel ausgewählt werden.
Regeln: Eine einfache Mapping-Regel (Prompt-to-Taxonomy) ordnet die generierten Klassen der Ziel-Taxonomie zu und löst Konflikte (z. B. „Straße" vs. „Spurmarkierung") durch Hierarchie-Regeln.

B. Metrische 3D-Rekonstruktion (Geometric Branch)

Modell: MapAnything (ein 3D-Rekonstruktions-Foundation-Modell).
Ausgabe: Dichte 3D-Punkte pro Pixel zusammen mit Tiefenkarten und Konfidenz-Karten.
Filterung: Unzuverlässige Punkte werden basierend auf Tiefenschwellenwerten ( $d_{min}, d_{max}$ ) und einer stabilisierten Konfidenzmetrik gefiltert. Die verbleibenden Punkte erhalten die semantischen Labels und Instanz-Priors aus dem semantischen Branch.

C. Instanz-Identifikation (Instance Identification)

Um temporale Fusionen (Ghosting bei bewegten Objekten) zu vermeiden, werden Instanzen nur auf Basis der aktuellen Stichprobe identifiziert:

3D-Box-Fitting: An die Punktwolken der Instanz-Priors werden yaw-orientierte 3D-Boxen angepasst (unter Nutzung von PCA zur Bestimmung der Ausrichtung).
Filterung: Unplausible Boxen (z. B. zu groß für einen Fußgänger) oder Ausreißer werden verworfen.
Merging & Re-Assignment: Gleiche Boxen werden konsolidiert (IoSV-basiert). Punkte innerhalb der Boxen erhalten eine konsistente Instanz-ID. Nicht zugeordnete Punkte werden als „ignore" markiert oder der nächsten Box zugewiesen.

D. Voxelisierung und Verfeinerung (Refinement Stack)

Die gefilterte und gelabelte Punktwolke wird in ein Voxel-Gitter umgewandelt:

Voting: Semantische Labels werden durch Mehrheitsvoting bestimmt.
Deterministischer Verfeinerungs-Stack: Ein vierstufiger Prozess verbessert die lokale Konsistenz ohne übermäßiges Glätten:
1. Lochfüllung: Schließt kleine Lücken in besetzten Regionen.
2. Ego-Vehicle Completion: Füllt den blinden Bereich nahe dem Fahrzeug als „fahrbare Fläche" auf (nur bei begrenzten temporalen Daten).
3. Nachbarschaftskohärenz: Aktualisiert unsichere Labels nur bei starker Nachbarschaftsunterstützung.
4. Instanz-Dilatation: Füllt kleine Lücken innerhalb von Instanz-Regionen auf, um die Vollständigkeit zu erhöhen.

3. Wichtige Beiträge

Training-free Inference: FreeOcc ist die erste Methode, die semantische und panoptische Occupancy-Vorhersage ohne jegliches Training auf Ziel-Daten durchführt. Sie nutzt die Open-Vocabulary-Fähigkeiten von Foundation Models direkt zur Inferenz.
Pseudo-Label-Generator: Die Pipeline kann genutzt werden, um hochwertige Pseudo-Labels für das Training nachgelagerter Echtzeit-Modelle zu generieren.
Panoptische Baselines: FreeOcc stellt die ersten Baselines für trainingsfreie und schwach überwachte panoptische Occupancy-Vorhersage auf.
Anpassungsfähigkeit: Durch die Prompt-basierte Architektur kann das Label-Schema durch einfache Textänderungen angepasst werden, ohne ein 3D-Modell neu zu trainieren.

4. Ergebnisse (auf Occ3D-nuScenes Validation Set)

Semantische Occupancy (Train-free):

mIoU: 16,9 (Vergleich: ShelfOcc [train-free] erreicht 9,6).
RayIoU: 16,5.
FreeOcc übertrifft damit signifikant vorherige trainingsfreie Ansätze und liegt auf dem Niveau von schwach überwachten, trainierten Methoden (z. B. GaussianFlowOcc).

Pseudo-Label Training (Weakly Supervised):

Wenn FreeOcc als Generator für Pseudo-Labels dient, um ein STCOcc-Modell zu trainieren:
- mIoU: 22,8.
- RayIoU: 21,1 (State-of-the-Art für schwach überwachte Methoden, sogar ohne Nutzung von Sichtbarkeits-Masken während des Trainings).

Panoptische Occupancy:

Train-free RayPQ: 3,1.
Weakly Supervised RayPQ: 3,9.
Dies etabliert neue Baselines, auch wenn die Lücke zu voll überwachten Methoden (z. B. SparseOcc mit 14,1 RayPQ) noch besteht. Die Ergebnisse zeigen jedoch, dass instanzbewusste Vorhersagen ohne 3D-Annotationen möglich sind.

Ablationsstudie:

Die Verwendung von Prompts und Regeln (statt direkter Klassennamen) bringt den größten semantischen Gewinn (+2,7 mIoU).
Die Instanz-Identifikation ist entscheidend für die panoptische Leistung (steigert RayPQ von 1,5 auf 2,5 im trainingsfreien Modus).
Die Genauigkeit der Extrinsik-Kalibrierung (Kamera-Pose) ist kritisch; ohne diese sinkt die Leistung drastisch (-53% mIoU).

5. Bedeutung und Fazit

FreeOcc demonstriert, dass Foundation Models einen praktischen Weg zu einer trainingsfreien 3D-Szenenverständnis bieten.

Vorteile: Sofortige Einsatzfähigkeit in neuen Umgebungen ohne Datenerhebung oder Training; Anpassungsfähigkeit an neue Klassen-Kategorien durch Prompts.
Nachteile: Der Rechenaufwand ist hoch (langsamere Inferenz als spezialisierte Netze), und die geometrische Genauigkeit ist bei sehr kleinen Objekten oder ohne präzise Posenschätzung limitiert.
Zukunftsperspektive: Die Arbeit zeigt, dass die Kombination aus 2D-Priors und 3D-Rekonstruktion durch Foundation Models eine vielversprechende Alternative zu rein datengetriebenen, trainierten Ansätzen ist, insbesondere für Szenarien, in denen keine annotierten 3D-Daten verfügbar sind.