Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Roboter, der zum ersten Mal in ein fremdes, vollgestelltes Wohnzimmer kommt. Deine Aufgabe: Du sollst nicht nur sehen, wo die Möbel sind, sondern auch verstehen, was sie sind – und zwar für alles, was du dir vorstellen kannst, nicht nur für die Dinge, die du vorher gelernt hast.

Das ist die Herausforderung, die sich die Forscher in diesem Papier ("LegoOcc") gestellt haben. Hier ist die Erklärung, wie sie das gelöst haben, ganz einfach und mit ein paar bildhaften Vergleichen:

1. Das Problem: Der "Starre Katalog" vs. Die "Unendliche Bibliothek"

Bisherige Roboter-Systeme arbeiten wie ein Katalog mit festem Inventar. Wenn der Katalog nur "Stuhl", "Tisch" und "Lampe" kennt, kann der Roboter eine "Vase" oder einen "Haufen alter Zeitungen" nicht erkennen. Er sieht sie vielleicht als grauen Haufen, weiß aber nicht, was sie sind.

Außerdem sind Innenräume (wie Wohnungen) viel chaotischer als Straßen. Da gibt es enge Ecken, viele überlappende Gegenstände und tausende kleine Details. Die alten Methoden, die für offene Straßen entwickelt wurden, scheitern hier oft, weil sie zu grobmaschig sind.

2. Die Lösung: "Lebendige Lego-Steine" (LE-Gaussians)

Statt das Zimmer in ein starres 3D-Gitter (wie ein riesiges Schachbrett im Raum) zu zerlegen, nutzen die Forscher etwas viel Flüssigeres: 3D-Gaußsche Wolken.

Stell dir vor, das Zimmer besteht nicht aus festen Würfeln, sondern aus Millionen unsichtbarer, kleiner Leucht-Kugeln (den "Gaussians").

Jede Kugel hat eine Form und Position (wo ist sie?).
Jede Kugel hat eine Helligkeit/Deckkraft (wie stark ist sie?).
Und das Geniale: Jede Kugel hat auch ein Gedächtnis (eine "Sprach-ID"), das ihr sagt, ob sie eher zu einem "Stuhl" oder einer "Vase" passt.

Diese Kugeln sind wie intelligente Lego-Steine, die sich überall im Raum verteilen und sowohl die Form des Raumes als auch die Bedeutung der Objekte speichern.

3. Der Trick: Lernen ohne Wörterbuch (Nur Geometrie)

Normalerweise müsste man einem Roboter tausende Bilder zeigen und ihm sagen: "Das hier ist ein Stuhl, das dort eine Vase." Das ist extrem teuer und aufwendig.

Die Forscher sagen: Nein, wir lernen nur die Form.

Der Ansatz: Sie geben dem Roboter nur die Information: "Hier ist etwas (besetzt)" oder "Hier ist Luft (leer)". Keine Wörter, keine Labels.
Das Problem: Wenn man nur "Besetzt/Leer" sagt, werden die Kugeln oft unklar. Sie wissen nicht genau, wo sie aufhören und wo sie anfangen, besonders wenn viele Dinge übereinander liegen.

4. Die zwei genialen Erfindungen

Um das zu lösen, haben die Autoren zwei neue Werkzeuge entwickelt:

A. Der "Poisson-Regen" (Für die Form)

Stell dir vor, du willst wissen, ob ein Raum voller Leute ist.

Die alte Methode (Bernoulli): Zählt einfach: "Ist da jemand? Ja/Nein." Wenn viele Leute dicht beieinander stehen, wird die Zählung ungenau und verwirrt.
Die neue Methode (Poisson): Stell dir vor, die Kugeln sind wie Regentropfen, die auf ein Dach fallen. Wenn viele Tropfen auf eine Stelle fallen, ist die Wahrscheinlichkeit hoch, dass dort etwas ist.
- Die Forscher nutzen eine mathematische Formel (Poisson-Prozess), die diese "Tropfen" (die Kugeln) so kombiniert, dass sie selbst bei dichten, chaotischen Innenräumen genau wissen, wo die Wände und Möbel sind. Es ist, als würde man aus einem leichten Nieselregen eine klare Silhouette eines Objekts berechnen.

B. Der "Temperatur-Dimmer" (Für die Bedeutung)

Das ist der zweite große Trick. Wenn man die Kugeln auf ein Bild projiziert, um sie zu "lesen", passiert oft ein Durcheinander: Ein Pixel im Bild zeigt vielleicht gleichzeitig einen Teil eines Stuhls und einen Teil einer Vase. Das Signal wird "verwässert".

Die Lösung: Stell dir vor, die Kugeln sind anfangs wie wackelige Geister. Sie sind unscharf und vermischen sich.
Während das Training läuft, drehen die Forscher einen Temperatur-Regler langsam herunter.
- Am Anfang ist es "warm": Die Kugeln sind weich und vermischen sich (gut für das Lernen).
- Am Ende ist es "kalt": Die Kugeln werden hart und scharf. Sie entscheiden sich: "Ich bin jetzt eindeutig ein Stuhl!" oder "Ich bin eine Vase!".
- Dieser schrittweise Übergang (Progressive Temperature Decay) verhindert, dass das System verwirrt wird, und sorgt dafür, dass am Ende jede Kugel genau weiß, was sie ist.

5. Das Ergebnis: Ein Roboter, der alles versteht

Am Ende haben sie ein System, das:

Nur ein einziges Foto braucht (monokular).
Nur weiß, wo Dinge sind (Geometrie), aber nicht, wie sie heißen.
Trotzdem jedes beliebige Wort verstehen kann.

Wenn du dem Roboter sagst: "Zeig mir alle Schuhe", findet er sie. Sagst du: "Zeig mir Papier", findet er auch das. Er ist nicht mehr auf eine festgelegte Liste beschränkt.

Zusammenfassend:
Die Forscher haben einen Weg gefunden, einem Roboter beizubringen, die Welt nicht als starre Liste von Objekten zu sehen, sondern als einen flüssigen, lebendigen Raum aus "intelligenten Lichtpunkten". Durch einen cleveren mathematischen Regen (Poisson) und einen schrittweisen "Kälteprozess" (Temperatur-Abkühlung) schaffen sie es, dass der Roboter selbst in chaotischen, vollen Zimmern genau weiß, wo was ist – und das ohne jemals gelernt zu haben, wie diese Dinge heißen.

Das ist ein riesiger Schritt hin zu Robotern, die wirklich wie Menschen in unseren unordentlichen, vollgestellten Wohnungen zurechtkommen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Arbeit adressiert die Herausforderung der Open-Vocabulary-3D-Occupancy-Vorhersage (Vorhersage des Belegungsstatus und der Semantik von 3D-Volumina) speziell für indoor-Umgebungen.

Herausforderungen: Im Gegensatz zu Outdoor-Szenen (z. B. autonomes Fahren) weisen Innenräume eine extrem dichte Geometrie, komplexe Layouts und eine sehr feinkörnige, langschwellige Verteilung semantischer Kategorien auf. Bestehende Methoden für Open-Vocabulary funktionieren in Innenräumen schlecht, da sie oft auf feste Taxonomien beschränkt sind oder bei der Übertragung von Outdoor-Daten versagen.
Supervisions-Problem: Das Sammeln von dichten semantischen 3D-Labels für Innenräume ist extrem teuer und aufwendig. Daher zielt das Paper auf ein rein geometrisches Supervisions-Paradigma ab: Das Training erfolgt ausschließlich mit binären Belegungslabels (belegt vs. frei), ohne semantische Voxel-Annotationen.
Ziel: Ein System zu entwickeln, das aus einem einzelnen monokularen Bild (Single-View) eine 3D-Occupancy-Karte erstellt, die nicht nur die Geometrie erfasst, sondern auch beliebige semantische Kategorien über Textabfragen (Open Vocabulary) identifizieren kann.

2. Methodik: LegoOcc Framework

Das Kernstück der Methode ist die Nutzung von 3D Language-Embedded Gaussians (LE-Gaussians) als einheitliche Zwischenrepräsentation, die Geometrie und Sprache koppelt.

A. Repräsentation (LE-Gaussians)

Jeder Gauß-Primitive wird parametrisiert durch:

Geometrische Parameter: Position ( $\mu$ ), Kovarianz ( $\Sigma$ ) und Opazität ( $\alpha$ ).
Semantische Parameter: Ein lernbarer Embedding-Vektor ( $f$ ), der mit Sprachmodellen (VLMs) abgeglichen ist.

B. Geometrie-Lernen: Poisson-basierter Gaussian-to-Occupancy (G2O)

Ein zentrales Problem bestehender Ansätze (wie GaussianFormer2) ist, dass die Aggregation von Gaussians zu einem Voxel-Occupancy unter reiner binärer Supervision instabil wird, wenn die Opazität nicht korrekt modelliert wird.

Lösung: Die Autoren führen einen opazitätsbewussten, Poisson-basierten Ansatz ein.
Statt eine Bernoulli-Verteilung (Multiplikation von Wahrscheinlichkeiten) zu nutzen, wird die lokale Beitrag jedes Gaussians als nicht-negative Ereignisintensität ( $h_i = \alpha_i \cdot p_i$ ) interpretiert.
Die Belegungswahrscheinlichkeit eines Voxels wird als Wahrscheinlichkeit modelliert, dass ein nicht-homogener Poisson-Prozess mindestens ein Ereignis an diesem Ort erzeugt hat:
$p(x) = 1 - \exp\left(-\sum_{i} \alpha_i p_i(x)\right)$
Dies ermöglicht eine stabile und prinzipielle volumetrische Aggregation, die konsistent mit der Opazität ist, die für das Rendering verwendet wird.

C. Semantik-Lernen: Progressive Temperature Decay

Beim Rendering der Gauß-Features auf das 2D-Bild (Gaussian Splatting) entstehen durch das $\alpha$ -Blending Mischungen verschiedener semantischer Embeddings pro Pixel. Dies führt zu „Feature-Mixing", besonders bei überlappenden Objekten in Innenräumen.

Lösung: Es wird ein Progressive Temperature Decay-Scheduling eingeführt.
Die Opazität wird über eine temperierte Sigmoid-Funktion berechnet: $\alpha_i = \sigma(\frac{\text{logit}_i}{\tau})$ .
Während des Trainings wird die Temperatur $\tau$ exponentiell von einem hohen Wert ( $T_{max}=1$ ) auf einen sehr niedrigen Wert ( $T_{min}=10^{-3}$ ) gesenkt.
Effekt: Zu Beginn des Trainings sorgt eine hohe Temperatur für weiche Mischungen und stabiles Training. Gegen Ende schärft die niedrige Temperatur die Opazitäten zu {0, 1} hin, was das Feature-Mixing unterdrückt und eine präzisere Ausrichtung der Gauß-Embeddings mit den 2D-Open-Vocabulary-Segmentierungs-Features (z. B. von Trident) ermöglicht.

D. Verlustfunktion

Das Training minimiert eine kombinierte Verlustfunktion:

Geometrie: Binary Cross-Entropy (Focal Loss) und Lovász-Softmax gegen die binären Ground-Truth-Voxel, plus Depth-Loss und räumliche Kohärenz-Regularisierung.
Semantik: Kosinus-Ähnlichkeitsverlust ( $L_{feat}$ ) zwischen den gerenderten Gauß-Features und den Features eines trainingsfreien Open-Vocabulary-Segmentators.

3. Schlüsselbeiträge

LegoOcc: Ein Framework für monokulare Open-Vocabulary-Occupancy in großen Innenräumen, das LE-Gaussians als feinkörnige Zwischenrepräsentation nutzt.
Neuer G2O-Operator: Ein Poisson-basierter Operator, der unter reiner geometrischer (binärer) Supervision stabil konvergiert und die Diskrepanz zwischen Rendering und Voxel-Aggregation löst.
Progressive Temperature Decay: Eine Scheduling-Strategie, die Feature-Mixing beim Splatting reduziert und die semantische Ausrichtung der Gaussians verbessert, ohne diskrete Auswahlmechanismen (wie Top-k) zu benötigen.
State-of-the-Art Ergebnisse: Erzielung neuer Bestwerte auf dem Occ-ScanNet-Datensatz ohne semantische 3D-Labels während des Trainings.

4. Ergebnisse

Die Methode wurde auf dem Occ-ScanNet-Datensatz evaluiert (11 semantische Klassen + Hintergrund).

Vergleich: Im Open-Vocabulary-Setting (nur geometrische Supervision) erreicht LegoOcc:
- IoU (Intersection over Union): 59,50 % (höher als alle anderen Methoden, auch geschlossene Vokabulare).
- mIoU (mean IoU): 21,05 %.
Vergleich mit Baselines:
- Übertrifft re-implementierte Open-Vocabulary-Baselines (POP-3D, LOcc) massiv (+11,80 mIoU).
- Schlägt sogar geschlossene Vokabular-Methoden (wie EmbodiedOcc++) in der Gesamt-IoU, obwohl diese volle semantische Annotationen nutzen.
Ablationsstudien:
- Der Poisson-Operator verbessert die IoU im Open-Vocabulary-Setting um +12,85 Punkte gegenüber der Bernoulli-Variante.
- Das exponentielle Temperature Decay ist entscheidend; lineare Abkühlung oder konstante Temperaturen führen zu signifikant schlechteren Ergebnissen.
Effizienz: Das Modell läuft mit ca. 22,47 FPS auf einer RTX 4090, was schneller ist als viele vergleichbare Volumetrie-Methoden.

5. Bedeutung und Ausblick

Praktische Relevanz: Die Arbeit beweist, dass hochpräzise 3D-Occupancy-Karten für Innenräume auch ohne teure semantische 3D-Annotationen erstellt werden können. Dies ist ein entscheidender Schritt für den Einsatz in Embodied Agents (Roboter, AR/VR), die in dynamischen, unvorhersehbaren Umgebungen agieren müssen.
Generalisierung: Durch die Open-Vocabulary-Fähigkeit kann das System auf beliebige Objektkategorien reagieren, die nicht im Trainingsdatensatz enthalten waren, was die Skalierbarkeit für reale Anwendungen erheblich erhöht.
Methodischer Fortschritt: Die Kombination aus Poisson-Statistik für die Geometrie und temperaturgesteuertem Scheduling für die Semantik bietet einen neuen Paradigmenwechsel für das Training von 3D-Gaussian-basierten Szenenrepräsentationen unter schwacher Supervision.

Zusammenfassend stellt LegoOcc einen Durchbruch dar, der die Lücke zwischen reiner Geometrie-Rekonstruktion und semantischem Verständnis in komplexen Innenräumen schließt und dabei auf kostengünstige, skalierbare Supervision setzt.