JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie betreten einen riesigen, chaotischen Bauernhof oder eine Baustelle. Um sich dort zurechtzufinden, brauchen Sie zwei Dinge:

Ein 360-Grad-Bild: Eine Art "All-Seeing-Eye" (Allsehendes Auge), das alles um Sie herum auf einmal zeigt – von der Decke bis zum Boden, von links bis rechts.
Ein 3D-Modell: Eine unsichtbare Skulptur aus Millionen von kleinen Punkten, die genau beschreibt, wie weit weg die Dinge sind und wie sie im Raum stehen.

Das Problem ist: Bisher waren Computerprogramme wie blinde Tauben. Wenn sie ein 360-Grad-Bild sahen, wussten sie oft nicht, was "Stuhl" oder "Wand" ist, wenn sie nicht vorher tausende Beispiele davon gelernt hatten. Und wenn sie das 3D-Modell sahen, verstanden sie die Bilder oft nicht.

JOPP-3D ist wie ein genialer Übersetzer und Architekt in einem. Es verbindet diese beiden Welten und macht sie "sprachbegabt".

Hier ist die Erklärung, wie es funktioniert, mit ein paar einfachen Vergleichen:

1. Das "Kugelschneiden"-Problem (Tangential Decomposition)

Stellen Sie sich vor, Sie haben eine riesige, aufgeblasene Luftballon-Kugel, auf die ein 360-Grad-Foto gemalt ist. Wenn Sie versuchen, dieses Bild auf einen flachen Tisch zu legen (wie ein normales Foto), wird es an den Rändern total verzerrt und zerrissen. Das ist für Computer sehr verwirrend.

JOPP-3D macht etwas Cleveres: Es schneidet den Ballon nicht einfach auf, sondern schneidet ihn in 20 kleine, flache Stücke (wie die Flächen eines 20-seitigen Würfels).

Der Vorteil: Jedes dieser kleinen Stücke sieht aus wie ein ganz normales Foto, das ein Computer leicht verstehen kann.
Der Trick: Der Computer nimmt diese 20 kleinen Bilder, schaut sich jedes einzeln an, versteht die Objekte darauf und kleckt sie dann wieder zu einem perfekten 3D-Modell zusammen.

2. Der "Sprach-Übersetzer" (Open Vocabulary)

Früher mussten Computer lernen: "Das ist ein Stuhl", "Das ist ein Tisch". Wenn Sie dann einen "Hocker" zeigten, sagten sie: "Ich kenne das nicht."

JOPP-3D nutzt einen riesigen, vorgefertigten "Wörterbuch-Geist" (basierend auf KI-Modellen wie CLIP), der bereits weiß, wie die Welt aussieht und wie Dinge heißen.

Das Szenario: Sie fragen den Computer einfach: "Zeig mir alle Stapel aus Ziegelsteinen" oder "Wo ist die Decke?".
Die Reaktion: Der Computer sucht nicht in einer vordefinierten Liste, sondern versteht die Bedeutung Ihrer Worte. Er sucht im 3D-Modell und auf den Bildern nach Dingen, die wie "Ziegelsteine" oder "Decken" aussehen, und markiert sie sofort. Es ist, als würde man einem Roboter sagen: "Such mir die roten Kisten", ohne ihm vorher beigebracht zu haben, was eine rote Kiste ist.

3. Der "Spiegel-Effekt" (3D zu Panorama)

Das ist der magischste Teil. Der Computer hat jetzt zwei Dinge:

Ein 3D-Modell, in dem er weiß: "Hier ist ein Stuhl."
Ein 360-Grad-Bild, das er gerade erst "zerlegt" hat.

Jetzt nutzt er die Tiefe (wie weit weg Dinge sind), um die Informationen vom 3D-Modell zurück auf das 360-Grad-Bild zu projizieren.

Die Analogie: Stellen Sie sich vor, Sie haben ein 3D-Modell eines Hauses und malen die Wände rot an. Dann halten Sie eine Kamera genau an die Stelle, wo das Modell stand, und machen ein Foto. Das Foto zeigt plötzlich auch rote Wände, obwohl Sie das Foto selbst nie gemalt haben.
Das Ergebnis: Sie können jetzt in das 360-Grad-Bild schauen und sehen sofort, wo die "Wände" und "Türen" sind, weil die 3D-Informationen dort "aufgeklebt" wurden.

Warum ist das so wichtig?

Kein mühsames Lernen: Früher mussten Ingenieure tausende Bilder von "Stühlen" und "Türen" manuell markieren, damit der Computer lernt. JOPP-3D braucht das nicht. Es versteht die Sprache.
Alles an einem Ort: Es versteht sowohl die flachen Bilder als auch die räumliche Tiefe gleichzeitig. Das ist wie wenn ein Architekt nicht nur den Grundriss (2D) und das Modell (3D) separat betrachtet, sondern beides gleichzeitig im Kopf hat.
Für die Zukunft: Ob für Roboter, die in neuen Häusern arbeiten, oder für Drohnen, die Baustellen überwachen – JOPP-3D kann sich in unbekannten Umgebungen zurechtfinden, ohne vorher trainiert worden zu sein. Es versteht einfach, was Sie meinen, wenn Sie sagen: "Such mir den Müll" oder "Zeig mir die Rohre".

Zusammengefasst: JOPP-3D ist wie ein super-intelligenter Assistent, der eine 360-Grad-Kamera und ein 3D-Scanner kombiniert, um die Welt nicht nur zu sehen, sondern sie auch zu verstehen – und das alles nur durch ein einfaches Gespräch mit Ihnen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die semantische Segmentierung in komplexen realen Umgebungen ist eine Grundvoraussetzung für autonome Systeme und Robotik. Bestehende Ansätze leiden jedoch unter zwei Hauptproblemen:

Datenknappheit: Hochwertige, annotierte Datensätze für 3D-Punktwolken und Panoramen sind schwer zu beschaffen und zu labeln.
Fehlende Generalisierung: Herkömmliche Modelle sind auf vordefinierte Klassen beschränkt (Closed-Vocabulary) und können keine neuen Objektkategorien erkennen, ohne neu trainiert zu werden.
Modality Gap: Es fehlt an Frameworks, die sowohl 2D-Panoramabilder (für 360°-Abdeckung) als auch 3D-Punktwolken (für geometrische Genauigkeit) gemeinsam in einem offenen Wortschatz-Kontext (Open-Vocabulary) interpretieren. Die direkte Anwendung von Vision-Language-Modellen (VLMs) auf Panoramen ist aufgrund geometrischer Verzerrungen schwierig.

2. Methodik: JOPP-3D Framework

JOPP-3D ist ein einheitliches Framework, das Open-Vocabulary-Segmentierung für 3D-Punktwolken und Panoramen ermöglicht, ohne dass spezifische Trainingsdaten für die Zielklassen benötigt werden. Der Ansatz nutzt vortrainierte Vision-Language-Modelle (insbesondere CLIP und SAM) und besteht aus drei Hauptkomponenten:

A. Tangential Decomposition (Tangentialzerlegung)

Um die geometrischen Verzerrungen von equirektangulären Panoramen zu umgehen und die Kompatibilität mit VLMs zu gewährleisten:

Das Panorama wird auf die 20 Flächen eines regulären Ikosaeders projiziert.
Dies erzeugt 20 tangentielle Perspektivbilder (Tangential Perspectives) mit einem weiten Sichtfeld (FOV) von 100° pro Bild.
Aus diesen Perspektiven werden 3D-Punktwolken rekonstruiert und in das Weltkoordinatensystem transformiert. Dieser Schritt ermöglicht eine konsistente Merkmalsextraktion, die Verzerrungen minimiert.

B. 3D-Instanz-Extraktion und semantische Ausrichtung

Um semantische Labels ohne manuelle Annotation zu generieren:

Instanzvorschläge: Es werden objektfreie Instanzmasken für die 3D-Punktwolke generiert. Dafür werden zwei Strategien angeboten:
1. Weakly-supervised: Nutzung von Mask3D (auf S3DIS vortrainiert).
2. Unsupervised: Nutzung von SAM3D (basierend auf 2D-SAM und Tiefenkarten).
Projektion und Maskierung: Die 3D-Instanzen werden auf die besten $K$ tangentialen Perspektiven projiziert. Mit SAM werden präzise 2D-Masken für diese Instanzen in den perspektivischen Bildern extrahiert.
Embedding-Erstellung: Die maskierten Bildausschnitte werden durch den CLIP-Image-Encoder geführt. Die resultierenden Feature-Vektoren werden normalisiert und gemittelt, um ein robustes, offenes semantisches Embedding für jede 3D-Instanz zu erhalten.
Querying: Durch natürliche Sprachabfragen (z. B. „Stuhl", „Decke") werden die Embeddings der 3D-Instanzen mit Text-Embeddings verglichen, um die semantische Segmentierung der gesamten 3D-Szene zu erzeugen.

C. 3D-zu-Panorama semantische Extraktion

Um die 3D-Segmentierung zurück auf das Panorama zu übertragen:

Tiefenkorrespondenz: Die 3D-Punkte mit ihren zugewiesenen semantischen Labels werden unter Verwendung der Kameraposen und Tiefenkarten zurück in das 2D-Panoramakoordinatensystem projiziert.
Nachbarschaftssuche: Jedem Pixel im Panorama wird das Label des nächsten 3D-Punkts zugewiesen (Nearest-Neighbor).
Konsistenz über Szenen: Um Lücken an Übergängen (z. B. durch Türen zu benachbarten Räumen) zu füllen, wird eine Tiefenkorrespondenz-Strategie zwischen überlappenden Panoramen verwendet. Semantische Informationen werden überlappende Bereiche hinweg propagiert, um eine lückenlose, dichte semantische Karte zu gewährleisten.

3. Hauptbeiträge

Erster gemeinsamer Ansatz: JOPP-3D ist die erste Methode, die Open-Vocabulary-Segmentierung gleichzeitig für 3D-Punktwolken und Panoramen durchführt.
Tangentialzerlegung: Ein effektiver, trainingsfreier Pipeline-Schritt, der Panoramen in perspektivische Ansätze zerlegt, um Verzerrungen zu minimieren und die Nutzung von CLIP/SAM zu ermöglichen.
Label-freie Propagierung: Eine Methode zur Übertragung von semantischen Labels von 3D-Instanzen auf Panoramen mittels Tiefenkorrespondenz, was multi-view-konsistente Karten erzeugt.
Zwei Paradigmen: Das Framework bietet sowohl eine schwach überwachte (Mask3D-basierte) als auch eine vollständig unüberwachte (SAM3D-basierte) Variante.

4. Ergebnisse

Die Methode wurde auf den Datensätzen Stanford-2D-3D-s (S3DIS) und ToF-360 evaluiert.

3D-Segmentierung (S3DIS): JOPP-3D (weakly-supervised) erreicht 80,9 % mIoU und 87,0 % mAcc. Dies übertrifft den State-of-the-Art (SOTA) bei Closed-Vocabulary-Methoden (z. B. PointTransformerV3 mit 73,4 % mIoU) und Open-Vocabulary-Baselines (OpenMask3D mit 36,7 % mIoU) deutlich, obwohl es ohne spezifische Klassen-Labels trainiert wurde.
Panorama-Segmentierung (Stanford-2D-3D-s): JOPP-3D erreicht 70,1 % mIoU (Closed) und 74,6 % Open mIoU. Dies ist ein signifikanter Sprung gegenüber der besten Open-Vocabulary-Baseline (OPS mit 41,1 % mIoU) und konkurriert mit stark überwachten Closed-Vocabulary-Methoden.
Zero-Shot Leistung: Die unüberwachte Variante JOPP-3D(u) zeigt auf dem schwierigen ToF-360-Datensatz ebenfalls klare Verbesserungen gegenüber bestehenden Zero-Shot-Ansätzen.
Ablationsstudie: Die Studie bestätigt, dass alle Komponenten (SAM-Maskierung, Tangentialzerlegung, Tiefenkorrespondenz) essenziell sind. Ohne Maskierung (SAM Mask) sinkt die Leistung drastisch aufgrund von „semantischer Verschmutzung" in großen Instanzen (z. B. Boden/Wand).

5. Bedeutung und Ausblick

JOPP-3D stellt einen wichtigen Schritt hin zu einer universellen Szenenverständnis-Technologie dar.

Skalierbarkeit: Da das System ohne manuelle Annotation neuer Klassen auskommt, ist es ideal für dynamische Umgebungen (z. B. Baustellen, Robotik), in denen neue Objekte häufig auftreten.
Multimodalität: Die Fähigkeit, sowohl geometrisch präzise 3D-Daten als auch umfassende 2D-Panoramen sprachgesteuert zu segmentieren, verbessert die Robustheit von Wahrnehmungssystemen.
Effizienz: Obwohl die Inferenzzeit pro Bild bei ca. 4,8 Minuten liegt, ist der Ansatz rechnerisch effizient im Vergleich zu Methoden, die teures Training auf großen Datensätzen erfordern, da er vollständig auf vortrainierten Foundation-Modellen basiert.

Zusammenfassend demonstriert JOPP-3D, dass die Kombination aus geometrischer Zerlegung, Instanz-Extraktion und Vision-Language-Modellen eine leistungsfähige Alternative zu traditionellen, stark überwachten Segmentierungsansätzen darstellt.

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

1. Das "Kugelschneiden"-Problem (Tangential Decomposition)

2. Der "Sprach-Übersetzer" (Open Vocabulary)

3. Der "Spiegel-Effekt" (3D zu Panorama)

Warum ist das so wichtig?

1. Problemstellung

2. Methodik: JOPP-3D Framework

A. Tangential Decomposition (Tangentialzerlegung)

B. 3D-Instanz-Extraktion und semantische Ausrichtung

C. 3D-zu-Panorama semantische Extraktion

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes