JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot bouwt die een kamer moet begrijpen. Tot nu toe hadden we twee soorten "ogen" voor deze robot, maar ze konden niet goed met elkaar praten:

De Panoramische Ogen: Een camera die 360 graden rondkijkt. Hij ziet alles, maar het beeld is erg vertekend (alsof je door een visbril kijkt).
De 3D-Ogen: Een laser die duizenden punten in de ruimte meet. Hij ziet de vorm en diepte perfect, maar hij "weet" niet wat de objecten zijn, tenzij je hem van tevoren alles hebt geleerd.

De grote uitdaging is: hoe laat je deze robot nieuwe dingen herkennen zonder dat je hem duizenden voorbeelden moet laten zien? Wat als je vraagt: "Waar is de koffiezetapparaat?" en hij heeft dat woord nooit eerder gehoord?

Hier komt JOPP-3D in beeld. Het is een slimme nieuwe manier om een kamer te begrijpen, zowel in 3D als in een rond panorama, zonder dat je de robot eerst jarenlang moet trainen.

Hoe werkt het? (De Analogie van de Pizzadoos)

Stel je voor dat je een bolvormige wereld (een kamer) wilt bekijken op een plat stuk papier. Als je de hele bol op één keer probeert te plakken, krijg je een enorme, onleesbare brij.

Stap 1: De Pizzadoos-methode (Tangential Decomposition)
In plaats van de hele bol op één keer te plakken, snijdt JOPP-3D de kamer op in 20 stukjes, alsof je een bolvormige pizza in 20 driehoekige stukken snijdt. Elk stukje wordt dan platgelegd op een vlakke foto.

Waarom? Omdat de robot (en de AI die hij gebruikt) gewend is om naar platte foto's te kijken. Door de kamer in deze "plakjes" te verdelen, verdwijnt de vervorming en kan de robot de details goed zien.

Stap 2: De Vertaler (Open Vocabulary)
Normaal gesproken moet je een robot leren wat een "stoel" is door hem 1000 foto's van stoelen te tonen. JOPP-3D doet het anders. Het gebruikt een slimme "vertaler" (een AI die al weet wat woorden en beelden betekenen, zoals CLIP).

Je kunt gewoon tegen de robot zeggen: "Zoek de stoel."
De robot kijkt naar de 20 stukjes van de kamer, zoekt naar iets dat op een stoel lijkt, en markeert het. Hij hoeft niet te weten dat het een "stoel" heet; hij begrijpt het concept "stoel" door de taal.

Stap 3: De 3D-Projector (Depth Correspondence)
Nu heeft de robot de stoel gevonden in de platte stukjes. Maar hoe krijgt hij die informatie terug in de echte 3D-wereld?

JOPP-3D gebruikt de diepte-informatie (hoe ver weg iets is) als een soort "lijm". Het projecteert de gevonden stoel terug naar de 3D-punten in de ruimte.
Het magische trucje: Als de robot door een deur kijkt en ziet een kamer ernaast, gebruikt hij de diepte-lijm om de informatie over die andere kamer ook te "plakken" op het panorama. Zo ziet hij niet alleen wat direct voor zijn neus staat, maar ook wat erachter zit, zonder dat er gaten in zijn kennis zitten.

Waarom is dit zo speciaal?

Geen training nodig: Je hoeft de robot niet te trainen met duizenden gelabelde foto's. Je kunt gewoon praten met hem. Vraag: "Waar is de vuilnisbak?" en hij zoekt het op.
Twee werelden, één antwoord: Het systeem geeft je tegelijkertijd een 3D-kaart van de kamer én een gekleurde foto van de kamer, waarbij beide precies overeenkomen.
Slimmer dan de rest: In tests bleek dat JOPP-3D veel beter presteert dan de huidige beste methoden, vooral omdat het de vervorming van de panorama's slim oplost en de 3D-structuur gebruikt om de "vertaling" van woorden naar beelden nauwkeuriger te maken.

Samenvattend

JOPP-3D is als het geven van een vertaler en een 3D-bril aan een robot. In plaats van de robot te dwingen duizenden voorbeelden uit zijn hoofd te leren, laat je hem gewoon kijken en vragen stellen in menselijke taal. Hij snijdt de wereld in begrijpelijke stukjes, vertaalt wat hij ziet naar wat jij bedoelt, en plakt die kennis perfect terug in de 3D-wereld.

Het is een grote stap naar robots die echt kunnen meedenken in onze complexe, veranderende wereld, zonder dat we ze eerst jarenlang hoeven op te leiden.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Semantische segmentatie van complexe real-world omgevingen is cruciaal voor autonome systemen en robotica. Bestaande methoden hebben echter twee fundamentele beperkingen:

Afhankelijkheid van gelabelde data: Traditionele benaderingen vereisen grote, handmatig gelabelde datasets, wat onhaalbaar is in ongestructureerde of dynamisch veranderende omgevingen.
Beperkte generalisatie: Bestaande modellen zijn vaak beperkt tot 2D-afbeeldingen of 3D-puntenwolken en werken alleen met een vooraf gedefinieerde set klassen (gesloten vocabulaire). Dit maakt ze ongeschikt voor het herkennen van nieuwe objectcategorieën zonder extra training.

Daarnaast bestaat er een kloof tussen de verwerking van panoramische beelden (die 360° dekking bieden maar last hebben van geometrische vervorming) en 3D-puntenwolken (die geometrische precisie bieden). Er is nog geen framework dat deze twee modaliteiten gezamenlijk en open-vocabulair (via natuurlijke taal) kan begrijpen.

Methodologie: JOPP-3D

JOPP-3D is een unificerend framework dat open-vocabulaire semantische segmentatie uitvoert op zowel 3D-puntenwolken als panoramische beelden, zonder dat er specifieke training op gelabelde data nodig is. Het systeem maakt gebruik van vooraf getrainde Vision-Language Models (VLMs) zoals CLIP en SAM.

Het proces verloopt in drie hoofdstappen:

1. Tangentiële Decompositie (Tangential Decomposition)
Om de geometrische vervorming van panoramische beelden (equirectangular) op te lossen en compatibiliteit te creëren met bestaande VLMs (die zijn getraind op perspectiefbeelden), wordt het panorama opgesplitst:

Het panoramische beeld en de dieptekaart worden geprojecteerd op de 20 vlakken van een regelmatig twintigvlak (icosahedron).
Dit resulteert in 20 "tangentiële perspectiefbeelden" met elk een gezichtsveld (Field of View) van 100°.
Deze decompositie minimaliseert randartefacten en zorgt voor een stabiele projectie, waardoor de beelden direct kunnen worden verwerkt door standaard vision-modellen.
Op basis hiervan wordt een geünificeerde 3D-puntenwolk van de scène gereconstrueerd.

2. 3D-Instance Extractie en Semantische Alignement
Om objecten te identificeren zonder voorafgaande labels, worden eerst object-agnostische instancemaskers gegenereerd:

Instance Proposals: Het systeem gebruikt ofwel Mask3D (een gesuperviseerde model) of SAM3D (een ongesuperviseerde variant gebaseerd op SAM) om 3D-objectmaskers te extraheren uit de gereconstrueerde puntenwolk.
Projectie naar 2D: Voor elk 3D-objectmasker worden de corresponderende pixels gezocht in de beste $K$ tangentiële perspectiefbeelden.
Feature Extractie: Met behulp van SAM worden de objecten uitgesneden (crops) uit deze perspectiefbeelden. Vervolgens worden deze crops ingevoerd in de CLIP-image-encoder om een semantische embedding te genereren.
Aggregatie: De embeddings van de $K$ views worden gemiddeld om een robuuste, open-vocabulaire semantische descriptor voor het 3D-object te creëren.

3. 3D-naar-Panorama Semantische Extractie
De verkregen semantische labels van de 3D-puntenwolken worden teruggeprojecteerd naar het panoramische domein:

Diepte-correspondentie: Elke pixel in het panoramische beeld wordt omgezet naar 3D-coördinaten via de dieptekaart.
Nearest-Neighbor Matching: De semantische label van het dichtstbijzijnde punt in de 3D-puntenwolk wordt toegewezen aan de pixel.
Consistentie over scènes: Om gaten in de segmentatie (bijvoorbeeld bij deuren of gangen waar dieptewaarden ontbreken) op te vullen, wordt een diepte-correspondentiestrategie gebruikt. Semantische labels worden overgedragen tussen overlappende gebieden van aangrenzende panoramische opnames, wat zorgt voor een continue en consistente semantische kaart.

Belangrijkste Bijdragen

Eerste gezamenlijke aanpak: JOPP-3D is het eerste framework dat open-vocabulaire segmentatie uitvoert op zowel 3D-puntenwolken als panoramische beelden binnen één unified pipeline.
Tangentiële Decompositie: Een effectieve methode om panoramische input om te zetten in perspectiefbeelden die compatibel zijn met VLMs, zonder dat er een aangepast netwerk voor vervorming getraind hoeft te worden.
3D-naar-2D Propagatie: Een methode om semantische labels via diepte-correspondentie van 3D naar panoramische beelden te verspreiden, wat zorgt voor multi-view consistentie.
Label-vrije werking: Het systeem functioneert in een "zero-shot" of "weakly-supervised" modus, waarbij natuurlijke taalqueries worden gebruikt om willekeurige objecten te segmenteren zonder specifieke training op de doelklassen.

Resultaten

Het framework is geëvalueerd op twee datasets: Stanford-2D-3D-s (indoor scènes) en ToF-360 (Time-of-Flight data).

3D Segmentatie (S3DIS): JOPP-3D (weakly-supervised variant) bereikte een mIoU van 80,9%, wat een nieuwe state-of-the-art (SOTA) is en aanzienlijk beter presteert dan gesuperviseerde gesloten-vocabulaire modellen (zoals PointTransformerV3 met 73,4%) en andere open-vocabulaire methoden.
Panoramische Segmentatie (Stanford-2D-3D-s): Het model behaalde een mIoU van 70,1% en een Open mIoU van 74,6%, wat alle bestaande methoden (zowel gesloten als open vocabulaire) overtreft.
Zero-shot prestaties: Zelfs de volledig ongesuperviseerde variant (JOPP-3D(u)) presteerde sterk, met name op de uitdagende ToF-360 dataset, wat de generalisatiekracht van de methode aantoont.
Ablatie-studies: Deze bevestigden dat elke component essentieel is. Het verwijderen van de SAM-maskering leidde tot ernstige verwarring tussen objecten, en het verwijderen van de diepte-correspondentie resulteerde in onvolledige segmentaties bij deuren en overgangen.

Significantie

JOPP-3D markeert een belangrijke stap vooruit in de perceptie voor autonome systemen. Door de beperkingen van gesloten vocabulaires en de noodzaak van grote gelabelde datasets te doorbreken, maakt het systemen veerkrachtiger en adaptiever in nieuwe omgevingen. De unieke combinatie van 3D-geometrie en 360°-visie via natuurlijke taal stelt robots en autonome voertuigen in staat om complexe ruimtes te begrijpen en te navigeren op basis van menselijke instructies, zelfs voor objecten die niet in de oorspronkelijke trainingsdata voorkwamen. De training-vrije aard van de methode maakt het bovendien zeer kostenefficiënt en schaalbaar.

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

Hoe werkt het? (De Analogie van de Pizzadoos)

Waarom is dit zo speciaal?

Samenvattend

Probleemstelling

Methodologie: JOPP-3D

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics