JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

Ce papier présente JOPP-3D, un cadre de segmentation sémantique à vocabulaire ouvert qui fusionne des données panoramiques et des nuages de points 3D pour permettre une compréhension de scène pilotée par le langage et surpasser les méthodes actuelles sur les deux modalités.

Sandeep Inuganti, Hideaki Kanayama, Kanta Shimizu, Mahdi Chamseddine, Soichiro Yokota, Didier Stricker, Jason Rambach

Publié 2026-03-09
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes dans une pièce inconnue. Vous avez deux outils pour la comprendre :

  1. Une photo à 360° (comme une vue panoramique) qui vous montre tout autour de vous, mais de manière plate et un peu déformée, comme si vous regardiez une carte du monde.
  2. Un nuage de points 3D, une sorte de "squelette" invisible de la pièce composé de millions de petits points qui donnent la forme et la profondeur des objets.

Le problème, c'est que les robots et les intelligences artificielles actuelles ont du mal à comprendre ces deux outils en même temps, surtout s'ils doivent reconnaître des objets qu'ils n'ont jamais vus auparavant (comme un "vieux réfrigérateur" ou un "pot de fleurs exotique") sans avoir été entraînés spécifiquement dessus.

C'est là qu'intervient JOPP-3D, le nouveau système présenté dans cet article. Voici comment il fonctionne, expliqué simplement :

1. Le concept de base : Le traducteur universel

Imaginez que JOPP-3D est un traducteur super-puissant qui parle à la fois la langue des images (ce que vous voyez) et la langue des mots (ce que vous dites).

Au lieu d'apprendre par cœur une liste fermée d'objets (comme "chaise", "table", "lit"), ce système utilise un dictionnaire géant de concepts visuels et textuels (basé sur des modèles comme CLIP). Si vous lui demandez : "Montre-moi où sont les tuyaux de plomberie", il va chercher dans son cerveau visuel ce à quoi ressemblent des tuyaux, même s'il n'a jamais vu de tuyaux dans cette pièce précise.

2. La magie de la "Décomposition Tangentielle" (Le puzzle sphérique)

Les photos à 360° sont difficiles à analyser car elles sont déformées (les murs semblent courbés).

  • L'analogie : Imaginez que vous prenez une orange (la photo à 360°) et que vous la coupez en 20 morceaux de zeste parfaitement plats (comme un ballon de foot ou un icosaèdre).
  • Ce que fait JOPP-3D : Il transforme la photo déformée en 20 petites photos rectangulaires normales. Cela permet à l'IA de regarder chaque partie de la pièce avec des "lunettes" normales, sans déformation, ce qui rend la reconnaissance beaucoup plus précise.

3. Le pont entre le 2D et le 3D (Le jeu de l'ombre chinoise)

Une fois que le système a identifié un objet sur la photo plate (2D), il doit le placer correctement dans l'espace 3D.

  • L'analogie : C'est comme projeter l'ombre d'un objet 2D sur un mur 3D.
  • La méthode : Le système utilise la profondeur (la distance) pour projeter les étiquettes de la photo panoramique directement sur le nuage de points 3D. Si la photo dit "c'est un mur", le système colore les points 3D correspondants en rouge.

4. La "Correspondance de Profondeur" (Remplir les trous)

Parfois, une photo ne voit pas tout (par exemple, derrière une porte ouverte ou dans un couloir sombre).

  • L'analogie : Imaginez que vous avez deux voisins qui regardent la même rue depuis des fenêtres différentes. Si l'un ne voit pas un arbre parce qu'un camion le cache, mais que l'autre le voit, ils peuvent se partager l'information.
  • Ce que fait JOPP-3D : Il compare les zones qui se chevauchent entre différentes photos de la même pièce. Si une zone est floue ou manquante dans une vue, il "emprunte" l'information de la vue voisine pour compléter le tableau. Cela évite les trous dans la carte sémantique.

Pourquoi c'est génial ?

Avant, pour qu'un robot reconnaisse un objet, il fallait lui montrer des milliers de photos de cet objet spécifique (entraînement supervisé).
Avec JOPP-3D :

  • Zéro entraînement spécifique : Vous pouvez lui demander de trouver n'importe quoi, même des objets rares, juste en utilisant des mots.
  • Double vision : Il comprend à la fois la "peau" de la pièce (la photo) et son "squelette" (le 3D) en même temps.
  • Résultat : Il crée une carte mentale complète de l'environnement, capable de répondre à des questions comme "Où est le robinet ?" ou "Montre-moi les zones dangereuses", même dans des lieux qu'il n'a jamais visités.

En résumé, JOPP-3D est comme un architecte-linguiste qui peut entrer dans une pièce, regarder autour de lui, écouter vos questions en langage naturel, et immédiatement dessiner une carte 3D précise de tout ce qui vous intéresse, sans avoir besoin de lire un manuel d'instructions au préalable.