EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un robot explorateur dans une maison inconnue. Votre mission ? Construire une carte mentale de la maison et comprendre ce qu'il y a dedans (chaises, tables, livres) en même temps que vous avancez, sans jamais vous arrêter pour réfléchir.

C'est exactement ce que fait EmbodiedSplat.

1. Le Problème : La lenteur des anciens robots

Auparavant, pour comprendre une pièce, un robot devait souvent :

Prendre des photos.
S'arrêter.
Faire des calculs lourds pendant des heures pour assembler les pièces du puzzle.
Ensuite seulement, il pouvait dire : "Ah, c'est une chaise !"

C'est trop lent pour un robot qui doit éviter un obstacle ou attraper un objet en temps réel. Les anciennes méthodes étaient comme un architecte qui dessine un plan complet avant même de poser la première brique.

2. La Solution : EmbodiedSplat, le "Peintre Instantané"

EmbodiedSplat est comme un artiste qui peint la maison pendant que vous marchez.

Vitesse : Il traite les images à une vitesse fulgurante (5 à 6 images par seconde). C'est comme regarder un film en direct, pas une vidéo qui met en pause.
Compréhension immédiate : Dès qu'il voit un objet, il le reconnaît. Il ne se contente pas de voir une forme, il sait que c'est un "canapé" ou une "tasse", même s'il n'a jamais vu ce modèle exact avant.

3. Comment ça marche ? (L'analogie du Mosaïque Magique)

Pour comprendre la technologie derrière, imaginons que la maison est construite avec des millions de petites perles lumineuses (appelées "Gaussians" dans le jargon).

A. Les Perles et les Étiquettes (Le Codebook)

Chaque perle a besoin d'une étiquette pour dire ce qu'elle est.

Le problème : Si on colle une étiquette géante (avec tout le texte du dictionnaire) sur chaque perle, la mémoire du robot explose. C'est comme essayer de coller un livre entier sur chaque grain de sable d'une plage.
La solution d'EmbodiedSplat : Ils utilisent un système de codes.
- Imaginez un grand dictionnaire mural (le "Codebook Global") qui contient les définitions de tous les objets possibles (chaise, table, chien, etc.).
- Au lieu de coller le livre entier sur chaque perle, on colle juste un numéro de page et un pourcentage (ex: "Page 42, 70% de confiance").
- Le robot sait que la perle est une "chaise" parce qu'elle pointe vers la page 42 du dictionnaire. Cela économise énormément d'espace, comme si on utilisait un code QR au lieu d'écrire tout le texte.

B. Les Deux Yeux du Robot (2D et 3D)

Pour bien comprendre, le robot utilise deux types de vision :

L'œil 2D (La photo) : Il regarde l'image et dit "Ça ressemble à une chaise". C'est rapide et riche en détails, mais parfois trompeur (une ombre peut ressembler à un objet).
L'œil 3D (La structure) : Il regarde la forme et la position dans l'espace. "Ça a la forme d'une chaise et c'est posé sur le sol".

La magie : EmbodiedSplat combine ces deux regards. Si l'œil 2D hésite, l'œil 3D tranchera. C'est comme si vous utilisiez à la fois votre vue et votre toucher pour identifier un objet dans le noir.

4. Pourquoi c'est révolutionnaire ?

Pas besoin de réapprendre : Les anciens robots devaient apprendre spécifiquement pour chaque maison (comme apprendre une nouvelle langue pour chaque pays). EmbodiedSplat est un polyglotte : il arrive dans une nouvelle maison et comprend tout de suite, sans entraînement préalable.
Mémoire efficace : Grâce à son système de "codes" (les numéros de page), il peut cartographier une maison entière sans saturer sa mémoire, contrairement à ses concurrents qui s'essoufflent vite.
Temps réel : Il peut construire la carte et comprendre le monde en même temps que le robot se déplace. C'est crucial pour la robotique : si vous demandez à un robot "Où est la tasse ?", il doit pouvoir répondre tout en marchant, pas après avoir fini de cartographier la pièce.

En résumé

EmbodiedSplat, c'est comme donner à un robot des lunettes intelligentes qui lui permettent de :

Voir le monde en 3D instantanément.
Lire les étiquettes de tous les objets sans avoir besoin de lire des livres entiers.
Comprendre ce qu'il voit en temps réel, même dans des lieux qu'il n'a jamais visités.

C'est une avancée majeure pour rendre les robots plus autonomes, plus rapides et plus intelligents dans notre monde réel.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les tâches d'agents incarnés (embodied AI), telles que la navigation robotique et la manipulation d'objets, exigent une compréhension immédiate et en temps réel de l'environnement 3D au fur et à mesure de l'exploration. Les modèles de perception existants souffrent de plusieurs limitations majeures dans ce contexte :

Manque de généralisation : La plupart des méthodes de compréhension sémantique 3D (basées sur NeRF ou 3DGS) nécessitent une optimisation par scène (per-scene optimization), ce qui les rend incapables de généraliser à de nouvelles scènes sans réentraînement.
Latence et temps réel : Les approches actuelles sont souvent trop lentes pour suivre le rythme d'exploration d'un agent (souvent < 2 FPS), ou nécessitent des rendus multiples de cartes de caractéristiques 2D lourds.
Compréhension ouverte (Open-Vocabulary) : Il est difficile de combiner la reconstruction 3D haute fidélité avec la capacité de comprendre des objets décrits par des langages naturels variés sans base de données de classes prédéfinies.

L'objectif est de développer un modèle capable de reconstruire et de comprendre une scène 3D entière en ligne (online), en temps réel, avec une généralisation élevée et une compréhension ouverte.

2. Méthodologie : EmbodiedSplat

Le papier propose EmbodiedSplat, un cadre novateur qui étend les capacités de la 3D Gaussian Splatting (3DGS) pré-entraînée (basée sur FreeSplat++) pour inclure une sémantique ouverte en flux continu.

A. Architecture Globale

Le système transforme un flux d'images posées (streaming images) en un champ de Gaussiens 3D sémantiques $\{ \mu_i, S_i, R_i, \alpha_i, c_i, s_i \}$ , où $s_i$ est l'encodage linguistique associé à chaque Gaussien. Le processus se déroule en deux phases principales :

Reconstruction 3D Feed-Forward : Utilisation de FreeSplat++ pour générer des triplets locaux de Gaussiens (position, confiance, latents) à partir d'images courantes et de vues de référence.
Fusion en Ligne : Fusion des Gaussiens locaux avec un champ global existant pour réduire la redondance et mettre à jour la scène au fur et à mesure de l'exploration.

B. Composants Clés pour la Sémantique Ouverte

Pour intégrer la sémantique sans exploser la mémoire ni perdre la généralisation, l'auteur propose trois innovations majeures :

Champs de Coefficients Épars avec Codebook Global CLIP (Sparse Coefficient Field) :
- Problème : Attacher les vecteurs CLIP complets (512 ou 768 dimensions) à chaque Gaussien (parfois des millions) est trop coûteux en mémoire.
- Solution : Au lieu de stocker le vecteur complet, le système utilise un Codebook Global contenant des caractéristiques CLIP au niveau des instances (dérivées d'un modèle de segmentation comme FastSAM).
- Chaque Gaussien stocke uniquement :
  - Un cache d'index ( $I$ ) pointant vers les entrées du codebook.
  - Un cache de poids ( $\Omega$ ) contenant des coefficients épars.
- La caractéristique sémantique finale est reconstruite comme une combinaison linéaire sparse des vecteurs du codebook. Cela préserve la sémantique complète de CLIP tout en réduisant drastiquement la mémoire.
Fusion en Ligne des Coefficients (Online Update) :
- Un algorithme de fusion (Algorithm 1) met à jour les index et les poids lors de la fusion des Gaussiens locaux et globaux.
- Il agrège les preuves sémantiques de multiples vues en pondérant les contributions par la confiance.
- Pour maintenir l'efficacité, seuls les $L-1$ meilleurs contributeurs (basés sur les poids) sont conservés, éliminant le bruit et les indices à faible confiance.
Caractéristiques 3D Géométriquement Conscientes (Geometry-aware 3D Features) :
- Les caractéristiques 2D CLIP manquent de priors géométriques 3D.
- Le système utilise un 3D U-Net avec un adaptateur basé sur la mémoire pour agréger les nuages de points de caractéristiques.
- Cela permet d'intégrer les priors géométriques de la scène reconstruite précédemment, compensant les limites des embeddings 2D et améliorant la précision de la segmentation 3D.

C. EmbodiedSplat-fast

Pour atteindre un taux de traitement quasi temps réel (5-6 FPS), une variante légère est proposée :

Remplacement des modèles 2D lourds par des modèles temps réel (FastSAM + Mask-Adapter).
Suppression du module 3D U-Net (utilisation exclusive des caractéristiques 2D).
Recherche 3D optimisée : Au lieu de calculer la similarité cosinus entre chaque Gaussien et le texte (complexité $O(MD)$ ), le système précalcule les similarités entre le texte et le codebook ( $O(KD)$ ), puis effectue une somme pondérée sparse ( $O(M(L-1))$ ). Cela accélère considérablement la recherche d'objets.

3. Contributions Clés

Premier cadre 3DGS sémantique en ligne et généralisable : Un modèle feed-forward capable de reconstruire et de comprendre une scène entière en temps réel sans optimisation par scène.
Représentation mémoire efficace : Introduction d'un champ de coefficients épars couplé à un codebook global CLIP, permettant de stocker la sémantique de millions de Gaussiens avec une empreinte mémoire minimale tout en préservant la richesse sémantique de CLIP.
Fusion sémantique 2D-3D : Combinaison de caractéristiques sémantiques 2D riches et de caractéristiques géométriques 3D pour une compréhension spatiale supérieure.
Vitesse d'inférence : Atteinte de 5-6 FPS par image, rendant la reconstruction sémantique compatible avec les boucles de contrôle des robots.

4. Résultats Expérimentaux

Les expériences ont été menées sur des datasets intérieurs réels et synthétiques : ScanNet, ScanNet200, ScanNet++ et Replica.

Performance de Segmentation 3D : EmbodiedSplat surpasse significativement les méthodes de base (baselines) existantes (comme LangSplat, Dr. Splat, InstanceGaussian) en termes de mIoU (mean Intersection over Union) et de mACC.
- Sur ScanNet (19 classes), il atteint 46.22% mIoU contre 30.49% pour le meilleur concurrent (Occam's LGS).
- Il maintient des performances élevées même avec des classes non vues (Open-Vocabulary).
Efficacité Temporelle :
- Temps de reconstruction : ~1 min 10 sec pour une scène complète (vs plusieurs heures pour les méthodes offline).
- Débit : 5-6 FPS pour la version "fast", permettant une interaction en temps réel.
Généralisation Cross-Domain : Le modèle montre une forte capacité de généralisation lors du transfert entre datasets (ex: ScanNet vers ScanNet++), bien que la performance baisse légèrement sur des données synthétiques (Replica) en raison de l'écart de domaine (domain gap) inhérent aux modèles feed-forward entraînés sur du réel.
Efficacité Mémoire : La méthode de compression par coefficients épars réduit la consommation mémoire d'un facteur ~67x par rapport au stockage natif des vecteurs CLIP, sans perte d'information sémantique (contrairement aux auto-encodeurs ou quantification).

5. Signification et Impact

EmbodiedSplat représente une avancée significative pour la robotique et les agents autonomes.

Passage du "Offline" au "Online" : Il résout le goulot d'étranglement des méthodes actuelles qui nécessitent une phase d'optimisation longue et spécifique à chaque scène, rendant l'application robotique pratique impossible.
Équilibre Performance/Efficacité : Il démontre qu'il est possible d'avoir à la fois une haute fidélité de reconstruction, une compréhension sémantique ouverte et une vitesse temps réel, ce qui était auparavant considéré comme un compromis difficile.
Adoption Potentielle : En s'appuyant sur la 3DGS, une représentation de plus en plus populaire pour sa rapidité de rendu, ce travail ouvre la voie à des systèmes de perception robotique capables de comprendre et d'interagir avec des environnements complexes et dynamiques en utilisant le langage naturel comme interface.

En résumé, ce papier propose une solution complète pour la perception 3D incarnée, combinant reconstruction géométrique et compréhension sémantique ouverte dans un cadre léger, rapide et généralisable.