Semantic-Guided 3D Gaussian Splatting for Transient Object Removal

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : Le "Fantôme" dans la photo

Imaginez que vous voulez créer un modèle 3D d'une place publique en prenant des centaines de photos sous différents angles. C'est ce qu'on appelle le 3D Gaussian Splatting (une technologie très récente qui permet de reconstruire des scènes en 3D ultra-réalistes et rapides).

Mais il y a un souci : si des gens marchent devant la caméra ou si un ballon passe dans le champ, la reconstruction 3D devient bizarre. Au lieu de voir un mur propre, vous voyez des fantômes (des formes floues et transparentes) là où les gens ont marché. C'est comme essayer de peindre un tableau en regardant à travers une vitre sale où des passants défilent : le peintre finit par mélanger les passants avec le mur.

🕵️‍♂️ La Solution : Un Détective qui comprend le sens (pas juste le mouvement)

Avant cette recherche, les ordinateurs essayaient de supprimer ces fantômes en regardant le mouvement.

L'ancienne méthode : "Ah, ce point bouge, c'est un fantôme, je l'efface !"
Le problème : Parfois, un mur semble bouger à cause de l'angle de la caméra (un effet appelé "parallaxe"). L'ordinateur confond le mur qui "bouge" visuellement avec un vrai fantôme et efface le mur par erreur. C'est comme un détective qui arrêterait tout le monde dans la rue juste parce qu'ils marchent, même s'ils sont chez eux.

L'idée de ce papier (CLIP-GS) : Au lieu de regarder comment les objets bougent, on demande à l'ordinateur de comprendre ce qu'ils sont.

🧠 L'Analogie du "Chef de Cuisine et le Menu"

Imaginez que vous êtes un chef (l'ordinateur) qui prépare un plat (la scène 3D).

Le problème : Il y a des ingrédients indésirables dans la soupe (les gens, les ballons).
L'ancienne méthode : Le chef goûte et dit : "Ça bouge, c'est bizarre, je jette tout ce qui bouge !" (Même s'il jette parfois des légumes normaux).
La nouvelle méthode (CLIP-GS) : Le chef a un menu magique (le modèle CLIP, une intelligence artificielle qui comprend le langage et les images).
- Il regarde chaque ingrédient et demande au menu : "Est-ce que tu es un 'personne' ? Un 'ballon' ?"
- Si le menu dit "Oui, c'est un humain", le chef le retire délicatement.
- Si le menu dit "Non, c'est un mur", le chef le garde, même si ce mur semble bouger un peu à cause du mouvement de la caméra.

⚙️ Comment ça marche concrètement ?

Le processus se déroule en trois étapes simples, comme un tri sélectif intelligent :

Le Test de Reconnaissance : À chaque fois que l'ordinateur "regarde" la scène 3D, il utilise un outil appelé CLIP (un cerveau artificiel très fort en reconnaissance d'images). Il compare l'image virtuelle avec des phrases comme "une photo de personne" ou "une photo de ballon".
Le Score de Soupçon : Chaque petit point de la scène 3D (appelé "Gaussienne") reçoit un score.
- Si le point ressemble beaucoup à un humain, son score de "soupçon" monte.
- Si le point ressemble à un mur, son score reste bas.
L'Épuration : À la fin, l'ordinateur dit : "Tous les points qui ont un score de soupçon trop élevé sont des intrus." Il réduit leur visibilité (comme si on les rendait transparents) et les supprime définitivement.

🏆 Les Résultats : Pourquoi c'est génial ?

Les chercheurs ont testé ça sur des scènes réelles avec des gens qui marchent.

Résultat : Les fantômes ont disparu ! Les murs sont nets, les statues sont propres.
Avantage clé : C'est très rapide et ça ne prend pas beaucoup de place dans la mémoire de l'ordinateur. Contrairement à d'autres méthodes lourdes qui nécessitent des super-ordinateurs, celle-ci peut tourner en temps réel.
La précision : Même si un mur n'est visible que sur 15% des photos (ce qui trompait les anciennes méthodes), l'IA reconnaît que c'est un "bâtiment" et le garde. C'est comme si le chef savait que le mur est là, même s'il est caché la plupart du temps.

🚧 Les Petits Bémols (Les limites)

Rien n'est parfait :

Il faut dire à l'ordinateur à l'avance ce qu'on veut supprimer (par exemple : "enlève les gens"). Si vous ne lui dites pas, il ne sait pas quoi chercher.
Si l'objet est très petit ou très loin (comme une personne à l'autre bout de la rue), l'IA a parfois du mal à le voir clairement, un peu comme si le chef ne pouvait pas distinguer un grain de poivre à l'autre bout de la table.

💡 En résumé

Ce papier propose une méthode intelligente pour nettoyer les scènes 3D. Au lieu de se fier aveuglément au mouvement, elle utilise la sémantique (la compréhension du sens) pour distinguer ce qui doit rester (le décor) de ce qui doit partir (les passants). C'est comme passer d'un balai grossier qui nettoie tout ce qui bouge, à un pinceau précis qui ne touche que les taches indésirables.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La reconstruction 3D par Splatting de Gaussiennes 3D (3DGS) est une méthode efficace pour la synthèse de vues nouvelles en temps réel. Cependant, elle suppose que les scènes observées sont statiques. Dans les captures multi-vues réelles (casuels), la présence d'objets transitoires (personnes marchant, objets déplacés) crée des incohérences entre les vues.

Conséquence : Ces incohérences entraînent des artefacts de "fantômes" (ghosting) dans la reconstruction finale, où les objets temporaires apparaissent semi-transparents ou flous.
Limites des solutions existantes :
- Les méthodes basées sur la décomposition de scène (ex: RobustNeRF) sont coûteuses en mémoire.
- Les méthodes basées sur le mouvement ou la visibilité souffrent d'ambiguïté de parallaxe : une géométrie statique vue sous peu d'angles peut être confondue avec un objet transitoire, conduisant à une suppression excessive de la géométrie valide.

2. Méthodologie : CLIP-GS

L'article propose un cadre guidé par la sémantique (CLIP-GS) qui utilise des modèles vision-langage (CLIP) pour filtrer les objets transitoires sans sacrifier la légèreté du 3DGS.

A. Évaluation Sémantique par CLIP

Au lieu de se fier aux motifs de mouvement, le système classe les vues rendues pendant l'entraînement en utilisant le modèle CLIP (ViT-B/32) :

Prompts : Deux catégories de textes sont définies :
- Distracteurs (D) : "une photo d'une personne", "des piétons", "des mains", etc.
- Statique (S) : "une photo d'un bâtiment", "un mur", "des meubles".
Calcul de score : Pour chaque vue rendue $I_t$ , l'encodage visuel est comparé aux prompts de distracteurs via la similarité cosinus. Un score de distracteur $\hat{s}_d$ est calculé (normalisé entre 0 et 1). Un score élevé (> 0.5) indique la présence potentielle d'objets transitoires.

B. Accumulation par Gaussienne

Contrairement aux approches image par image, l'évidence sémantique est agrégée au niveau de chaque Gaussienne 3D ( $G_j$ ) au cours des itérations d'optimisation :

Pour chaque itération, si une Gaussienne est visible ( $v_j=1$ ) et que la vue contient des distracteurs, son score accumulé $\tilde{s}_j$ augmente.
Le score final par Gaussienne est normalisé par le nombre de vues où elle était visible ( $s_j = \tilde{s}_j / n_j$ ). Cela garantit que le score reflète la cohérence de catégorie et non simplement la fréquence de visibilité.

C. Élagage et Régularisation Conscients de la Catégorie

Deux mécanismes complémentaires suppriment les objets transitoires tout en préservant la géométrie statique :

Régularisation d'opacité : Une pénalité est ajoutée à la fonction de perte photométrique ( $L_{CLIP}$ ) pour réduire l'opacité ( $\alpha$ ) des Gaussiennes ayant un score sémantique élevé.
Élagage périodique (Pruning) : À intervalles fixes, les Gaussiennes sont supprimées si :
- Leur score sémantique dépasse un seuil $\tau$ (identification de distracteurs).
- OU si elles sont géométriquement instables (faible visibilité et faible opacité).

3. Contributions Clés

Résolution de l'ambiguïté de parallaxe : En utilisant la classification sémantique (ex: "mur" vs "personne"), la méthode distingue correctement les objets statiques vus sous peu d'angles des vrais objets transitoires, là où les méthodes basées sur la visibilité échouent.
Efficacité mémoire et temps réel : Contrairement aux méthodes NeRF volumétriques lourdes, CLIP-GS maintient l'architecture légère du 3DGS. CLIP n'est utilisé qu'en mode inférence pendant l'entraînement, sans modifier les paramètres du modèle, ajoutant une surcharge mémoire négligeable (deux tableaux scalaires par Gaussienne).
Suppression ciblée : Le cadre permet de supprimer spécifiquement des catégories d'objets prédéfinies tout en préservant les éléments statiques, même ceux avec une visibilité partielle.

4. Résultats Expérimentaux

Les expériences ont été menées sur le benchmark RobustNeRF (séquences Statue, Android, Yoda, Crab).

Performance Quantitative :
- CLIP-GS surpasse systématiquement le 3DGS "Vanilla" et Mip-NeRF 360.
- Gain de PSNR allant jusqu'à +1.94 dB par rapport au 3DGS standard (séquence Statue).
- Amélioration des métriques SSIM et LPIPS, indiquant une meilleure fidélité perceptuelle.
Analyse d'ablation :
- La combinaison de la régularisation d'opacité et de l'élagage périodique donne les meilleurs résultats (+1.3 dB de gain total).
- Le calibrage du seuil $\tau$ est crucial (optimal entre 0.015 et 0.02). Un seuil trop élevé ne supprime rien, un seuil trop bas supprime trop de géométrie valide.
Qualité Visuelle :
- Élimination réussie des artefacts de fantômes (ex: personnes marchant).
- Préservation correcte des murs et structures statiques même lorsqu'ils sont visibles dans seulement 15% des vues (contrairement aux méthodes basées sur la visibilité qui les auraient supprimés).

5. Signification et Limites

Signification :
Ce travail démontre que l'intégration de modèles vision-langage (VLM) dans l'optimisation de scènes 3D explicites (Gaussiennes) est une stratégie pratique et efficace pour le nettoyage de scènes. Cela permet d'obtenir des reconstructions propres en temps réel avec une empreinte mémoire minimale, rendant la technologie viable pour des déploiements sur des appareils aux ressources limitées.

Limites :

Dépendance aux prompts : L'utilisateur doit spécifier les catégories d'objets à supprimer avant l'entraînement (bien que des catégories génériques comme "personne" fonctionnent bien).
Objets petits/distants : CLIP a des difficultés avec les objets de moins de 50 pixels, ce qui peut laisser des résidus de personnes lointaines.
Calibrage du seuil : Le seuil d'élagage $\tau$ nécessite un ajustement spécifique à chaque jeu de données, bien que la plage optimale soit étroite.

Travaux futurs :
L'article suggère d'explorer le score sémantique au niveau des "patches" pour mieux localiser les petits objets, la génération automatique de prompts, et des stratégies de seuillage adaptatif pour une meilleure généralisation.