IDSplat: Instance-Decomposed 3D Gaussian Splatting for Driving Scenes

Each language version is independently generated for its own context, not a direct translation.

🚗 Le Problème : Recréer le monde réel sans manuel d'instructions

Imaginez que vous voulez créer un simulateur de conduite ultra-réaliste pour entraîner des voitures autonomes. Pour cela, vous devez reconstruire numériquement des scènes de rue réelles (voitures, piétons, feux, bâtiments) à partir de vidéos et de scans laser.

Le problème, c'est que les rues sont dynamiques : les voitures bougent, les piétons marchent.

L'ancienne méthode : C'était comme demander à un dessinateur de redessiner chaque voiture à chaque image de la vidéo, en lui disant exactement où elle doit être. C'est long, cher, et il faut des humains pour annoter tout ça.
Les méthodes récentes (sans humains) : Elles sont plus rapides, mais elles traitent la scène comme une "soupe" de pixels qui bougent. Elles ne distinguent pas clairement "la voiture" de "la route". Si vous voulez déplacer la voiture dans le simulateur, c'est impossible, car la voiture est mélangée avec le fond. C'est comme essayer de retirer un œuf d'une omelette sans casser les autres ingrédients.

💡 La Solution : IDSplat (Le "Lego" intelligent)

L'équipe derrière IDSplat a trouvé une astuce géniale. Au lieu de traiter la scène comme une soupe de pixels, ils la traitent comme un ensemble d'objets Lego distincts.

Voici comment ça marche, étape par étape, avec des analogies simples :

1. La "Soupe" devient des "Objets" (Décomposition)

Imaginez que vous filmez une rue. IDSplat ne voit pas juste des pixels qui bougent. Il utilise des outils d'intelligence artificielle très puissants (comme Grounded-SAM-2 et DINOv3) pour dire : "Attends, ce groupe de pixels qui bouge ensemble, c'est une voiture. Ce groupe-là, c'est un piéton."

C'est comme si vous aviez une caméra magique capable de coller une étiquette "VOITURE" sur chaque véhicule, même sans que personne ne lui ait dit à l'avance. C'est ce qu'on appelle le "Zero-shot" : l'IA devine ce que c'est sans avoir besoin d'un manuel d'instructions préalable.

2. Le "Fil invisible" (Trajectoires)

Une fois qu'elle a identifié les objets, IDSplat ne se contente pas de les regarder. Elle imagine un fil invisible qui relie chaque voiture à travers le temps.

Elle ne dit pas juste : "La voiture est ici, puis là."
Elle dit : "La voiture tourne doucement, accélère, puis freine."

Elle utilise des mathématiques (lissage de trajectoire) pour s'assurer que le mouvement est fluide et logique, comme si la voiture suivait les lois de la physique, même si la caméra a raté quelques images.

3. Le "Miroir 3D" (Gaussians)

Pour créer l'image finale, IDSplat utilise une technique appelée 3D Gaussian Splatting.

Imaginez que vous remplissez la scène avec des millions de petites bulles de savon translucides (les Gaussians).
Chaque bulle a une couleur, une taille et une position.
Pour les objets fixes (les bâtiments), les bulles sont collées au sol.
Pour les objets mobiles (les voitures), toutes les bulles qui composent la voiture sont collées ensemble sur un même chariot. Quand la voiture bouge, tout le chariot de bulles se déplace d'un coup.

C'est ça la magie : au lieu de faire bouger chaque pixel individuellement, on fait bouger tout l'objet d'un bloc.

🎁 Pourquoi c'est génial ? (Les avantages)

Grâce à cette méthode, on obtient trois super-pouvoirs :

Pas besoin de manuel (Sans annotation) : L'IA apprend toute seule en regardant les vidéos et les scans laser. Pas besoin de payer des humains pour dessiner des boîtes autour des voitures.
On peut manipuler la scène : Comme chaque voiture est un objet distinct (un "Lego"), vous pouvez décider de supprimer une voiture de la simulation, ou de changer sa trajectoire pour voir ce qui se passerait si elle tournait à gauche au lieu de droite. C'est impossible avec les anciennes méthodes.
C'est rapide et précis : Même si on ne filme la scène que de quelques angles (peu de vues), IDSplat peut reconstruire une scène parfaite. C'est comme si vous pouviez reconstituer un puzzle complet en n'ayant que 25% des pièces, grâce à la logique des objets.

🏁 En résumé

IDSplat, c'est comme passer d'un dessin animé où tout est mélangé à un monde en 3D modulaire.
Au lieu de dire "Voici une image floue d'une rue", IDSplat dit : "Voici une route, voici un bâtiment, et voici 3 voitures et 2 piétons qui bougent de manière logique."

C'est une avancée majeure pour créer des simulateurs de conduite autonomes plus sûrs, plus réalistes et beaucoup plus faciles à utiliser, car on peut maintenant "jouer" avec les objets de la scène sans tout casser.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La reconstruction de scènes dynamiques de conduite est essentielle pour le développement de systèmes autonomes, notamment pour la formation et les tests en boucle fermée via des simulations réalistes (jumeaux numériques). Bien que les méthodes récentes de Gaussian Splatting (3DGS) et de Neural Radiance Fields (NeRF) permettent des reconstructions de haute fidélité, elles souffrent de deux limitations majeures dans le contexte de la conduite autonome :

Dépendance aux annotations : Les méthodes les plus performantes nécessitent des annotations humaines coûteuses (trajectoires d'objets, boîtes 3D temporelles) pour séparer les objets dynamiques du fond statique.
Manque de décomposition d'instance : Les approches self-supervised (sans annotation) actuelles traitent souvent les scènes dynamiques comme des primitives temporelles variables sans décomposition explicite par objet. Cela entraîne un mélange des éléments statiques et dynamiques, empêchant la manipulation individuelle des objets (nécessaire pour générer de nouveaux scénarios) et rendant les représentations incohérentes.

L'objectif est donc de reconstruire des scènes dynamiques réalistes sans annotations humaines, tout en préservant une décomposition par instance (chaque objet est un entité cohérente) et en apprenant leurs trajectoires de mouvement.

2. Méthodologie : IDSplat

IDSplat est un cadre de reconstruction 3D basé sur le 3D Gaussian Splatting (3DGS) qui modélise les objets dynamiques comme des instances rigides subissant des transformations, plutôt que comme des primitives changeant dans le temps.

A. Représentation de la scène

La scène est représentée par un ensemble de gaussiennes 3D translucides. Chaque gaussienne possède :

Des paramètres géométriques et d'apparence (position, covariance, couleur, effets dépendants de la vue).
Un ID d'instance discret ( $z$ ) : $z=0$ pour le fond statique, et $z>0$ pour les objets dynamiques.
Une transformation rigide $SE(3)$ associée à chaque instance dynamique, appliquée à toutes les gaussiennes de cette instance à chaque instant $t$ .

B. Décomposition d'instance (Zero-Shot)

Pour obtenir les masques d'instance sans annotations :

Suivi vidéo 2D : Utilisation de Grounded-SAM-2 (un modèle fondé sur le langage) pour générer des masques d'instance à partir des images vidéo via des prompts textuels (ex: "voiture", "piéton").
Projection 3D : Les masques 2D sont projetés sur les nuages de points LiDAR les plus proches temporellement pour attribuer des IDs 3D aux points.
Filtrage : Un processus en deux étapes (érosion des masques et clustering DBSCAN) élimine les artefacts dus aux décalages de montage capteurs ou aux mouvements rapides.

C. Estimation et lissage des trajectoires

Une fois les points 3D associés à une instance, leur trajectoire est estimée :

Alignement initial : Un cadre canonique est défini pour chaque instance. Les poses initiales sont estimées en alignant les nuages de points LiDAR entre les frames en utilisant des correspondances de caractéristiques DINOv3 et l'algorithme RANSAC (avec l'estimateur d'Umeyama).
Lissage coordonné (Coordinated-Turn Smoothing) : Pour corriger les erreurs de RANSAC et les trous dans les détections, une optimisation de graphe de poses (via GTSAM) est appliquée. Elle intègre un modèle de mouvement de "virage coordonné" (CT) pour garantir la cohérence physique et temporelle, rejette les mesures aberrantes (outliers) et lisse les vitesses et courbures.
Raffinement final : Les trajectoires sont affinées conjointement avec les paramètres des gaussiennes lors de l'optimisation de la reconstruction, guidées par les erreurs de rendu (photométriques et géométriques).

D. Optimisation

Le modèle est optimisé de manière self-supervised en minimisant une fonction de perte combinant :

La perte de reconstruction d'image ( $L_1$ , SSIM).
La perte de reconstruction LiDAR (profondeur, intensité, probabilité de ray drop).
Des régularisations (MCMC) pour la densité et l'opacité.

3. Contributions Clés

Cadre Self-Supervisé avec Décomposition d'Instance : Première méthode 3DGS pour la conduite qui sépare explicitement les objets dynamiques en instances cohérentes sans aucune annotation humaine.
Approche Zero-Shot pour la Décomposition 3D : Utilisation combinée de Grounded-SAM-2 et DINOv3 pour extraire des masques et estimer des poses sur de nouveaux jeux de données et de nouvelles classes d'objets sans réentraînement.
Techniques de Raffinement de Trajectoire : Introduction d'un schéma de lissage itératif robuste (CT smoothing) et d'une optimisation conjointe qui permet d'obtenir des trajectoires précises même avec des vues éparses.
Généralisation et Qualité : Démonstration d'une performance compétitive par rapport aux méthodes supervisées (qui utilisent des annotations) et supérieure aux méthodes self-supervised existantes, avec une capacité à éditer les scènes (suppression ou déplacement d'objets).

4. Résultats Expérimentaux

Les expériences ont été menées sur le Waymo Open Dataset et PandaSet.

Qualité de Reconstruction (NVS) : IDSplat atteint des scores PSNR et DPSNR (Dynamic PSNR) supérieurs ou comparables aux méthodes de l'état de l'art (DeSiRe-GS, AD-GS, SplatAD). Sur le jeu de données NOTR, IDSplat obtient un PSNR de 34.59 (contre 33.91 pour AD-GS) et un DPSNR de 29.63 (contre 27.41).
Robustesse aux Vues Éparses : IDSplat maintient une qualité de reconstruction stable même avec seulement 25% des vues d'entraînement, là où les méthodes basées sur des primitives temporelles dégradent fortement leurs performances dans les zones dynamiques.
Rendu LiDAR : La méthode atteint des performances de rendu LiDAR (profondeur, intensité) comparables à SplatAD, qui utilise des annotations manuelles.
Généralisation : La méthode fonctionne bien sur le jeu de données PandaSet sans ajustement des hyperparamètres, prouvant sa capacité de généralisation.
Suivi d'Objets : Bien que ce ne soit pas l'objectif principal, les trajectoires estimées montrent des métriques de suivi (MOTA) raisonnables, ouvrant la voie à des applications de suivi sans supervision.

5. Signification et Impact

IDSplat représente une avancée significative pour la simulation de conduite autonome :

Évolutivité : En éliminant le besoin d'annotations coûteuses pour les trajectoires, il rend possible la reconstruction à grande échelle de n'importe quel jeu de données de conduite.
Contrôle et Édition : La décomposition explicite par instance permet de manipuler la scène (déplacer, supprimer, modifier la trajectoire d'un véhicule) pour générer des scénarios de test variés, ce qui est impossible avec les méthodes de primitives temporelles.
Fidélité Physique : En modélisant les objets comme des corps rigides avec des trajectoires cohérentes, la méthode évite les artefacts d'apparence instable souvent observés dans les reconstructions dynamiques non structurées.

En résumé, IDSplat comble le fossé entre la haute fidélité des méthodes supervisées et la flexibilité des méthodes self-supervised, offrant une solution pratique pour la simulation réaliste et l'analyse de scènes de conduite dynamiques.