Learning Explicit Continuous Motion Representation for Dynamic Gaussian Splatting from Monocular Videos

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous filmez une scène avec votre téléphone : un moulin à vent qui tourne, une personne qui danse, ou une voiture qui passe. Maintenant, imaginez que vous voulez pouvoir vous promener virtuellement autour de cette scène, comme si vous étiez un fantôme invisible, en regardant les objets sous des angles que votre caméra n'a jamais capturés.

C'est le défi que relève cette recherche : recréer un monde en 3D vivant à partir d'une seule vidéo.

Voici comment les auteurs y parviennent, expliqué simplement avec des images du quotidien.

1. Le problème : La vidéo est "plate", mais le monde est "rond"

Habituellement, quand on regarde une vidéo, on voit une image plate qui bouge. Pour recréer un monde 3D à partir d'une seule caméra, les ordinateurs ont souvent du mal. Ils ont tendance à "tricher" : ils copient ce qu'ils voient, mais dès qu'on essaie de regarder de côté, l'image devient floue, déformée ou ressemble à de la boue. C'est comme essayer de reconstruire un château de sable en ne regardant que d'un seul côté : vous ne savez pas à quoi ressemble l'arrière.

2. La solution : Des "Gaussiens" qui dansent

Les chercheurs utilisent une technique appelée Gaussian Splatting. Imaginez que la scène n'est pas faite de pixels, mais de millions de petites gouttelettes de peinture lumineuse (les "Gaussiens"). Chaque gouttelette a une position, une couleur et une forme.

Le défi : Dans une vidéo, ces gouttelettes bougent. Si elles bougent mal, la peinture se mélange et le résultat est moche.
L'innovation : La plupart des méthodes précédentes disaient aux gouttelettes : "Déplace-toi ici, puis là". Mais elles ne s'assuraient pas que le mouvement était fluide entre deux points. C'est comme si un danseur sautait d'un point A à un point B sans passer par le milieu : ça donne des saccades.

3. L'astuce principale : Le "Fil de Pêche" Mathématique (SE(3) B-spline)

C'est le cœur de leur invention. Au lieu de dire aux gouttelettes où aller à chaque instant, ils leur donnent un fil de pêche invisible et mathématique sur lequel elles glissent.

L'analogie : Imaginez un fil de pêche qui traverse la pièce. Les gouttelettes sont accrochées à ce fil. Ce fil est conçu pour être parfaitement lisse (c'est ce qu'on appelle une "B-spline").
Pourquoi c'est génial ? Même si le fil tourne, tord ou s'étire, les gouttelettes le suivent sans jamais faire de mouvement brusque. Elles tournent et se déplacent en douceur, comme des perles sur un collier flexible. Cela évite les artefacts bizarres (les "glitchs") quand on regarde la scène sous un nouvel angle.

4. Le chef d'orchestre intelligent : Le contrôle adaptatif

Parfois, le mouvement est simple (un mur qui reste fixe), parfois il est complexe (un bras qui tourne vite).

L'analogie : Imaginez un chef d'orchestre. S'il dirige une section de violons qui joue doucement, il n'a pas besoin de 50 batteurs de mesure. Mais s'il y a une section de percussions folles, il en a besoin.
Ce que fait le papier : Le système ajuste automatiquement le nombre de "points de contrôle" (les nœuds du fil de pêche). Il en ajoute là où le mouvement est compliqué et en enlève là où c'est simple. Cela rend le calcul plus rapide et plus précis.

5. La magie des "Rêves" : L'IA qui imagine l'invisible

Le plus gros problème avec une seule vidéo, c'est qu'on ne voit jamais l'arrière des objets.

Le problème : Si vous filmez une voiture de face, l'ordinateur ne sait pas à quoi ressemble l'arrière. S'il essaie de deviner, il invente souvent des choses fausses.
La solution : Les chercheurs utilisent une IA générative (comme Midjourney ou DALL-E, mais pour la vidéo) qui a "vu" des millions de vidéos.
L'analogie : C'est comme si vous demandiez à un ami qui a vu des milliers de voitures : "À quoi ressemble l'arrière de cette voiture ?". L'IA utilise cette connaissance pour "rêver" l'arrière de la voiture et guider l'ordinateur pour qu'il ne se trompe pas. Cela permet de voir des choses que la caméra n'a jamais filmées.

6. Le résultat final

Grâce à cette combinaison de mouvement fluide (le fil de pêche), de gestion intelligente (le chef d'orchestre) et de rêves guidés (l'IA), la méthode permet de :

Prendre une vidéo simple.
La transformer en un monde 3D ultra-réaliste.
Se promener dedans et regarder les objets sous n'importe quel angle, avec une netteté incroyable, même pour des objets qui bougent vite.

En résumé : C'est comme donner à un ordinateur des lunettes de vision nocturne et un guide de danse pour qu'il puisse reconstruire un monde en 3D parfait à partir d'un simple enregistrement vidéo, sans jamais se tromper de pas.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La synthèse de nouvelles vues (Novel View Synthesis - NVS) à partir de vidéos monoculaires (une seule caméra) pour des scènes dynamiques reste un défi majeur en vision par ordinateur. Bien que les méthodes récentes basées sur le 3D Gaussian Splatting (3DGS) et les Neural Radiance Fields (NeRF) aient fait des progrès, elles souffrent de limitations critiques lorsqu'elles sont appliquées à des vidéos monoculaires :

Déformations non continues : Les méthodes existantes modélisent souvent la déformation des gaussiennes (position et orientation) de manière implicite ou par segments discrets. Cela entraîne des discontinuités dans les trajectoires de mouvement, en particulier pour l'orientation, provoquant des artefacts visuels et un manque de fluidité.
Surapprentissage (Overfitting) : L'absence de cues multi-vues dans les vidéos monoculaires conduit les modèles à surapprendre les vues d'entraînement, générant des flous de mouvement et des artefacts dans les vues nouvelles.
Interférences temporelles : Les grandes intervalles de temps entre les instants de référence et d'observation peuvent dégrader la précision de la reconstruction des objets dynamiques.

2. Méthodologie

L'approche proposée, nommée SE3BSplineGS, vise à reconstruire des scènes dynamiques de haute fidélité en modélisant explicitement les trajectoires continues de position et d'orientation des gaussiennes.

A. Bases de Mouvement SE(3) par B-Splines

Au lieu d'apprendre des transformations affines discrètes, les auteurs utilisent des bases de mouvement SE(3) par B-splines cumulatives.

Représentation continue : Les trajectoires de mouvement (position et orientation) sont définies par des fonctions B-splines continues sur le groupe de Lie SE(3). Cela garantit que les gaussiennes dynamiques maintiennent une trajectoire lisse et continue dans l'espace d'observation.
Points de contrôle : Le mouvement est contrôlé par un petit ensemble de points de contrôle appris, initialement dérivés des états de pose (rotation $R$ et translation $t$ ) de tracklets 3D.
Transformation : La transformation de pose relative entre les tracklets est convertie en algèbre de Lie ( $\xi = \log(\Delta Q)$ ) pour être intégrée dans la fonction B-spline.

B. Mécanisme de Contrôle Adaptatif

Pour équilibrer l'efficacité computationnelle et la capacité de modélisation de mouvements complexes :

Élagage (Pruning) : Des points de contrôle redondants sont supprimés périodiquement si leur suppression n'augmente pas significativement l'erreur de reconstruction.
Densification : Dans les régions où le mouvement est complexe (détecté par les erreurs de rendu et les masques de régions dynamiques), de nouveaux points de contrôle sont ajoutés par duplication et perturbation aléatoire pour augmenter la densité des bases de mouvement.

C. Reconstruction par Segments Doux (Soft Segment Reconstruction)

Pour atténuer les interférences causées par les grandes déformations temporelles :

Une stratégie de "reconstruction par segments" est appliquée. L'opacité des gaussiennes dynamiques est ajustée en fonction de la différence de temps entre l'instant de référence ( $t_{ref}$ ) et l'instant d'observation ( $t_{obs}$ ).
Les gaussiennes dont l'intervalle temporel est trop grand voient leur opacité réduite (via une fonction sigmoïde), minimisant ainsi l'incertitude de reconstruction due aux transformations à long terme.

D. Prior Multi-vues par Diffusion

Pour pallier le manque de cues multi-vues et éviter le surapprentissage :

Un modèle de diffusion multi-vues (basé sur Zero123) est utilisé pour générer des vues synthétiques à partir d'une vue source et d'une transformation de caméra relative.
Une perte SDS (Score Distillation Sampling) est appliquée sur les régions invisibles dans les vues d'entraînement, utilisant les connaissances a priori du modèle de diffusion pour contraindre la géométrie et l'apparence de ces zones cachées.

E. Fonction de Perte Globale

L'optimisation combine plusieurs termes :

Perte de reconstruction (L1 + SSIM).
Perte de géométrie (profondeur).
Perte de régularité du mouvement (ARAP et flux optique).
Perte de lissage de la caméra (pour corriger les poses de caméra imprécises des vidéos monoculaires).
Perte SDS pour les priorités multi-vues.

3. Contributions Clés

Modélisation Explicite et Continue : Introduction d'un cadre utilisant des bases de mouvement SE(3) par B-splines pour modéliser explicitement et continûment à la fois la position et l'orientation des gaussiennes dynamiques, éliminant les artefacts de discontinuité.
Contrôle Adaptatif : Développement d'un mécanisme qui ajuste dynamiquement le nombre de bases de mouvement et de points de contrôle en fonction de la complexité locale du mouvement.
Stratégie de Reconstruction et Généralisation :
- Mise en place d'une reconstruction par segments doux pour gérer les grands intervalles temporels.
- Utilisation de priors de diffusion multi-vues via une perte SDS pour améliorer la généralisation aux vues nouvelles et reconstruire les zones occluses.

4. Résultats Expérimentaux

Les méthodes ont été évaluées sur deux jeux de données benchmarks : iPhone (vidéos monoculaires avec mouvements réalistes) et NVIDIA (vidéos multi-caméras utilisées pour l'évaluation).

Performance Quantitative : La méthode proposée surpasse l'état de l'art (y compris MoSca, HiMoR, SplineGS, Shape-of-Motion) sur les métriques principales :
- iPhone : mPSNR de 20.17 (vs 19.33 pour MoSca), mSSIM de 0.729, et mLPIPS de 0.274.
- NVIDIA : PSNR de 27.81, SSIM de 0.871, et LPIPS de 0.049.
Qualité Visuelle : Les comparaisons visuelles montrent une reconstruction nettement supérieure des détails structurels et une absence d'artefacts de mouvement, en particulier sur des objets complexes comme des moulins à vent en rotation.
Suivi de Correspondance : La méthode obtient le meilleur score PCK-T (0.833) sur le suivi de points clés, démontrant une meilleure cohérence temporelle.
Efficacité : Le temps d'entraînement est rapide (30 minutes sur une RTX 4090) et le taux de rendu (FPS) est élevé (45.124 FPS).

5. Signification et Limites

Signification :
Ce travail représente une avancée significative pour la synthèse de vues dynamiques monoculaires. En passant d'une modélisation implicite ou discontinue à une représentation explicite et continue des mouvements rigides (SE(3)), l'approche résout le problème fondamental des artefacts de pose dans les scènes dynamiques. L'intégration de priors de diffusion pour compenser le manque de données multi-vues ouvre une nouvelle voie pour la robustesse des modèles monoculaires.

Limites :

La méthode peine encore avec des déformations non-rigides importantes (ex: tissus, corps humains très déformables) et les flous de mouvement extrêmes.
Elle échoue sur des vidéos monoculaires très floues ou avec des mouvements de caméra/objets trop rapides.

En conclusion, cette méthode établit un nouvel état de l'art pour la reconstruction dynamique monoculaire en combinant rigueur géométrique (B-splines SE(3)) et apprentissage profond génératif (Diffusion).