Learning Explicit Continuous Motion Representation for Dynamic Gaussian Splatting from Monocular Videos

Cet article présente une méthode pour la synthèse de vues nouvelles à partir de vidéos monoculaires en modélisant explicitement les déformations continues de position et d'orientation des Gaussiens dynamiques via des bases B-spline SE(3) adaptatives, complétées par une stratégie de reconstruction par segments et un modèle de diffusion multi-vue pour améliorer la qualité et l'efficacité.

Xuankai Zhang, Junjin Xiao, Shangwei Huang, Wei-shi Zheng, Qing Zhang

Publié 2026-03-27
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous filmez une scène avec votre téléphone : un moulin à vent qui tourne, une personne qui danse, ou une voiture qui passe. Maintenant, imaginez que vous voulez pouvoir vous promener virtuellement autour de cette scène, comme si vous étiez un fantôme invisible, en regardant les objets sous des angles que votre caméra n'a jamais capturés.

C'est le défi que relève cette recherche : recréer un monde en 3D vivant à partir d'une seule vidéo.

Voici comment les auteurs y parviennent, expliqué simplement avec des images du quotidien.

1. Le problème : La vidéo est "plate", mais le monde est "rond"

Habituellement, quand on regarde une vidéo, on voit une image plate qui bouge. Pour recréer un monde 3D à partir d'une seule caméra, les ordinateurs ont souvent du mal. Ils ont tendance à "tricher" : ils copient ce qu'ils voient, mais dès qu'on essaie de regarder de côté, l'image devient floue, déformée ou ressemble à de la boue. C'est comme essayer de reconstruire un château de sable en ne regardant que d'un seul côté : vous ne savez pas à quoi ressemble l'arrière.

2. La solution : Des "Gaussiens" qui dansent

Les chercheurs utilisent une technique appelée Gaussian Splatting. Imaginez que la scène n'est pas faite de pixels, mais de millions de petites gouttelettes de peinture lumineuse (les "Gaussiens"). Chaque gouttelette a une position, une couleur et une forme.

  • Le défi : Dans une vidéo, ces gouttelettes bougent. Si elles bougent mal, la peinture se mélange et le résultat est moche.
  • L'innovation : La plupart des méthodes précédentes disaient aux gouttelettes : "Déplace-toi ici, puis là". Mais elles ne s'assuraient pas que le mouvement était fluide entre deux points. C'est comme si un danseur sautait d'un point A à un point B sans passer par le milieu : ça donne des saccades.

3. L'astuce principale : Le "Fil de Pêche" Mathématique (SE(3) B-spline)

C'est le cœur de leur invention. Au lieu de dire aux gouttelettes où aller à chaque instant, ils leur donnent un fil de pêche invisible et mathématique sur lequel elles glissent.

  • L'analogie : Imaginez un fil de pêche qui traverse la pièce. Les gouttelettes sont accrochées à ce fil. Ce fil est conçu pour être parfaitement lisse (c'est ce qu'on appelle une "B-spline").
  • Pourquoi c'est génial ? Même si le fil tourne, tord ou s'étire, les gouttelettes le suivent sans jamais faire de mouvement brusque. Elles tournent et se déplacent en douceur, comme des perles sur un collier flexible. Cela évite les artefacts bizarres (les "glitchs") quand on regarde la scène sous un nouvel angle.

4. Le chef d'orchestre intelligent : Le contrôle adaptatif

Parfois, le mouvement est simple (un mur qui reste fixe), parfois il est complexe (un bras qui tourne vite).

  • L'analogie : Imaginez un chef d'orchestre. S'il dirige une section de violons qui joue doucement, il n'a pas besoin de 50 batteurs de mesure. Mais s'il y a une section de percussions folles, il en a besoin.
  • Ce que fait le papier : Le système ajuste automatiquement le nombre de "points de contrôle" (les nœuds du fil de pêche). Il en ajoute là où le mouvement est compliqué et en enlève là où c'est simple. Cela rend le calcul plus rapide et plus précis.

5. La magie des "Rêves" : L'IA qui imagine l'invisible

Le plus gros problème avec une seule vidéo, c'est qu'on ne voit jamais l'arrière des objets.

  • Le problème : Si vous filmez une voiture de face, l'ordinateur ne sait pas à quoi ressemble l'arrière. S'il essaie de deviner, il invente souvent des choses fausses.
  • La solution : Les chercheurs utilisent une IA générative (comme Midjourney ou DALL-E, mais pour la vidéo) qui a "vu" des millions de vidéos.
  • L'analogie : C'est comme si vous demandiez à un ami qui a vu des milliers de voitures : "À quoi ressemble l'arrière de cette voiture ?". L'IA utilise cette connaissance pour "rêver" l'arrière de la voiture et guider l'ordinateur pour qu'il ne se trompe pas. Cela permet de voir des choses que la caméra n'a jamais filmées.

6. Le résultat final

Grâce à cette combinaison de mouvement fluide (le fil de pêche), de gestion intelligente (le chef d'orchestre) et de rêves guidés (l'IA), la méthode permet de :

  1. Prendre une vidéo simple.
  2. La transformer en un monde 3D ultra-réaliste.
  3. Se promener dedans et regarder les objets sous n'importe quel angle, avec une netteté incroyable, même pour des objets qui bougent vite.

En résumé : C'est comme donner à un ordinateur des lunettes de vision nocturne et un guide de danse pour qu'il puisse reconstruire un monde en 3D parfait à partir d'un simple enregistrement vidéo, sans jamais se tromper de pas.

Noyé(e) sous les articles dans votre domaine ?

Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.

Essayer Digest →