Human Video Generation from a Single Image with 3D Pose and View Control

Ce papier présente HVG, un modèle de diffusion vidéo latente capable de générer des vidéos humaines 4D de haute qualité et cohérentes à partir d'une seule image, en permettant un contrôle précis de la pose 3D et de la vue grâce à des mécanismes innovants de modulation articulaire, d'alignement spatio-temporel et d'échantillonnage progressif.

Tiantian Wang, Chun-Han Yao, Tao Hu, Mallikarjun Byrasandra Ramalinga Reddy, Ming-Hsuan Yang, Varun Jampani

Publié 2026-02-25
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Magicien du Cinéma 4D : HVG

Imaginez que vous avez une seule photo d'une personne. Votre rêve ? Transformer cette photo statique en une vidéo où la personne bouge, tourne, danse, et ce, sous tous les angles possibles (de face, de dos, de profil), tout en gardant son visage, ses vêtements et ses mouvements parfaitement réalistes.

C'est exactement ce que fait HVG. C'est comme un magicien numérique capable de créer un film complet à partir d'une seule image. Mais comment fait-il ? Voici les trois secrets de sa recette, expliqués avec des analogies simples.

1. Le Problème : Pourquoi les autres échouent ?

Avant HVG, les autres "magiciens" (les anciennes technologies) avaient deux gros défauts :

  • Le squelette 2D (comme un dessin animé) : Ils utilisaient des lignes pour guider le mouvement. C'est bien pour un dessin, mais quand la personne tourne, le squelette ne comprend pas que le bras est derrière le corps. Résultat ? Des bras qui traversent le torse ou des hanches qui se déboîtent de manière effrayante.
  • Le mannequin rigide (SMPL) : D'autres utilisaient un modèle 3D très simplifié, comme un mannequin de couturier sans vêtements. Le problème ? Si votre personnage porte un manteau ample ou un chapeau, le mannequin rigide ne peut pas le représenter. Le manteau semble "fondre" ou se déformer bizarrement quand la personne bouge.

2. La Solution HVG : Les trois super-pouvoirs

HVG résout ces problèmes avec trois innovations clés :

A. La "Carte des Os en 3D" (Pose Modulation)
Au lieu de dessiner de simples lignes (squelettes) ou d'utiliser un mannequin rigide, HVG crée une carte spéciale.

  • L'analogie : Imaginez que vous habillez le squelette de la personne avec des ballons en forme d'œufs (des ellipsoïdes) à chaque articulation (épaule, genou, coude).
  • Pourquoi c'est génial ? Ces "ballons" ont du volume. Quand la personne lève le bras, le ballon du coude passe devant le ballon de la poitrine. Le système comprend immédiatement qui est devant qui. Cela évite les bras fantômes qui traversent le corps et permet de garder la forme des vêtements (le manteau reste un manteau, il ne se transforme pas en peau).

B. L'Alignement Magique (View and Temporal Alignment)
Quand on tourne autour d'une personne, son image change énormément (la tête est au centre d'un côté, en haut à gauche de l'autre).

  • L'analogie : Imaginez un photographe qui suit un danseur. Sans aide, le photographe perd le sujet dans le viseur quand il tourne. HVG agit comme un assistant invisible qui recadre toujours l'image pour que le danseur soit parfaitement centré, quelle que soit l'angle de la caméra.
  • Cela permet au cerveau de l'ordinateur de comparer facilement le "devant" avec le "derrière" sans se tromper, garantissant que le visage reste le même visage et que les vêtements ne clignotent pas bizarrement.

C. La "Pelote de Fil" Progressive (Progressive Spatio-Temporal Sampling)
Créer une longue vidéo avec plusieurs angles est comme essayer de tisser un très grand tapis en une seule fois : c'est trop lourd et ça fait des nœuds.

  • L'analogie : HVG ne fait pas tout d'un coup. Il procède par petits morceaux. Il tisse d'abord une petite section de temps (quelques secondes) pour tous les angles, puis une autre section, et ainsi de suite.
  • Il superpose ensuite ces petits morceaux comme des tuiles de mosaïque, en s'assurant que les bords se rejoignent parfaitement. Cela permet de créer des vidéos longues et fluides sans que l'image ne se dégrade ou ne devienne floue.

3. Le Résultat : Qu'obtient-on ?

Grâce à ces astuces, HVG produit des vidéos où :

  • Les vêtements flottent et se plissent naturellement (comme dans la vraie vie).
  • La personne peut tourner à 360 degrés sans que son corps ne se "décompose".
  • Les mouvements sont fluides, même sur de longues séquences.

⚠️ Le petit défaut (Les cas d'échec)

Le papier admet une petite limite : comme le système se concentre sur le mouvement global du corps (les bras, les jambes, les vêtements), il oublie parfois les détails très fins du visage (comme la forme exacte du nez ou des lèvres) quand la personne bouge beaucoup.

  • La solution future : Imaginez que pour le corps, on utilise un pinceau large, mais pour le visage, on utiliserait un pinceau très fin séparé. C'est ce que les chercheurs envisagent de faire pour perfectionner le tout.

En résumé

HVG est comme un réalisateur de film ultra-intelligent qui ne se contente pas de faire bouger une photo. Il comprend l'anatomie humaine en 3D, gère les vêtements comme un vrai tailleur, et assemble le tout pièce par pièce pour créer une vidéo fluide, réaliste et magique, le tout à partir d'une seule image de départ.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →