DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de la recherche DISPLAY, présentée comme si nous parlions d'un nouveau super-pouvoir pour les vidéos.

🎬 Le Problème : La Danse Maladroite

Imaginez que vous essayez de faire danser un robot avec un objet (comme une tasse ou une tablette). Jusqu'à présent, les ordinateurs étaient très doués pour faire bouger les humains, mais dès qu'il s'agissait de les faire interagir avec un objet, c'était un désastre.

Soit l'objet traversait la main comme un fantôme.
Soit l'objet changeait de forme bizarrement.
Soit il fallait donner des instructions ultra-complexes (comme un plan de construction architectural) pour que ça marche.

C'est comme essayer de faire tenir un ballon à un enfant en lui donnant un manuel de 500 pages : ça ne fonctionne pas bien, et c'est trop compliqué.

✨ La Solution : DISPLAY (Le Chef d'Orchestre Minimaliste)

Les chercheurs de Baidu ont créé DISPLAY. C'est un nouveau système qui permet de créer des vidéos où un humain interagit naturellement avec un objet, même si cet objet n'existait pas dans la vidéo de départ.

Voici comment ça marche, avec des analogies simples :

1. Le Guide "Sparse" (Le Fil d'Ariane)

Au lieu de donner à l'ordinateur des instructions complètes et lourdes, on lui donne juste deux choses simples :

La trajectoire du poignet : On dit juste "la main va ici, puis là". C'est comme si on dessinait le chemin que doit suivre le poignet du danseur.
Une boîte magique (l'objet) : On dessine un simple rectangle autour de l'objet (une tasse, un iPad) pour dire "l'objet est ici". On ne se soucie pas de sa forme exacte au début.

L'analogie : Imaginez que vous voulez qu'un acteur tienne un objet. Au lieu de lui dire comment bouger chaque doigt et comment l'objet doit se déformer, vous lui donnez juste un fil invisible reliant son poignet à l'objet. L'ordinateur devine le reste ! Cela rend le système très flexible : peu importe si l'objet est rond, carré ou bizarre, le poignet s'adapte.

2. L'Attention "Stressée" (Le Miroir Magique)

Le plus dur, c'est de s'assurer que l'objet ne se transforme pas en bouillie quand il est touché.

Le système utilise une technique appelée "Object-Stressed Attention".
L'analogie : Imaginez que l'ordinateur a des yeux qui regardent tout le monde, mais qui ont un télescope spécial pointé uniquement sur l'objet. Quand la main s'approche, ce télescope s'active à fond pour s'assurer que la tasse reste une tasse, qu'elle garde sa couleur et sa forme, même si la main la saisit. Cela évite que l'objet ne se fonde dans la main.

3. L'Entraînement "Cours de Cuisine" (Multi-Task)

Pour apprendre à faire ça, il faut beaucoup de vidéos. Mais les vidéos parfaites d'humains tenant des objets sont rares.

Le problème : Si on n'entraîne le robot que sur des vidéos parfaites, il devient nul quand il voit quelque chose de nouveau.
La solution : Les chercheurs ont créé une méthode d'entraînement mixte. C'est comme un cours de cuisine où l'apprenti cuisine d'abord avec des ingrédients parfaits (les vidéos d'interaction), mais aussi avec des ingrédients imparfaits ou juste des photos (des vidéos sans interaction précise).
Le résultat : Le robot apprend la logique générale du mouvement humain. Il devient plus robuste et capable de gérer des situations qu'il n'a jamais vues exactement comme ça.

🚀 Ce que DISPLAY permet de faire (Les Scénarios)

Grâce à cette technologie, vous pouvez faire trois choses magiques :

Le Remplacement (L'Effet Miroir) : Vous avez une vidéo d'un homme tenant une pomme. Vous voulez qu'il tienne un iPhone ? Vous montrez l'image de l'iPhone, et pouf, la pomme se transforme en iPhone dans sa main, avec un mouvement naturel.
L'Insertion (Le Magicien) : La vidéo montre un homme les mains vides. Vous lui donnez l'image d'une tasse et vous dites "tiens-la". Le système invente le mouvement de la main pour attraper la tasse et la tenir, comme si elle était toujours là.
L'Interaction Environnementale : L'objet est sur la table, mais personne ne le touche. Vous pouvez dire "fais-le prendre à l'homme", et le système crée le mouvement pour que l'homme saisisse l'objet.

🏆 Pourquoi c'est génial ?

Avant, pour faire ça, il fallait des vidéos de référence complexes ou des instructions textuelles très précises qui ne fonctionnaient jamais vraiment.
DISPLAY est comme un chef d'orchestre intuitif : vous lui donnez juste le rythme (le poignet) et la partition (l'objet), et il fait jouer l'orchestre (la vidéo) parfaitement, même avec des musiciens (objets) qu'il n'a jamais vus auparavant.

C'est une étape géante pour rendre les vidéos générées par IA réalistes, contrôlables et amusantes à créer, que ce soit pour le cinéma, la publicité ou les réseaux sociaux.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary" en français.

1. Problématique

La génération vidéo centrée sur l'humain a connu des avancées rapides, mais les méthodes existantes peinent à produire des vidéos d'Interaction Humain-Objet (HOI) qui soient à la fois contrôlables et physiquement cohérentes. Les défis majeurs identifiés sont :

Dépendance excessive au texte : Les grands modèles de génération vidéo (LVGM) reposent souvent sur des invites textuelles complexes, ce qui rend le contrôle spatio-temporel précis (ex: saisir un objet à un endroit spécifique) difficile et non déterministe.
Déséquilibre de représentation : Les méthodes de contrôle existantes utilisent des signaux denses (comme des poses 2D/3D complètes ou des maillages de mains) pour l'humain, mais manquent de représentations explicites pour les objets. Cela entraîne un surapprentissage sur les gestes de la main, provoquant des artefacts géométriques (interpénétration, déformation) et une mauvaise généralisation aux nouveaux objets.
Manque de données : Il existe une pénurie de données HOI de haute qualité, limitant la capacité de généralisation des modèles.
Rigidité des contrôles : Les approches précédentes nécessitent souvent des vidéos de référence (templates) ou des signaux de contrôle complexes, limitant la liberté de création.

2. Méthodologie : Le Framework DISPLAY

Les auteurs proposent DISPLAY, un cadre de génération vidéo guidé par une Guidance de Mouvement Sparse (Sparse Motion Guidance) et une Formation Auxiliaire Multi-Tâches.

A. Guidance de Mouvement Sparse

Au lieu d'utiliser des poses complètes ou des maillages 3D, DISPLAY utilise deux signaux légers et intuitifs fournis par l'utilisateur :

Coordonnées des poignets : Seules les coordonnées des poignets (gauche et droit) guident la trajectoire des mains. Cela évite de surcharger le modèle avec des détails de doigts inutiles et équilibre la représentation entre la main et l'objet.
Boîte englobante (Bounding Box) agnostique de la forme : Une boîte simple définit la position et la taille de l'objet cible, sans imposer de forme spécifique.

Avantage : Cette approche allège l'interaction utilisateur (quelques clics sur des images clés) et assure une cohérence de représentation même avec des objets de formes très différentes de ceux vus pendant l'entraînement.

B. Architecture et Mécanismes Clés

Le modèle est basé sur un Flow Matching DiT (Diffusion Transformer) pré-entraîné (Wan2.1-14B), auquel est ajouté une branche de conditionnement (style ControlNet) :

Branche de Conditionnement : Elle clone quelques couches du transformateur pré-entraîné pour injecter les conditions (texte, référence visuelle, référence objet, guidance de mouvement, arrière-plan) via une injection résiduelle.
Mécanisme d'Attention Stressée par l'Objet (Object-Stressed Attention - OSA) : Pour compenser la sparsité des conditions et améliorer la robustesse de l'objet, les auteurs remplacent l'attention auto-standard par une attention pondérée. Ce mécanisme applique un coefficient de pondération ( $\alpha$ ) aux tokens de l'objet, forçant le modèle à accorder plus d'importance à la reconstruction de l'objet et à ses interactions avec les mains, garantissant une cohérence physique et spatiale.
Stratégie de Formation Auxiliaire Multi-Tâches (Multi-Task Auxiliary Training) : Pour pallier le manque de données HOI annotées, le modèle est entraîné sur un mélange de :
- Données HOI de haute qualité (avec annotations d'objets et de poignets).
- Vidéos humaines générales avec des annotations faibles (seulement les poignets, sans objet).
- Masquage dynamique : Pendant l'entraînement, des parties de la séquence de mouvement ou de l'arrière-plan sont masquées aléatoirement (via une distribution de Bernoulli). Cela permet au modèle d'apprendre à inférer des mouvements plausibles à partir de indices partiels et de soutenir des tâches comme la génération image-vidéo ou l'interpolation.

C. Pipeline de Données

Les auteurs ont créé un pipeline rigoureux de curation de données :

Filtrage : Basé sur des scores esthétiques, de mouvement et de clarté, suivi d'un filtrage centré sur l'humain et un filtrage par VLM (Vision-Language Model) pour ne garder que les interactions avec des objets rigides.
Annotation : Génération automatique de légendes, extraction des trajectoires de poignets et segmentation temporellement cohérente des objets (via Grounding DINO et SAM2).

3. Contributions Principales

Framework DISPLAY : Une nouvelle architecture permettant une génération HOI haute fidélité et robuste avec un contrôle utilisateur intuitif et minimaliste (poignets + boîte).
Object-Stressed Attention : Un mécanisme innovant qui améliore la synthèse d'objets et leur interaction physique avec les mains sous des conditions de guidage sparse.
Formation Multi-Tâches : Une stratégie combinée avec un pipeline de curation de données qui surmonte la pénurie de données HOI de haute qualité, améliorant la généralisation pour le remplacement, l'insertion et l'interaction environnementale.

4. Résultats Expérimentaux

Les évaluations ont été menées sur des tâches de remplacement d'objet, d'insertion d'objet et d'interaction environnementale.

Comparaison Quantitative : DISPLAY surpasse les méthodes de l'état de l'art (VACE, HunyuanCustom, HuMo, Re-HOLD, AnchorCraft) sur plusieurs métriques :
- Qualité d'apparence : Meilleur FID (67.5) et meilleurs scores esthétiques (AES).
- Cohérence temporelle : Meilleur FVD (560.29) et scores de cohérence du sujet (SC) élevés.
- Fidélité de l'interaction : Meilleur score d'accord de contact (CA) et scores de similarité d'objet élevés (O-CLIP, O-DINO), prouvant que l'objet généré ressemble bien à la référence et interagit correctement.
Comparaison Qualitative :
- Contrairement aux méthodes concurrentes qui déforment souvent les objets ou échouent à maintenir la texture, DISPLAY préserve fidèlement l'apparence de l'objet de référence.
- Le modèle gère bien l'insertion d'objets inexistants dans la vidéo originale, créant des interactions main-objet réalistes.
- Génération de longues vidéos : Le modèle peut générer des vidéos d'une minute sans accumulation d'erreurs visibles.
Études d'ablation : La suppression de l'attention stressée (OSA) ou de la formation multi-tâches entraîne une dégradation significative de la qualité de l'objet et de la cohérence temporelle.

5. Signification et Impact

L'article DISPLAY représente une avancée significative dans le domaine de la génération vidéo interactive :

Démocratisation du contrôle : En passant de signaux de contrôle denses et complexes à une guidance "sparse" (poignets + boîte), il rend la création de vidéos HOI accessible et intuitive pour les utilisateurs non experts.
Robustesse aux nouveaux objets : La capacité à généraliser à des objets jamais vus (novel object insertion) sans réentraînement est un pas crucial vers des applications pratiques.
Applications potentielles : Cette technologie ouvre de nouvelles perspectives pour le e-commerce (démonstration de produits), le divertissement, l'éducation et les médias, permettant de créer des contenus interactifs réalistes à la demande.

En résumé, DISPLAY résout le compromis traditionnel entre le contrôle précis et la flexibilité de la génération, en offrant un cadre robuste pour créer des interactions humain-objet réalistes à partir de références visuelles et de guidages de mouvement minimaux.