HECTOR: Hybrid Editable Compositional Object References for Video Generation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un réalisateur de cinéma, mais au lieu de tourner une scène avec de vrais acteurs et de vrais décors, vous demandez à un ordinateur de tout inventer à partir de rien. C'est ce que font les intelligences artificielles actuelles pour créer des vidéos. Le problème ? Elles sont un peu comme des enfants qui dessinent : elles créent une belle image globale, mais si vous leur dites "fais bouger le chien vers la droite tout en gardant le chat immobile", elles ont souvent du mal à comprendre. Elles mélangent tout, ou le chien disparaît quand il passe derrière un arbre.

Voici comment HECTOR change la donne, expliqué simplement :

1. Le Problème : La "Soupe" vs Les "Ingrédients"

Les anciennes méthodes de génération de vidéo sont comme une soupe. Vous mettez tous les ingrédients (le texte, l'image de départ) dans une grande marmite, et l'IA mélange le tout pour créer une vidéo. Si vous voulez changer un ingrédient (par exemple, remplacer le chien par un chat), c'est très difficile car tout est mélangé.

HECTOR, lui, fonctionne comme un chef cuisinier organisé qui prépare un plat avec des ingrédients séparés. Au lieu de tout mélanger d'un coup, il prend :

Une photo du chien (pour savoir à quoi il ressemble).
Une vidéo du chat qui saute (pour savoir comment il bouge).
Un décor de fond.

Et il assemble le tout pièce par pièce, comme un puzzle, pour que chaque élément garde son identité et bouge exactement comme on le lui demande.

2. La Magie : Le "Démonteur de Vidéo" (Video Decompositor)

Pour que ce système fonctionne, il faut d'abord apprendre à l'IA à voir les objets individuellement. C'est là qu'intervient le Video Decompositor.

Imaginez que vous regardez une vidéo de rue animée. Un humain voit "une foule". Le Video Decompositor, lui, agit comme un détective très minutieux :

Il repère chaque personne, chaque voiture, chaque oiseau.
Il pose des "points d'ancrage" invisibles sur eux (comme des petits points de colle).
Il suit ces points dans le temps pour comprendre exactement comment l'objet bouge, grossit ou rétrécit.

Au lieu de dire "voiture" (ce qui est vague), il dit : "Voici la voiture, elle est à cet endroit précis, elle grossit de 10% et elle tourne à gauche". Cela permet de créer des "plans de montage" parfaits pour l'IA.

3. Le Chef d'Orchestre : Le Module STAM

Une fois que l'IA a ses ingrédients séparés, elle a besoin d'un chef d'orchestre pour les assembler sans que ça sonne faux. C'est le rôle du Module STAM (Spatio-Temporal Alignment Module).

Pensez à STAM comme à un projeteur de cinéma ultra-précis :

Il prend la photo du chien et la projette exactement là où le chien doit être à chaque seconde.
Il prend la vidéo du chat et projette ses mouvements sur le chat.
Il s'assure que si le chien passe devant le chat, le chien cache bien le chat (comme dans la réalité), et non l'inverse.

Ce module permet de mélanger des photos fixes (pour l'apparence) et des vidéos (pour le mouvement) dans le même espace, ce que les anciennes méthodes ne faisaient pas bien.

4. Ce que HECTOR permet de faire (Les Super-Pouvoirs)

Grâce à cette organisation, HECTOR ouvre des portes incroyables :

Le Remplacement Magique : Vous avez une vidéo d'une personne marchant dans la rue. Vous voulez changer son manteau ? Avec HECTOR, vous montrez une photo d'un nouveau manteau, et l'IA le "colle" sur la personne en respectant ses mouvements, sans toucher au reste de la rue.
L'Insertion de Personnages : Vous pouvez ajouter un dragon qui vole au-dessus d'une vidéo de vacances existante, en contrôlant exactement sa trajectoire et sa vitesse.
Le Contrôle Total : Vous pouvez dire : "Le chien court vite, mais le chat reste immobile". L'IA comprendra la différence et exécutera les deux ordres simultanément sans confusion.

En Résumé

Alors que les anciennes IA créaient des vidéos comme un peintre qui jette de la peinture sur une toile (c'est beau, mais imprévisible), HECTOR agit comme un monteur de film expert qui assemble des plans précis, contrôle chaque acteur individuellement et s'assure que tout reste cohérent, même dans des scènes complexes avec plusieurs objets.

C'est un pas de géant pour rendre la création de vidéos par IA aussi précise et contrôlable que de tourner un film avec de vrais acteurs, mais sans avoir besoin de caméra ni de studio !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de génération vidéo actuels, basés sur la diffusion (comme les Transformers de Diffusion ou DiT), excellent dans la création de contenu dynamique de haute fidélité à partir de texte ou d'images. Cependant, ils souffrent d'une limitation majeure : le manque de contrôle compositionnel fin.

Génération Holistique : La plupart des modèles génèrent une scène de manière globale. L'utilisateur ne peut pas dicter le comportement, la trajectoire ou l'interaction précise d'objets individuels au sein de la scène.
Limites des méthodes existantes :
- Les approches de personnalisation d'instance (ex: DreamVideo, MotionBooth) nécessitent souvent une optimisation coûteuse au moment du test (test-time optimization) et peinent à gérer des scènes complexes avec plusieurs objets.
- Les méthodes de contrôle par trajectoire (ex: Tora, TGT) traitent souvent la vidéo comme une entité unique ou utilisent des boîtes englobantes (bounding boxes) rigides, ce qui limite la fluidité et la précision des mouvements, surtout lors de superpositions ou d'occlusions.
- Peu de modèles supportent simultanément des références statiques (images) et dynamiques (vidéos) pour contrôler à la fois l'identité et le mouvement spécifique (gestes).

2. Méthodologie : HECTOR

HECTOR est un pipeline de génération vidéo conçu pour permettre un contrôle compositionnel hybride et éditable. Il se compose de deux systèmes principaux : le Video Decompositor et le modèle génératif HECTOR lui-même, intégrant un module d'alignement spatio-temporel.

A. Video Decompositor (Décomposeur Vidéo)

Ce module sert à la fois à la préparation des données d'entraînement et à l'édition vidéo lors de l'inférence. Il remplace les heuristiques rigides des boîtes englobantes par une approche basée sur le suivi de points.

Segmentation et Échantillonnage : Utilise SAM2 pour segmenter les objets et échantillonner des points d'ancrage (anchor points) au centre de sous-régions de l'objet, adaptés à sa forme et sa taille.
Extraction de Trajectoire : Utilise Cotracker3 pour propager ces points d'ancrage dans le temps.
Calcul d'Échelle et de Visibilité : Contrairement aux boîtes englobantes, HECTOR calcule l'échelle ( $s_t$ ) en analysant la variance interne des points suivis (expansion/contraction du cluster de points). Un indicateur binaire de visibilité ( $v_t$ ) est dérivé des scores de confiance du tracker pour gérer les entrées, sorties et occlusions.
Résultat : Une représentation fluide et précise de la trajectoire, de l'échelle et de la position de chaque objet.

B. Modèle Génératif HECTOR

Basé sur une architecture DiT (Diffusion Transformer) pré-entraînée (Wan2.1), le modèle intègre des signaux de référence hétérogènes via un nouveau module.

Module d'Alignement Spatio-Temporel (STAM) :
- C'est le cœur de l'architecture. Il permet d'injecter des références hybrides (images statiques pour l'identité, vidéos dynamiques pour les gestes) dans l'espace latent.
- Fusion des Latents : Les features des images ( $F_i$ ) et des vidéos ( $F_v$ ) sont encodées dans l'espace latent du VAE.
- Warpping Inverse Guidé par la Trajectoire : Les features sont "placées" sur une toile latente vide en utilisant une grille d'échantillonnage définie par la trajectoire calculée ( $p_t, s_t$ ).
- Masques de Visibilité Gaussiens : Au lieu de masques binaires rigides, HECTOR utilise des masques de visibilité adoucis (Gaussian masks) pour fusionner les features de référence avec le bruit latent. Cela permet une transition douce et évite les artefacts de "fantômes" ou de débordement de features.
- Conditionnement : Le modèle reçoit un tenseur unifié $X_{in} = [z_t, M, z_{cond}]$ , où $z_{cond}$ contient les références alignées spatialement et temporellement, et $M$ est un masque multi-canaux indiquant la source (image ou vidéo) de chaque région.
Gestion des Conflits (Dynamic Modality Prioritization) :
- Pour éviter les ambiguïtés lorsque plusieurs références se chevauchent (ex: un objet statique en arrière-plan vs un objet dynamique), un mécanisme de "gating" permet à l'utilisateur de désigner une priorité (ex: forcer un objet à rester au premier plan), assurant des limites d'occlusion propres.

3. Contributions Clés

Premier Framework de Génération Vidéo Fully Compositional : HECTOR permet un contrôle indépendant et précis sur chaque élément d'une scène (arrière-plan, objets multiples), y compris leur apparence, leur trajectoire, leur échelle et leur vitesse.
Support Hybride (Image + Vidéo) : Contrairement aux méthodes précédentes limitées aux images statiques, HECTOR peut utiliser des vidéos de référence pour capturer non seulement l'identité d'un sujet, mais aussi ses gestes spécifiques et sa dynamique.
Module STAM et Video Decompositor :
- Introduction du STAM pour aligner spatialement et temporellement des références hétérogènes dans l'espace latent.
- Développement du Video Decompositor pour extraire automatiquement des structures compositionnelles complexes (trajectoires lisses, échelles dynamiques) sans optimisation coûteuse au moment du test.
Capacités d'Édition Avancées : Le modèle permet le remplacement, l'ajout d'objets et la modification de l'arrière-plan tout en maintenant la cohérence temporelle et l'intégrité de la scène.

4. Résultats Expérimentaux

Les expériences ont été menées sur un corpus interne de 2,4 millions de clips et évaluées sur le benchmark DAVIS.

Comparaison Quantitative :
- HECTOR surpasse les méthodes de référence (MotionBooth, VACE) sur presque toutes les métriques, tant en configuration mono-objet que multi-objet.
- Fidélité du Sujet : Amélioration significative sur les métriques d'identité (R-DINO, DINO-I), prouvant une meilleure préservation des détails fins (visage, vêtements) par rapport aux contrôles par boîtes englobantes.
- Précision du Mouvement : HECTOR double presque la précision des concurrents sur les métriques de contrôle de mouvement (mIoU et Centroid Distance), démontrant une adhérence stricte aux trajectoires spécifiées sans dérive spatiale.
Résultats Qualitatifs :
- Les vidéos générées montrent une cohérence temporelle élevée et une capacité à gérer des scènes complexes avec plusieurs objets en interaction.
- Le modèle réussit des tâches d'édition difficiles comme le remplacement d'objets en mouvement ou la modification de l'arrière-plan tout en figeant le premier plan (ou inversement).
Études d'Abalation :
- Le remplacement du suivi par points (Decompositor) par des boîtes englobantes dégrade fortement la fidélité et le contrôle du mouvement.
- L'entraînement mixte (images + vidéos) est crucial pour la qualité visuelle et l'adhérence au mouvement.
- L'utilisation de masques gaussiens (au lieu de binaires) est essentielle pour éviter les artefacts et fusionner correctement les features.

5. Signification et Impact

Ce travail représente une avancée majeure vers la génération vidéo professionnelle.

Passage de la Génération Holistique à la Composition : HECTOR démontre qu'il est possible de décomposer une scène en éléments distincts et de les contrôler individuellement tout en maintenant une cohérence globale, comblant ainsi le fossé entre la synthèse générative et l'édition vidéo traditionnelle.
Utilité pour les Créateurs : En offrant un contrôle granulaire sur la trajectoire, l'échelle et l'identité des objets, HECTOR ouvre de nouvelles possibilités pour la création de contenu, l'animation et les workflows artistiques, permettant des scénarios qui étaient auparavant impossibles ou trop coûteux à réaliser.
Sécurité : Les auteurs reconnaissent les risques potentiels (deepfakes) et soulignent l'importance de développer des garde-fous (détection, filigranes) pour un usage éthique.

En résumé, HECTOR établit un nouvel état de l'art pour la génération vidéo contrôlée, en combinant la puissance des modèles de diffusion modernes avec une architecture de composition rigoureuse et flexible.

HECTOR: Hybrid Editable Compositional Object References for Video Generation

1. Le Problème : La "Soupe" vs Les "Ingrédients"

2. La Magie : Le "Démonteur de Vidéo" (Video Decompositor)

3. Le Chef d'Orchestre : Le Module STAM

4. Ce que HECTOR permet de faire (Les Super-Pouvoirs)

En Résumé

1. Problématique

2. Méthodologie : HECTOR

A. Video Decompositor (Décomposeur Vidéo)

B. Modèle Génératif HECTOR

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities