Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

Ce papier présente AVI-Edit, un cadre d'édition d'instances vidéo synchronisées avec l'audio qui intègre un raffineur de masques sensible à la granularité et un agent audio à rétroaction autonome pour offrir un contrôle spatio-temporel précis, le tout soutenu par un nouveau jeu de données à grande échelle.

Haojie Zheng, Shuchen Weng, Jingqi Liu, Siqi Yang, Boxin Shi, Xinlong Wang

Publié 2026-03-04
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un film vidéo, mais vous voulez changer une chose précise : par exemple, faire dire une autre phrase à un acteur, changer la couleur de sa veste, ou même transformer un chien en chat, le tout sans toucher au reste de la scène ni briser le rythme naturel du son. C'est exactement ce que propose AVI-Edit, une nouvelle technologie présentée dans cet article.

Voici une explication simple, imagée, de comment cela fonctionne :

1. Le Problème : Le "Ciseau Magique" qui coupe tout

Jusqu'à présent, les outils de montage vidéo étaient un peu comme des ciseaux grossiers. Si vous vouliez modifier un objet dans une vidéo, l'outil risquait de :

  • Détruire l'image autour (comme si vous coupiez le décor avec le personnage).
  • Faire disparaître le son original (comme si l'acteur arrêtait de parler du jour au lendemain).
  • Créer un décalage bizarre entre les lèvres et la voix (un effet "dubbing" mal fait).

2. La Solution : AVI-Edit, le "Chirurgien Vidéo"

AVI-Edit est comme un chirurgien de précision pour la vidéo. Il ne se contente pas de couper ; il comprend ce qu'il touche et ce qu'il doit garder. Il fonctionne grâce à trois assistants magiques :

A. Le "Lunettes de Précision" (Le Raffineur de Masque)

Quand vous demandez à modifier un objet, vous lui donnez souvent un dessin grossier (un rectangle autour du visage, par exemple).

  • L'analogie : Imaginez que vous essayez de peindre un portrait en ne regardant qu'à travers un trou de serrure. C'est flou !
  • Ce que fait AVI-Edit : Il possède une paire de lunettes intelligentes (le Granularity-Aware Mask Refiner). Dès qu'il reçoit votre dessin grossier, il l'affine instantanément pour coller parfaitement aux contours exacts de l'objet (les cheveux, les oreilles, les plis du vêtement), même si votre dessin initial était imparfait. Il sait exactement où s'arrêter pour ne pas toucher au mur derrière.

B. Le "Chef d'Orchestre Sonore" (L'Agent Audio à Rétroaction)

C'est la partie la plus géniale. Pour que la vidéo soit réaliste, le son doit changer en même temps que l'image.

  • L'analogie : Imaginez un chef d'orchestre qui doit remplacer un violoniste dans un groupe sans que les autres musiciens ne s'arrêtent de jouer.
  • Ce que fait AVI-Edit : Il utilise un agent audio qui suit un processus en 4 étapes :
    1. Séparer : Il isole le son de l'objet à modifier (la voix de l'acteur) du reste (le bruit de la rue, les applaudissements).
    2. Générer : Il crée le nouveau son demandé (une nouvelle phrase).
    3. Remixer : Il assemble le nouveau son avec l'ancien fond sonore.
    4. Auto-contrôle (Le "Feedback") : Un "critique" intelligent écoute le résultat. Si le son semble faux ou si le volume est bizarre, il dit : "Non, réessaie !" et demande de corriger le tir. Il répète ce cycle jusqu'à ce que le son soit parfait et naturel.

C. Le "Moteur de Création" (Le Cœur du Système)

Tout cela repose sur un moteur vidéo très puissant (basé sur un modèle appelé Wan2.2) qui a déjà vu des millions de vidéos. Il sait comment la lumière bouge, comment les ombres tombent et comment les objets se déplacent. AVI-Edit lui donne des instructions précises (via le masque raffiné et le son) pour qu'il ne réinvente pas tout le monde, mais qu'il ne modifie que la petite partie que vous avez choisie.

3. Les Résultats Magiques

Grâce à cette technologie, on peut faire des choses étonnantes, comme illustré dans l'article :

  • Changer la parole : Faire dire "Bonjour" à un homme qui disait "Au revoir", tout en gardant sa voix naturelle et son expression faciale.
  • Changer l'apparence : Transformer un homme en femme (ou changer ses vêtements) tout en gardant sa voix originale.
  • Changer la nature : Transformer un chien qui aboie en un chat qui miaule, avec le son qui change parfaitement au bon moment.
  • Contrôler par le son : Si vous demandez "Faites couler l'eau plus fort", la vidéo montrera un jet d'eau plus puissant, synchronisé avec le bruit de l'eau.

En Résumé

AVI-Edit est comme un assistant de montage vidéo ultra-intelligent qui comprend que l'image et le son sont inséparables. Il ne se contente pas de "coller" un nouveau morceau sur l'ancien ; il répare, ajuste et harmonise tout pour que le résultat soit fluide, réaliste et parfaitement synchronisé, même si vous lui donnez des instructions un peu vagues au départ.

C'est un pas de géant vers la création de vidéos où l'on peut modifier n'importe quel détail, comme dans la vie réelle, sans que cela ressemble à un montage amateur.