Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous voulez modifier une vidéo, comme changer le manteau d'un personnage ou remplacer le décor d'une pièce. Jusqu'à présent, les outils d'intelligence artificielle fonctionnaient un peu comme un traducteur qui ne comprend que les mots : vous deviez leur dire "mets un chapeau rouge", et ils devaient deviner à quoi ressemblerait ce chapeau. Souvent, le résultat était flou ou ne correspondait pas exactement à votre idée.

Le papier que vous avez partagé, Kiwi-Edit, propose une solution révolutionnaire pour résoudre ce problème. Voici une explication simple, imagée, de ce que les chercheurs ont fait.

1. Le Problème : Le "Je sais ce que je veux, mais je ne peux pas le dire"

Imaginez que vous êtes un architecte. Vous voulez dire à votre maçon : "Je veux une fenêtre avec ce style précis de vitrail". Si vous lui décrivez la fenêtre avec des mots (rouge, bleu, forme de fleur), il risque de se tromper. Mais si vous lui montrez une photo de la vitrail exact que vous voulez, il comprendra instantanément.

C'est exactement le problème des vidéos actuelles : l'IA comprend bien les mots, mais elle a du mal à saisir les détails visuels précis. De plus, pour apprendre à faire cela, l'IA a besoin de milliers d'exemples montrant :

La vidéo de départ.
L'instruction (le texte).
La photo de référence (l'exemple visuel).
Le résultat final.

Le hic ? Personne n'avait jamais créé une telle bibliothèque d'exemples. C'était comme vouloir apprendre à cuisiner sans jamais avoir vu de recettes avec des photos.

2. La Solution : Une "Usine à Recettes" Automatique (RefVIE)

Pour combler ce manque, les chercheurs ont créé RefVIE, une gigantesque base de données. Mais comment ont-ils obtenu 477 000 exemples sans les dessiner à la main ?

Ils ont construit une usine automatique (un pipeline) :

Ils ont pris d'anciennes vidéos déjà éditées (sans photo de référence).
Ils ont utilisé une IA très intelligente pour "regarder" la vidéo et dire : "Ah, ici on a changé le manteau".
Ensuite, ils ont utilisé une autre IA pour recréer la photo de référence qui aurait pu servir à faire ce changement.

C'est un peu comme si vous aviez un gâteau fini, et que votre machine à remonter le temps recréait la photo de la recette exacte qui a permis de le faire. Grâce à cette astuce, ils ont pu construire la plus grande bibliothèque du monde pour apprendre aux IA à utiliser des photos de référence.

3. Le Chef Cuisinier : Kiwi-Edit

Avec cette nouvelle bibliothèque, ils ont entraîné un nouveau modèle appelé Kiwi-Edit. Pour comprendre comment il fonctionne, imaginons un chef cuisinier très doué :

Le Chef (Le Modèle) : C'est l'IA qui va modifier la vidéo.
Le Commande (Le Texte) : Le client dit : "Remplace le manteau".
L'Échantillon (La Photo de référence) : Le client montre une photo du manteau exact qu'il veut.

Avant, le chef ne regardait que le texte. Avec Kiwi-Edit, le chef a deux yeux :

Il lit la commande.
Il regarde la photo de référence pour copier les textures, les couleurs et les détails précis.

Le modèle utilise une technique spéciale : il "injecte" la structure de la vidéo originale (pour que le mouvement reste fluide) tout en "collant" les détails de la nouvelle photo (pour que le manteau ressemble exactement à celui de la référence). C'est comme si le chef pouvait changer les ingrédients d'un plat sans casser la recette de base.

4. Le Résultat : Une Précision de Chirurgien

Grâce à cette méthode, Kiwi-Edit est capable de faire des choses impressionnantes que les autres modèles ratent :

Remplacer le fond d'une vidéo par un décor de film d'Hollywood, en gardant les ombres et la lumière parfaitement justes.
Changer les vêtements d'une personne en suivant exactement le tissu et le style d'une photo fournie.
Ajouter un objet (comme un chapeau) qui suit parfaitement les mouvements de la tête, sans trembler.

Les tests montrent que Kiwi-Edit est actuellement le meilleur modèle "open-source" (gratuit et accessible) pour faire cela, surpassant même certains outils payants très avancés.

En Résumé

Les chercheurs ont dit : "Les IA sont trop bêtes pour comprendre nos descriptions textuelles complexes."
Alors, ils ont dit : "Donnons-leur des photos !"
Mais comme il n'y avait pas assez de photos, ils ont inventé une machine pour en fabriquer des millions.
Ensuite, ils ont entraîné un nouveau robot (Kiwi-Edit) avec ces photos.
Résultat : Nous pouvons maintenant modifier des vidéos en montrant simplement une image de ce que nous voulons, et l'IA le fera avec une précision incroyable, comme si elle avait lu dans nos pensées visuelles.

Each language version is independently generated for its own context, not a direct translation.

Titre : Kiwi-Edit : Édition Vidéo Polyvalente par Instruction et Guidage par Référence

1. Problématique

L'édition vidéo basée sur des instructions textuelles a connu des progrès rapides, mais elle souffre d'une limitation fondamentale : l'ambiguïté du langage naturel. Les descriptions textuelles sont souvent insuffisantes pour capturer des nuances visuelles complexes, des textures spécifiques, des identités d'objets précises ou des styles artistiques subtils. Bien que l'édition guidée par des références visuelles (images de référence) offre une solution naturelle à ce problème, son développement est freiné par la rareté des données d'entraînement.

Les modèles existants nécessitent des quadruplets de haute qualité (Vidéo Source, Instruction Textuelle, Image de Référence, Vidéo Cible), un format que les jeux de données actuels (souvent limités à des triplets texte-vidéo) ne fournissent pas à grande échelle. Les rares solutions utilisant des références reposent sur des données propriétaires inaccessibles, créant un goulot d'étranglement pour la recherche open-source.

2. Méthodologie

Les auteurs proposent une approche complète en deux volets : la création d'un jeu de données massif et la conception d'une architecture unifiée.

A. Pipeline de Génération de Données Évolutive (RefVIE)
Pour pallier le manque de données, l'équipe a développé un pipeline automatisé pour transformer des paires vidéo existantes (source/cible) en quadruplets complets :

Agrégation et Filtrage : Utilisation de jeux de données open-source existants (Ditto, ReCo, OpenVE) et filtrage par EditScore pour sélectionner les échantillons de haute qualité.
Ancrage et Segmentation : Utilisation de modèles de vision-langage (Qwen3-VL) pour localiser les régions d'intérêt dans la vidéo cible, suivie d'une segmentation précise (SAM3) pour isoler les objets ou les arrière-plans.
Synthèse d'Images de Référence : Utilisation de modèles d'édition d'images avancés (Qwen-Image-Edit) pour générer des images de référence synthétiques à partir des régions segmentées et des instructions.
- Pour les changements d'arrière-plan : L'objet est supprimé et l'arrière-plan est complété pour servir de référence.
- Pour les modifications locales : L'objet édité est extrait et placé sur un fond propre.
Contrôle Qualité : Un MLLM (Multimodal Large Language Model) vérifie la cohérence sémantique entre l'image de référence synthétisée et le résultat attendu, éliminant les échantillons de faible fidélité.

Résultat : Le dataset RefVIE, contenant 477 000 quadruplets de haute qualité, est le premier jeu de données open-source à grande échelle pour l'édition vidéo guidée par référence.

B. Architecture du Modèle (Kiwi-Edit)
Kiwi-Edit est une architecture unifiée combinant un MLLM (Qwen2.5-VL) et un Diffusion Transformer (DiT) (Wan2.2-TI2V-5B) :

Conditionnement Sémantique (MLLM) : Le MLLM traite les séquences entrelacées de la vidéo source, des instructions textuelles et des images de référence. Il utilise deux connecteurs apprenables :
- Query Connector : Projette des tokens d'interrogation pour extraire l'intention d'édition.
- Latent Connector : Extrait les caractéristiques visuelles de l'image de référence.
Conditionnement Structurel (Injection Hybride) : Pour préserver la structure temporelle et spatiale de la vidéo source tout en permettant un transfert de texture fin :
- Injection Élémentaire (Source) : Les latents de la vidéo source sont ajoutés élément par élément aux latents bruyants, modulés par un scalaire dépendant du temps ( $\gamma(t)$ ) pour assurer la stabilité.
- Concaténation (Référence) : Les caractéristiques de l'image de référence sont concaténées à la séquence d'entrée du DiT, permettant au modèle de "copier" directement les détails texturaux.
Curriculum d'Entraînement en Trois Étapes :
1. Alignement MLLM-DiT : Alignement des connecteurs sur des tâches d'édition d'images.
2. Ajustement par Instruction : Entraînement sur des triplets texte-vidéo pour apprendre les primitives d'édition générales.
3. Affinage Guidé par Référence : Entraînement sur le dataset RefVIE pour maîtriser le contrôle visuel précis.

3. Contributions Clés

RefVIE : Le premier dataset open-source à grande échelle (477K échantillons) dédié à l'édition vidéo guidée par instruction et référence, couvrant l'ajout/suppression d'objets et le changement d'arrière-plan.
RefVIE-Bench : Une nouvelle benchmark de 110 échantillons vérifiés manuellement pour évaluer rigoureusement l'adhésion à la référence, la conformité aux instructions et la cohérence temporelle.
Kiwi-Edit : Une architecture unifiée innovante intégrant des requêtes apprenables et des latents visuels, surpassant les méthodes existantes grâce à une stratégie d'injection hybride et un curriculum d'entraînement progressif.

4. Résultats

Les expériences démontrent que Kiwi-Edit établit un nouvel état de l'art (SOTA) :

Édition par Instruction (OpenVE-Bench) : Le modèle obtient un score global de 3.02, surpassant les meilleurs modèles open-source (OpenVE-Edit à 2.50) et rivalisant avec des modèles propriétaires comme Runway Aleph (2.62), particulièrement dans les tâches de changement d'arrière-plan.
Édition Guidée par Référence (RefVIE-Bench) : Avec un score global de 3.31, Kiwi-Edit surpasse légèrement Runway Aleph (3.29) et montre une excellente cohérence d'identité (3.98) et de similarité de référence (3.72). Bien que Kling-O1 (propriétaire) ait des scores absolus plus élevés, Kiwi-Edit établit la référence pour les modèles open-source.
Ablations : Les études montrent que l'injection élémentaire avec mise à l'échelle temporelle et l'entraînement mixte (images + vidéos) sont cruciaux pour la performance, tandis que l'alignement initial MLLM-DiT est indispensable pour éviter l'effondrement des performances.

5. Signification

Ce travail résout le problème critique du manque de données pour l'édition vidéo contrôlée visuellement. En démocratisant l'accès à des données de haute qualité via un pipeline de synthèse automatisé, Kiwi-Edit permet à la communauté de recherche de développer des modèles capables de comprendre et d'exécuter des intentions d'édition complexes avec une précision visuelle inédite. Cela ouvre la voie à des outils d'édition vidéo plus accessibles, précis et contrôlables pour les créateurs de contenu, comblant le fossé entre l'intention humaine et la génération vidéo.

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

1. Le Problème : Le "Je sais ce que je veux, mais je ne peux pas le dire"

2. La Solution : Une "Usine à Recettes" Automatique (RefVIE)

3. Le Chef Cuisinier : Kiwi-Edit

4. Le Résultat : Une Précision de Chirurgien

En Résumé

Titre : Kiwi-Edit : Édition Vidéo Polyvalente par Instruction et Guidage par Référence

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats

5. Signification

Articles similaires

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics