Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Le papier présente Kiwi-Edit, une architecture unifiée et un pipeline de génération de données évolutif qui surmontent les limitations des méthodes d'édition vidéo actuelles en combinant des instructions textuelles et des références visuelles pour atteindre un état de l'art en matière de contrôle précis.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng, Zechen Bai, Yanzhe Chen, Mike Zheng Shou

Publié 2026-03-06
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous voulez modifier une vidéo, comme changer le manteau d'un personnage ou remplacer le décor d'une pièce. Jusqu'à présent, les outils d'intelligence artificielle fonctionnaient un peu comme un traducteur qui ne comprend que les mots : vous deviez leur dire "mets un chapeau rouge", et ils devaient deviner à quoi ressemblerait ce chapeau. Souvent, le résultat était flou ou ne correspondait pas exactement à votre idée.

Le papier que vous avez partagé, Kiwi-Edit, propose une solution révolutionnaire pour résoudre ce problème. Voici une explication simple, imagée, de ce que les chercheurs ont fait.

1. Le Problème : Le "Je sais ce que je veux, mais je ne peux pas le dire"

Imaginez que vous êtes un architecte. Vous voulez dire à votre maçon : "Je veux une fenêtre avec ce style précis de vitrail". Si vous lui décrivez la fenêtre avec des mots (rouge, bleu, forme de fleur), il risque de se tromper. Mais si vous lui montrez une photo de la vitrail exact que vous voulez, il comprendra instantanément.

C'est exactement le problème des vidéos actuelles : l'IA comprend bien les mots, mais elle a du mal à saisir les détails visuels précis. De plus, pour apprendre à faire cela, l'IA a besoin de milliers d'exemples montrant :

  1. La vidéo de départ.
  2. L'instruction (le texte).
  3. La photo de référence (l'exemple visuel).
  4. Le résultat final.

Le hic ? Personne n'avait jamais créé une telle bibliothèque d'exemples. C'était comme vouloir apprendre à cuisiner sans jamais avoir vu de recettes avec des photos.

2. La Solution : Une "Usine à Recettes" Automatique (RefVIE)

Pour combler ce manque, les chercheurs ont créé RefVIE, une gigantesque base de données. Mais comment ont-ils obtenu 477 000 exemples sans les dessiner à la main ?

Ils ont construit une usine automatique (un pipeline) :

  • Ils ont pris d'anciennes vidéos déjà éditées (sans photo de référence).
  • Ils ont utilisé une IA très intelligente pour "regarder" la vidéo et dire : "Ah, ici on a changé le manteau".
  • Ensuite, ils ont utilisé une autre IA pour recréer la photo de référence qui aurait pu servir à faire ce changement.

C'est un peu comme si vous aviez un gâteau fini, et que votre machine à remonter le temps recréait la photo de la recette exacte qui a permis de le faire. Grâce à cette astuce, ils ont pu construire la plus grande bibliothèque du monde pour apprendre aux IA à utiliser des photos de référence.

3. Le Chef Cuisinier : Kiwi-Edit

Avec cette nouvelle bibliothèque, ils ont entraîné un nouveau modèle appelé Kiwi-Edit. Pour comprendre comment il fonctionne, imaginons un chef cuisinier très doué :

  • Le Chef (Le Modèle) : C'est l'IA qui va modifier la vidéo.
  • Le Commande (Le Texte) : Le client dit : "Remplace le manteau".
  • L'Échantillon (La Photo de référence) : Le client montre une photo du manteau exact qu'il veut.

Avant, le chef ne regardait que le texte. Avec Kiwi-Edit, le chef a deux yeux :

  1. Il lit la commande.
  2. Il regarde la photo de référence pour copier les textures, les couleurs et les détails précis.

Le modèle utilise une technique spéciale : il "injecte" la structure de la vidéo originale (pour que le mouvement reste fluide) tout en "collant" les détails de la nouvelle photo (pour que le manteau ressemble exactement à celui de la référence). C'est comme si le chef pouvait changer les ingrédients d'un plat sans casser la recette de base.

4. Le Résultat : Une Précision de Chirurgien

Grâce à cette méthode, Kiwi-Edit est capable de faire des choses impressionnantes que les autres modèles ratent :

  • Remplacer le fond d'une vidéo par un décor de film d'Hollywood, en gardant les ombres et la lumière parfaitement justes.
  • Changer les vêtements d'une personne en suivant exactement le tissu et le style d'une photo fournie.
  • Ajouter un objet (comme un chapeau) qui suit parfaitement les mouvements de la tête, sans trembler.

Les tests montrent que Kiwi-Edit est actuellement le meilleur modèle "open-source" (gratuit et accessible) pour faire cela, surpassant même certains outils payants très avancés.

En Résumé

Les chercheurs ont dit : "Les IA sont trop bêtes pour comprendre nos descriptions textuelles complexes."
Alors, ils ont dit : "Donnons-leur des photos !"
Mais comme il n'y avait pas assez de photos, ils ont inventé une machine pour en fabriquer des millions.
Ensuite, ils ont entraîné un nouveau robot (Kiwi-Edit) avec ces photos.
Résultat : Nous pouvons maintenant modifier des vidéos en montrant simplement une image de ce que nous voulons, et l'IA le fera avec une précision incroyable, comme si elle avait lu dans nos pensées visuelles.