LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez une vidéo d'une fleur qui s'ouvre lentement. Vous voulez modifier la première image pour que la fleur soit rouge au lieu de blanche. Avec les anciennes méthodes, la vidéo pourrait devenir bizarre : la fleur pourrait rester rouge, mais le reste du jardin changerait de couleur, ou la fleur pourrait s'ouvrir de manière étrange, comme si elle était gelée.

Ce papier de recherche, présenté à la conférence ICLR 2026, propose une nouvelle méthode pour réparer ce problème. Ils appellent leur invention "LoRAEdit". Voici comment ça marche, expliqué simplement avec des images mentales.

1. Le Problème : Le "Copier-Coller" qui ne fonctionne pas

Jusqu'à présent, pour modifier une vidéo, les ordinateurs devaient souvent réapprendre tout le film depuis zéro, ce qui prenait beaucoup de temps et d'argent. Une autre méthode consistait à dire à l'ordinateur : "Voici la première image modifiée, devine le reste."
C'est comme donner une photo de départ à un peintre et lui dire : "Peins la suite." Le problème ? Le peintre ne sait pas exactement quoi garder et quoi changer. Il pourrait peindre le ciel en vert s'il n'est pas guidé, ou faire disparaître l'objet que vous vouliez modifier.

2. La Solution : Le "Masque Intelligent" et le "Tuteur" (LoRA)

Les auteurs utilisent deux outils magiques :

Un Masque (comme un pochoir) : C'est un dessin qui indique à l'ordinateur : "Garde tout ce qui est blanc, et change tout ce qui est noir."
LoRA (Low-Rank Adaptation) : Imaginez que le modèle de vidéo est un grand chef cuisinier très expérimenté, mais qui ne sait pas cuisiner votre recette spécifique. LoRA est comme un tuteur ou un post-it que l'on colle sur le chef. Au lieu de réécrire tout le livre de cuisine du chef, on lui donne juste quelques notes précises pour cette vidéo.

3. Comment ça marche ? (L'analogie du Chef et du Pochoir)

L'idée géniale de ce papier est d'utiliser le pochoir (le masque) pour enseigner deux choses différentes au tuteur (LoRA) :

A. Apprendre le Mouvement (La Danse)

Imaginez que vous voulez que la fleur s'ouvre.

Le pochoir couvre la fleur en noir (à modifier) et laisse le fond en blanc (à garder).
Le tuteur (LoRA) regarde la vidéo originale et apprend uniquement comment la fleur bouge dans le temps. Il apprend la "danse" de la fleur, mais il ignore le reste du jardin.
Résultat : Quand on demande la nouvelle vidéo, la fleur fait exactement les mêmes mouvements, mais elle est rouge.

B. Apprendre l'Apparence (Le Costume)

Parfois, on veut que la fleur ne s'ouvre pas seulement, mais qu'elle devienne un type de fleur différent (par exemple, une rose).

Le tuteur regarde une photo de référence (la rose rouge).
Grâce au pochoir, il apprend à copier la texture et la couleur de la rose, mais seulement sur la zone où la fleur se trouve.
Le plus important : Il apprend à faire cela tout en bougeant. Si la fleur tourne, le tuteur sait comment la rose doit tourner pour rester réaliste.

4. Pourquoi c'est révolutionnaire ?

Avant, c'était comme essayer de changer la couleur d'une voiture en mouvement sans toucher aux roues. C'était très difficile.
Avec cette méthode :

Précision chirurgicale : Vous pouvez changer la couleur d'un seul objet sans toucher au décor.
Contrôle total : Vous pouvez dire à l'ordinateur : "Garde le mouvement de la vidéo originale, mais change l'apparence de l'objet selon cette photo."
Pas de réinvention : On n'a pas besoin de réentraîner tout le cerveau de l'ordinateur. On ajoute juste un petit "tuteur" (LoRA) qui coûte peu cher et fonctionne très vite.

En résumé

Ce papier nous donne un outil pour dire à l'IA : "Regarde cette vidéo. Garde le rythme et le mouvement exacts, mais remplace cet objet par celui-ci, en respectant parfaitement les contours."

C'est comme avoir un assistant de montage vidéo qui comprend non seulement vos instructions, mais qui sait aussi exactement où s'arrêter pour ne pas gâcher le reste de la scène. Le résultat est une vidéo modifiée qui semble naturelle, fluide et parfaitement contrôlée.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Le domaine de l'édition vidéo par modèles de diffusion a connu des avancées majeures, mais il reste confronté à deux limitations principales :

Manque de flexibilité et coût : Les méthodes actuelles reposent souvent sur un fine-tuning à grande échelle nécessitant d'énormes quantités de données et de puissance de calcul, ce qui les rend peu adaptables à de nouveaux types d'édition spécifiques.
Contrôle temporel insuffisant : L'approche de l'édition guidée par la première image (first-frame-guided) permet de modifier la première image librement, mais elle offre un contrôle limité sur l'évolution temporelle subséquente. Par exemple, si l'on modifie une fleur dans la première image, il est difficile de contrôler précisément comment elle s'épanouit dans les images suivantes ou de gérer les zones de désocclusion lors d'un mouvement de caméra. De plus, les modifications peuvent "fuir" vers les zones non éditées, altérant l'arrière-plan.

L'objectif est donc de développer une méthode qui combine la flexibilité de l'édition guidée par la première image avec un contrôle fin et temporellement cohérent, sans nécessiter un réentraînement complet du modèle.

2. Méthodologie

Les auteurs proposent une méthode innovante basée sur le LoRA (Low-Rank Adaptation) couplé à un mécanisme de masquage spatio-temporel (mask-aware) appliqué à des modèles de génération d'images vers vidéo (I2V) pré-entraînés.

A. Adaptation LoRA pour la propagation du mouvement

La première étape consiste à utiliser le LoRA pour apprendre les motifs de mouvement d'une vidéo source.

Le modèle est entraîné sur la vidéo source ( $V_{input}$ ) en utilisant des modules LoRA insérés dans les couches d'attention (self et cross-attention).
L'objectif est de reconstruire la vidéo source conditionnée par la première image et un prompt textuel, permettant au modèle d'acquérir la dynamique temporelle de la vidéo.

B. Le pouvoir du masquage spatio-temporel

L'innovation centrale réside dans l'utilisation stratégique d'un masque binaire spatio-temporel ( $M_{cond}$ ) pour guider le fine-tuning du LoRA. Ce masque permet de définir deux modes d'apprentissage distincts :

Apprentissage du mouvement (Motion Learning) : Le masque préserve l'arrière-plan et les zones non éditées (valeur 1) tout en masquant les zones à éditer (valeur 0). Le modèle apprend ainsi à générer le mouvement cohérent de la zone éditée tout en respectant la structure de la vidéo source.
Apprentissage de l'apparence (Appearance Learning) : Pour contrôler l'apparence spécifique d'un objet au fil du temps (ex: une fleur qui change de couleur), le modèle peut être entraîné sur des images de référence supplémentaires. Le masque guide le LoRA pour apprendre à synthétiser cette nouvelle apparence tout en conservant le mouvement appris précédemment.

C. Pipeline d'inférence

Lors de l'édition :

L'utilisateur fournit une première image modifiée ( $\tilde{I}_1$ ) et, optionnellement, des images de référence supplémentaires pour des étapes temporelles spécifiques.
Le même masque utilisé lors de l'entraînement est appliqué pour guider la génération.
Le modèle génère la séquence vidéo complète où les zones non masquées restent fidèles à la vidéo source (arrière-plan préservé), tandis que les zones masquées subissent la transformation désirée avec une cohérence temporelle parfaite.

3. Contributions Clés

Méthode LoRA guidée par le masque : Une approche qui permet d'adapter des modèles I2V pré-entraînés pour l'édition vidéo sans modifier l'architecture du modèle de base.
Contrôle double capacité : Le système apprend simultanément à préserver le contenu source (via le masque) et à générer de nouveaux contenus (mouvement ou apparence) dans les zones désignées.
Flexibilité temporelle : Contrairement aux méthodes purement guidées par la première image, cette méthode permet d'intégrer des conditions supplémentaires (images de référence intermédiaires) pour contrôler l'évolution de l'objet édité au cours du temps.
Efficacité et accessibilité : La méthode ne nécessite pas de réentraînement massif. Des stratégies d'optimisation (fenêtrage temporel, échange de blocs) permettent de réduire les besoins en mémoire GPU (jusqu'à ~8 Go), rendant la méthode accessible sur des cartes grand public.

4. Résultats Expérimentaux

Les auteurs ont évalué leur méthode sur des tâches d'édition vidéo complexes (changement d'objet, ajout d'éléments, modification d'attributs comme la couleur des cheveux ou l'épanouissement d'une fleur).

Comparaison qualitative : Les résultats visuels montrent une supériorité par rapport aux méthodes de l'état de l'art (Kling1.6, VACE, I2VEdit, AnyV2V). La méthode proposée préserve mieux l'arrière-plan, évite les artefacts de "fuite" et maintient une cohérence temporelle supérieure lors de mouvements complexes.
Évaluation quantitative :
- Score CLIP et DeQA : La méthode obtient les meilleurs scores pour l'alignement sémantique avec l'image éditée et la qualité visuelle globale.
- Similarité d'entrée : Meilleure conservation des caractéristiques de la vidéo source dans les zones non éditées.
- Étude utilisateur : Les participants ont préféré la méthode proposée pour la cohérence du mouvement et la préservation de l'arrière-plan.
Études d'ablation :
- L'utilisation du masque en entrée (Input-Level) est cruciale pour éviter les artefacts de "collage" observés avec des méthodes de masquage au niveau des caractéristiques (Feature-Level).
- L'utilisation de masques "lâches" (bounding boxes) s'avère plus efficace que des masques de segmentation pixel-parfaite, car elle permet au modèle de générer des transitions naturelles aux bords.

5. Signification et Impact

Ce travail représente une avancée significative pour l'édition vidéo générative en résolvant le compromis entre flexibilité et contrôle.

Accessibilité : En évitant le fine-tuning complet et en utilisant le LoRA, la méthode rend l'édition vidéo de haute qualité accessible à des ressources computationnelles limitées.
Contrôle Créatif : Elle offre aux créateurs un contrôle granulaire sur l'évolution temporelle des objets, ouvrant la voie à des applications complexes en cinéma, publicité et art numérique.
Robustesse : La capacité à gérer des modifications d'apparence tout en préservant le mouvement et l'arrière-plan établit un nouveau standard pour les tâches d'édition vidéo "zero-shot" ou "few-shot".

En résumé, cette méthode transforme les modèles de génération vidéo en outils d'édition puissants et contrôlables, combinant la puissance des priors de diffusion avec une adaptation légère et ciblée via le LoRA et le masquage.