Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een video hebt van een vriend die in een park loopt, en je wilt dat die vriend ineens een astronautenpak draagt, of dat de achtergrond verandert van een zonnige dag naar een besneeuwde winterlandschap.

Vroeger was dit een enorme klus voor een video-editor: je moest frame voor frame knippen, plakken en kleuren aanpassen. Vandaag de dag kunnen we AI gebruiken, maar er was een groot probleem: AI verstaat taal niet altijd goed genoeg.

Als je tegen een AI zegt: "Maak de jas rood," kan dat betekenen dat de hele video rood wordt, of dat de jas een rare vorm krijgt. Als je zegt: "Zet een hoed op," weet de AI niet precies welke hoed je bedoelt.

Deze paper introduceert Kiwi-Edit, een slimme nieuwe manier om video's te bewerken die twee dingen combineert: woorden en voorbeelden.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: Woorden zijn vaag

Stel je voor dat je een schilderij wilt laten maken. Als je tegen de schilder zegt: "Teken een paard," krijg je misschien een paard, maar niet het specifieke paard dat je voor ogen had.
In de wereld van video's is dit nog erger. Woorden kunnen niet precies beschrijven hoe een stof eruitziet, hoe een schaduw valt, of hoe een object er precies uitziet. De huidige AI's zijn als schilders die alleen naar beschrijvingen kijken, maar nooit een foto van het echte object hebben gezien.

2. De Oplossing: Geef de AI een "Voorbeeldfoto"

Kiwi-Edit lost dit op door je niet alleen woorden te laten gebruiken, maar ook een referentieafbeelding (een foto) mee te sturen.

Woorden: "Verander de achtergrond."
Foto: Een foto van een winterbos.
De AI kijkt nu naar de foto en zegt: "Ah, ik zie precies hoe dat bos eruitziet, en ik ga dat in de video plakken."

3. Het Grote Gebrek: Er waren geen "Oefenboeken"

Het probleem was dat er geen grote verzameling bestaande voorbeelden was om de AI op te leren. Je hebt duizenden voorbeelden nodig van:

De originele video.
De instructie (wat moet er gebeuren?).
De foto van het voorbeeld (hoe moet het eruitzien?).
Het eindresultaat.

Dit soort "vierdelige puzzels" bestond niet in grote hoeveelheden.

4. De Creatieve Oplossing: De "AI-Fabriek" (RefVIE)

De onderzoekers hebben een slimme fabriek bedacht om deze ontbrekende puzzels zelf te maken.

Stap 1: Ze namen bestaande video's waar mensen al iets hadden veranderd (bijvoorbeeld: een auto vervangen door een fiets).
Stap 2: Ze gebruikten slimme AI-tools om te kijken waar in de video die verandering plaatsvond.
Stap 3: Ze lieten een andere AI de "oude" auto uit de video halen en een nieuwe, schone foto maken van de "nieuwe" fiets.
Resultaat: Plotseling hadden ze 477.000 perfecte oefenvoorbeelden (het RefVIE-dataset) in plaats van 0. Het is alsof ze een hele bibliotheek met oefenboeken hebben geschreven voor de AI, zodat deze kan leren hoe het moet.

5. De Motor: Kiwi-Edit

Met deze enorme bibliotheek hebben ze de Kiwi-Edit-motor gebouwd. Je kunt je voorstellen dat deze motor twee hersenen heeft die samenwerken:

De Taal-Hersenen (MLLM): Deze leest wat je zegt ("Zet een hoed op").
De Visuele Hersenen (DiT): Deze kijkt naar de foto van de hoed en de video.

Ze gebruiken een slimme techniek waarbij de AI de originele video niet volledig vernietigt, maar er een "laagje" overheen legt dat precies past bij de foto die je hebt gegeven. Het is alsof je een transparante sticker op je video plakt die precies de vorm en kleur van je voorbeeldfoto heeft, maar die meebeweegt met de film.

6. Het Resultaat: Precieze Magie

Dankzij deze methode kan Kiwi-Edit dingen doen die voorheen onmogelijk waren:

Verander de kleding: "Verander het pak van de man in een robotpak" + foto van een robotpak = Een perfecte transformatie.
Verander de achtergrond: "Verander het park in een ruimtestation" + foto van een ruimtestation = Een naadloze overgang.
Verwijder mensen: "Haal de persoon links weg" = De AI vult de ruimte perfect in, alsof die persoon er nooit was.

Samenvattend

Deze paper is als het vinden van de perfecte recepten voor een chef-kok. Voorheen probeerden chefs (AI's) te koken op basis van een vaag beschrijving ("maak het lekker"). Nu hebben de onderzoekers een gigantisch kookboek (RefVIE) gemaakt met foto's van de ingrediënten en de eindresultaten. De nieuwe chef (Kiwi-Edit) kan daardoor niet alleen koken op basis van woorden, maar ook exact kopiëren wat je op de foto ziet.

Het maakt video-bewerken voor iedereen toegankelijker, sneller en veel creatiever. Je hoeft geen expert te zijn; je hebt alleen een idee en een foto nodig.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Bestaande methoden voor instructiegebaseerde videobewerking maken voornamelijk gebruik van natuurlijke taal (tekst) om bewerkingen te specificeren. Hoewel deze methoden indrukwekkende vooruitgang hebben geboekt, hebben ze te kampen met een fundamentele beperking: natuurlijke taal is inherent vaag en onvoldoende om complexe visuele nuances, specifieke texturen, exacte objectidentiteiten of subtiele stijlkarakteristieken nauwkeurig te beschrijven.

Hoewel referentiegeleide bewerking (waarbij gebruikers een voorbeeldafbeelding meesturen naast de tekst) een oplossing biedt, wordt dit veld ernstig belemmerd door een tekort aan hoogwaardige trainingsdata. Het trainen van dergelijke modellen vereist zeldzame "quadruplets" bestaande uit:

Bronvideo ( $V_{src}$ )
Bewerkingsinstructie ( $T_{inst}$ )
Referentieafbeelding ( $I_{ref}$ )
Doelvideo ( $V_{tgt}$ )

Bestaande open-source datasets bevatten geen referentieafbeeldingen, en de beperkte datasets die dit wel doen, zijn vaak gesloten (propriëtraat) of te klein voor effectief training.

Methodologie

Het paper introduceert een drieledige aanpak om dit probleem op te lossen: een schaalbaar data-generatieproces, een nieuw dataset/benchmark, en een geavanceerd modelarchitectuur.

1. Schaalbaar Data Generatie Pijplijn (RefVIE Dataset)

Om het gebrek aan data op te lossen, hebben de auteurs een geautomatiseerde pijplijn ontwikkeld om bestaande instructie-gebaseerde videobewerkingsparen om te zetten in quadruplets met referentieafbeeldingen.

Bron: Ze starten met 3,7 miljoen ruwe samples van open-source datasets (zoals Ditto, ReCo, OpenVE).
Stap 1: Filtering: Selectie van hoge kwaliteit samples (EditScore > 8) voor taken als lokale modificatie of achtergrondvervanging.
Stap 2: Grounding & Segmentatie: Gebruik van visueel-talige modellen (Qwen3-VL) om het gebied van interesse in de doelvideo te lokaliseren, gevolgd door precisie-segmentatie met SAM3.
Stap 3: Synthese van Referentieafbeeldingen: Gebruik van geavanceerde beeldbewerkingsmodellen (Qwen-Image-Edit) om de gesegmenteerde objecten of achtergronden te extraheren en te herscheppen als een schone referentieafbeelding die de visuele essentie van de gewenste bewerking vastlegt.
Stap 4: Kwaliteitscontrole: Automatische verificatie door een MLLM om semantische consistentie te garanderen, gevolgd door de-duplicatie.
Resultaat: De RefVIE-dataset met 477.000 hoogwaardige quadruplets, de eerste grote open-source bron voor dit domein.

2. Benchmark (RefVIE-Bench)

Om de prestaties objectief te meten, hebben ze RefVIE-Bench ontwikkeld, een benchmark van 110 handmatig geverifieerde samples. In tegenstelling tot eerdere benchmarks die zich alleen op tekst-video-alignment richtten, evalueert deze:

Identiteitsconsistentie: Hoe goed het object de referentie nabootst.
Temporale Fideliteit: Stabiliteit en consistentie over de tijd.
Fysieke Integratie: Schatten, tracking en interactie met de scène.
Referentiegetrouwheid & Matting: Voor achtergrondvervanging.
Evaluatie: Een state-of-the-art MLLM (Gemini) fungeert als automatische rechter met een 1-5 schaal.

3. Model Architectuur: Kiwi-Edit

Kiwi-Edit is een unificerend framework dat een Multimodal Large Language Model (MLLM) combineert met een Diffusion Transformer (DiT).

Semantische Conditionering (MLLM): Een gefroren Qwen2.5-VL-3B model verwerkt de bronvideo, tekst-instructies en optionele referentieafbeeldingen.
- Query Connector: Projecteert leerbare query-tokens om de bewerkingsintentie te distilleren.
- Latent Connector: Extraheert visuele features uit de referentieafbeelding.
- Deze worden samengevoegd tot "Context Tokens" die de DiT via cross-attention sturen.
Structurele Conditionering (Hybride Latent Injectie): Om de structuur van de bronvideo te behouden terwijl details worden overgenomen:
- Bronvideo: Features worden elementsgewijs opgeteld (element-wise addition) met een leerbare, tijdstap-afhankelijke scalar $\gamma(t)$ om de structuur te behouden zonder training-instabiliteit.
- Referentieafbeelding: Features worden geconcateneerd aan de inputsequentie om fijne textuurdetails direct te kopiëren.
Trainingscurriculum: Een drie-traps strategie voor stabiele convergentie:
1. MLLM-DiT Alignement: Alleen de connectoren trainen op tekst-gebaseerde data.
2. Instructional Tuning: Joint optimization op grote datasets (beeld en video).
3. Reference-Guided Fine-tuning: Training op de nieuwe RefVIE-quadruplets voor precisie.

Belangrijkste Resultaten

State-of-the-Art Prestaties: Kiwi-Edit presteert beter dan alle bestaande open-source modellen (zoals OpenVE-Edit, VACE, Ditto) op de OpenVE-Bench. Het behaalt een overall score van 3.02 (tegenover 2.50 voor de vorige beste).
Referentiegeleide Bewerking: Op de RefVIE-Bench scoort het model 3.31, wat het net voorbij de gesloten, commerciële modellen zoals Runway Aleph (3.29) brengt, en zeer competitief is met Kling-O1 (hoewel Kling-O1 grotere parameters heeft).
Ablatie Studies:
- De hybride injectiestrategie (elementsgewijze optelling voor structuur, concatenatie voor referentie) is cruciaal; andere methoden leiden tot instabiliteit of verlies van detail.
- Het meerekenen van beelddata (Image Co-training) is essentieel voor ruimtelijke precisie bij lokale bewerkingen.
- Het trainingscurriculum (stap 1, 2, 3) is noodzakelijk; het overslaan van de alignement-stap leidt tot catastrofale prestatiedalingen.

Significantie

Dit werk is een mijlpaal in het domein van gecontroleerde videobewerking om de volgende redenen:

Democratisering van Data: Het oplost het fundamentele bottleneck-probleem van data-schaarste door een schaalbare, geautomatiseerde pijplijn te introduceren die open-source datasets transformeert tot een rijk, referentiegeleide dataset (RefVIE).
Overbrugging van de Kloof: Het bewijst dat open-source modellen, wanneer getraind op hoogwaardige data met een goed ontworpen architectuur, kunnen concurreren met gesloten, commerciële systemen op het gebied van visuele precisie en referentiegetrouwheid.
Nieuwe Standaard: Met de introductie van RefVIE-Bench en de Kiwi-Edit-architectuur wordt een nieuwe standaard gezet voor hoe multimodale instructies en visuele referenties effectief kunnen worden geïntegreerd in videogeneratiemodellen.

Kortom, Kiwi-Edit stelt onderzoekers en ontwikkelaars in staat om veel nauwkeurigere en visueel rijkere videobewerkingen uit te voeren dan ooit tevoren mogelijk was met open-source tools.