Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Dit paper introduceert Kiwi-Edit, een geavanceerd systeem voor instructie- en referentiegebaseerde videobewerking dat een schaalbaar datapipeline en een nieuw dataset (RefVIE) gebruikt om de precisie en controle bij het aanpassen van video's aanzienlijk te verbeteren.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng, Zechen Bai, Yanzhe Chen, Mike Zheng Shou

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een video hebt van een vriend die in een park loopt, en je wilt dat die vriend ineens een astronautenpak draagt, of dat de achtergrond verandert van een zonnige dag naar een besneeuwde winterlandschap.

Vroeger was dit een enorme klus voor een video-editor: je moest frame voor frame knippen, plakken en kleuren aanpassen. Vandaag de dag kunnen we AI gebruiken, maar er was een groot probleem: AI verstaat taal niet altijd goed genoeg.

Als je tegen een AI zegt: "Maak de jas rood," kan dat betekenen dat de hele video rood wordt, of dat de jas een rare vorm krijgt. Als je zegt: "Zet een hoed op," weet de AI niet precies welke hoed je bedoelt.

Deze paper introduceert Kiwi-Edit, een slimme nieuwe manier om video's te bewerken die twee dingen combineert: woorden en voorbeelden.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: Woorden zijn vaag

Stel je voor dat je een schilderij wilt laten maken. Als je tegen de schilder zegt: "Teken een paard," krijg je misschien een paard, maar niet het specifieke paard dat je voor ogen had.
In de wereld van video's is dit nog erger. Woorden kunnen niet precies beschrijven hoe een stof eruitziet, hoe een schaduw valt, of hoe een object er precies uitziet. De huidige AI's zijn als schilders die alleen naar beschrijvingen kijken, maar nooit een foto van het echte object hebben gezien.

2. De Oplossing: Geef de AI een "Voorbeeldfoto"

Kiwi-Edit lost dit op door je niet alleen woorden te laten gebruiken, maar ook een referentieafbeelding (een foto) mee te sturen.

  • Woorden: "Verander de achtergrond."
  • Foto: Een foto van een winterbos.
    De AI kijkt nu naar de foto en zegt: "Ah, ik zie precies hoe dat bos eruitziet, en ik ga dat in de video plakken."

3. Het Grote Gebrek: Er waren geen "Oefenboeken"

Het probleem was dat er geen grote verzameling bestaande voorbeelden was om de AI op te leren. Je hebt duizenden voorbeelden nodig van:

  1. De originele video.
  2. De instructie (wat moet er gebeuren?).
  3. De foto van het voorbeeld (hoe moet het eruitzien?).
  4. Het eindresultaat.

Dit soort "vierdelige puzzels" bestond niet in grote hoeveelheden.

4. De Creatieve Oplossing: De "AI-Fabriek" (RefVIE)

De onderzoekers hebben een slimme fabriek bedacht om deze ontbrekende puzzels zelf te maken.

  • Stap 1: Ze namen bestaande video's waar mensen al iets hadden veranderd (bijvoorbeeld: een auto vervangen door een fiets).
  • Stap 2: Ze gebruikten slimme AI-tools om te kijken waar in de video die verandering plaatsvond.
  • Stap 3: Ze lieten een andere AI de "oude" auto uit de video halen en een nieuwe, schone foto maken van de "nieuwe" fiets.
  • Resultaat: Plotseling hadden ze 477.000 perfecte oefenvoorbeelden (het RefVIE-dataset) in plaats van 0. Het is alsof ze een hele bibliotheek met oefenboeken hebben geschreven voor de AI, zodat deze kan leren hoe het moet.

5. De Motor: Kiwi-Edit

Met deze enorme bibliotheek hebben ze de Kiwi-Edit-motor gebouwd. Je kunt je voorstellen dat deze motor twee hersenen heeft die samenwerken:

  • De Taal-Hersenen (MLLM): Deze leest wat je zegt ("Zet een hoed op").
  • De Visuele Hersenen (DiT): Deze kijkt naar de foto van de hoed en de video.

Ze gebruiken een slimme techniek waarbij de AI de originele video niet volledig vernietigt, maar er een "laagje" overheen legt dat precies past bij de foto die je hebt gegeven. Het is alsof je een transparante sticker op je video plakt die precies de vorm en kleur van je voorbeeldfoto heeft, maar die meebeweegt met de film.

6. Het Resultaat: Precieze Magie

Dankzij deze methode kan Kiwi-Edit dingen doen die voorheen onmogelijk waren:

  • Verander de kleding: "Verander het pak van de man in een robotpak" + foto van een robotpak = Een perfecte transformatie.
  • Verander de achtergrond: "Verander het park in een ruimtestation" + foto van een ruimtestation = Een naadloze overgang.
  • Verwijder mensen: "Haal de persoon links weg" = De AI vult de ruimte perfect in, alsof die persoon er nooit was.

Samenvattend

Deze paper is als het vinden van de perfecte recepten voor een chef-kok. Voorheen probeerden chefs (AI's) te koken op basis van een vaag beschrijving ("maak het lekker"). Nu hebben de onderzoekers een gigantisch kookboek (RefVIE) gemaakt met foto's van de ingrediënten en de eindresultaten. De nieuwe chef (Kiwi-Edit) kan daardoor niet alleen koken op basis van woorden, maar ook exact kopiëren wat je op de foto ziet.

Het maakt video-bewerken voor iedereen toegankelijker, sneller en veel creatiever. Je hoeft geen expert te zijn; je hebt alleen een idee en een foto nodig.