Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen alten Videoclip von deinem Urlaub bearbeiten. Vielleicht willst du den Hintergrund von einem sonnigen Strand in eine schneebedeckte Berglandschaft verwandeln oder dem Mann im Video einfach eine coole, rote Mütze aufsetzen.

Bisher war das für Computer sehr schwer. Wenn du dem Computer nur sagst: „Mach eine rote Mütze auf den Kopf", versteht er oft nicht genau, welche Mütze du meinst. Ist sie aus Wolle? Aus Leder? Ist sie breit oder eng? Sprache ist wie ein grobes Netz – sie fängt die groben Ideen, aber die feinen Details (wie die genaue Textur oder Form) rutschen hindurch.

Die Forscher vom „Show Lab" der National University of Singapore haben mit Kiwi-Edit eine Lösung gefunden, die dieses Problem löst. Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar Bildern im Kopf:

1. Das Problem: Der Computer braucht mehr als nur Worte

Stell dir vor, du möchtest einem Maler sagen, wie ein Bild aussehen soll.

Der alte Weg (nur Text): Du sagst: „Malt einen Hund." Der Maler malt vielleicht einen Golden Retriever, du wolltest aber einen Dackel. Oder er malt einen Hund, der aussieht wie ein Bär.
Der neue Weg (Kiwi-Edit): Du gibst dem Maler nicht nur den Befehl „Malt einen Hund", sondern hältst ihm auch ein Foto von dem genauen Dackel hin, den du im Kopf hast. Der Maler schaut auf das Foto und weiß sofort: „Ah, genau so soll er aussehen!"

Kiwi-Edit macht genau das für Videos: Es kombiniert deine Worte (die Anweisung) mit einem Foto (der Referenz), um das Ergebnis perfekt zu treffen.

2. Das große Hindernis: Es fehlten die „Lehrbücher"

Damit ein Computer so etwas lernen kann, braucht er Millionen von Beispielen. Er muss sehen:

Das Originalvideo.
Die Anweisung („Mach eine Mütze auf").
Das Foto der Mütze (die Referenz).
Das fertige Ergebnis.

Das Problem war: Solche „Vier-er-Pakete" gab es einfach nicht in großer Zahl. Die Forscher mussten alles von Hand sammeln, was zu teuer und zu langsam war. Es war, als wolle man einen Kochlehrling ausbilden, aber es gäbe keine Kochbücher, nur leere Töpfe.

3. Die Lösung: Ein „Roboter-Koch", der Bücher schreibt

Hier kommt der geniale Trick von Kiwi-Edit ins Spiel. Die Forscher haben einen automatischen Prozess entwickelt, der wie ein super-schneller Roboter-Koch funktioniert:

Schritt 1: Der Roboter nimmt bestehende Videoclips, bei denen jemand schon etwas verändert hat (z. B. ein Video, in dem ein Hund durch einen Roboter ersetzt wurde).
Schritt 2: Er schaut sich das Ergebnis an und fragt sich: „Was war das für ein Hund? Wie sah er aus?"
Schritt 3: Mit Hilfe von moderner KI (einem Bild-Generator) erfindet der Roboter das fehlende Foto des Hundes, das genau so aussieht wie im Video.
Schritt 4: Jetzt hat er das komplette Paket: Originalvideo + Anweisung + Erfindenes Foto + Ergebnis.

Diesen Prozess haben sie Millionen Mal wiederholt. Sie haben aus 3,7 Millionen Rohdaten ein riesiges, hochwertiges Lehrbuch namens RefVIE mit 477.000 perfekten Beispielen gezaubert. Das ist wie ein riesiges Archiv, in dem der Computer lernt, wie man Dinge genau so verändert, wie man es sich wünscht.

4. Der „Schweizer Taschenmesser"-Algorithmus (Kiwi-Edit)

Auf Basis dieses riesigen Lehrbuchs haben sie das Modell Kiwi-Edit gebaut. Stell dir Kiwi-Edit wie einen extrem talentierten Filmredakteur vor, der zwei Gehirne hat:

Das Sprach-Gehirn (MLLM): Es versteht deine Anweisungen. „Mach den Hintergrund winterlich."
Das Bild-Gehirn (DiT): Es versteht die visuellen Details aus deinem Referenzfoto. „Ah, Winter bedeutet Schnee, blaues Licht und diese spezifischen Bäume."

Das Besondere an Kiwi-Edit ist, wie es diese beiden Gehirne zusammenbringt:

Es nutzt eine hybride Strategie: Die Struktur des Originalvideos (die Bewegungen der Personen) wird wie ein Gerüst festgehalten, damit nichts wackelt. Gleichzeitig werden die neuen Details (die Mütze, der Schnee) wie ein feiner Lack über das Video gelegt, der sich perfekt anpasst.

5. Das Ergebnis: Magie statt Magie

Wenn du Kiwi-Edit jetzt benutzt, passiert Folgendes:

Du sagst: „Ersetze den Hintergrund durch eine schneebedeckte Stadt."
Du zeigst ein Foto von einer schneebedeckten Stadt.
Das Ergebnis ist ein Video, in dem die Personen sich natürlich bewegen, aber der Hintergrund ist exakt wie auf deinem Foto, mit dem richtigen Licht und den richtigen Schatten.

Zusammenfassend:
Kiwi-Edit ist wie ein Assistent, der nicht nur zuhört, was du sagst, sondern auch genau hinsieht, was du meinst. Durch die Erfindung einer Methode, um automatisch „Lehrbücher" für diese Aufgabe zu erstellen, haben die Forscher den Weg geebnet, damit jeder in Zukunft ganz einfach und präzise Videos bearbeiten kann – ohne dass man ein Profi-Editor sein muss. Es ist der Unterschied zwischen „Versuch es mal" und „Genau so, wie ich es mir vorgestellt habe".

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Feld des videobasierten Editierens auf Basis von Sprachanweisungen (Instruction-based Video Editing) hat zwar rapide Fortschritte gemacht, stößt jedoch an fundamentale Grenzen:

Einschränkung natürlicher Sprache: Natürliche Sprache ist oft zu vage, um präzise visuelle Details wie spezifische Texturen, exakte Objektidentitäten oder subtile Stilmerkmale zu beschreiben. Nutzer möchten häufig visuelle Beispiele („ersetze das Auto durch dieses Sportauto") liefern, was rein textbasierte Modelle kaum bewältigen können.
Datenmangel: Referenzgeführtes Video-Editing (Instruction + Reference Image) erfordert hochwertige Trainingsdaten in Form von Quadruplets: Quellvideo ( $V_{src}$ ), Editieranweisung ( $T_{inst}$ ), Referenzbild ( $I_{ref}$ ) und Zielvideo ( $V_{tgt}$ ). Bisherige große Datensätze bieten nur Triplets (ohne Referenzbild) an, und verfügbare Referenz-Datensätze sind entweder proprietär oder sehr klein. Dies behindert die Entwicklung robuster, offener Modelle erheblich.

2. Methodik

Die Autoren schlagen einen umfassenden Ansatz vor, der aus einer skalierbaren Datengenerierungspipeline, einem neuen Datensatz und einer einheitlichen Modellarchitektur besteht.

A. Skalierbare Datengenerierungspipeline (RefVIE)

Um das Problem des Datenmangels zu lösen, entwickeln die Autoren eine automatisierte Pipeline, die bestehende Instruction-basierte Video-Editier-Datensätze (z. B. Ditto, ReCo, OpenVE) in hochwertige Quadruplets umwandelt. Der Prozess umfasst vier Stufen:

Aggregation & Filterung: Sammlung von 3,7 Millionen Rohstichproben aus Open-Source-Datensätzen. Filterung mittels EditScore (Schwellenwert > 8 für Referenz-Aufgaben), um nur hochwertige lokale Änderungen oder Hintergrundwechsel zu selektieren.
Grounding & Segmentierung: Nutzung von Qwen3-VL-32B zur Identifizierung der relevanten Regionen im Zielframe basierend auf der Anweisung, gefolgt von einer Verfeinerung der Masken durch SAM3 (Segment Anything Model 3).
Synthese von Referenzbildern: Nutzung von Qwen-Image-Edit-2511, um basierend auf den segmentierten Bereichen Referenzbilder zu generieren. Bei Hintergrundwechseln wird das Vordergrundobjekt entfernt und der Hintergrund freigestellt; bei lokalen Änderungen wird das Objekt isoliert dargestellt.
Qualitätskontrolle: Ein Multimodales Large Language Model (MLLM) prüft die semantische Konsistenz zwischen Referenzbild und Editierergebnis. Zusätzlich erfolgt eine Deduplizierung mittels CLIP-Features.

Ergebnis: Ein Datensatz von 477.000 hochwertigen Quadruplets (RefVIE), der lokalisierte Änderungen und Hintergrundwechsel abdeckt.

B. Architektur: Kiwi-Edit

Das Modell ist ein einheitlicher Rahmen, der ein Multimodales Large Language Model (MLLM) mit einem Diffusion Transformer (DiT) kombiniert.

MLLM (Qwen2.5-VL-3B): Kodiert die multimodalen Eingaben (Quellvideo, Textanweisung, Referenzbild). Die Gewichte sind eingefroren, es werden nur LoRA-Adapter und spezielle Connector-Module trainiert.
Dual-Connector-Mechanismus:
- Query Connector: Projiziert lernbare Query-Token, um die Editierabsicht (semantische Intention) zu extrahieren.
- Latent Connector: Extrahiert visuelle Merkmale aus dem Referenzbild.
- Diese werden zu einem einheitlichen Kontext-Token-Strang zusammengeführt, der den DiT über Cross-Attention steuert.
Hybride Latent-Injektion: Um die Struktur des Quellvideos zu bewahren und gleichzeitig feine Texturen vom Referenzbild zu übertragen, wird eine hybride Strategie angewendet:
- Quellvideo: Latente Features werden elementweise addiert (moduliert durch einen lernbaren, zeitabhängigen Skalar $\gamma(t)$ ), um die räumlich-zeitliche Struktur zu erhalten.
- Referenzbild: Features werden konkateniert (an die Eingabesequenz angehängt), um feine Texturdetails direkt zu übertragen.
Trainings-Curriculum: Ein dreistufiger Ansatz für stabile Konvergenz:
1. Alignment: Ausrichtung von MLLM und DiT auf Text-Bild-Paaren.
2. Instruction Tuning: Training auf Text-basierten Video-Editier-Daten (mit steigender Auflösung).
3. Reference-Guided Fine-tuning: Feinabstimmung mit dem neuen RefVIE-Datensatz (Quadruplets).

C. Benchmark: RefVIE-Bench

Zur Evaluierung wurde ein neuer Benchmark mit 110 manuell verifizierten Beispielen erstellt. Die Bewertung erfolgt durch ein MLLM (Gemini 3) in drei Dimensionen:

Für Subjekt-Referenz: Identitätskonsistenz, zeitliche Fidelity, physikalische Integration.
Für Hintergrundwechsel: Referenz-Fidelity, Matting-Qualität, visuelle Harmonie.

3. Wichtige Beiträge

RefVIE-Datensatz: Der erste große, Open-Source-Datensatz (477k Quadruplets) für instruction- und referenzgeführtes Video-Editing.
RefVIE-Bench: Ein umfassender Benchmark zur Bewertung von Referenztreue, Instruktionsgenauigkeit und zeitlicher Konsistenz.
Kiwi-Edit Modell: Ein State-of-the-Art (SOTA) Modell, das durch die Kombination von MLLM und DiT sowie der hybriden Injektionsstrategie sowohl bei rein textbasierten als auch bei referenzgeführten Aufgaben überlegene Ergebnisse liefert.
Skalierbare Pipeline: Eine Methode zur kosteneffizienten Generierung von Trainingsdaten für referenzgeführtes Editing ohne manuelle Annotation.

4. Ergebnisse

Instruction-Only Editing: Auf dem OpenVE-Bench erreicht Kiwi-Edit einen Overall-Score von 3,02 (bei 1280x704 Auflösung), was alle bestehenden Open-Source-Modelle (z. B. OpenVE-Edit: 2,50) und sogar das proprietäre Runway Aleph (2,62) im Bereich „Background Change" (3,84 vs. 2,62) übertrifft.
Instruction & Reference Guided Editing: Im Vergleich zu kommerziellen Modellen wie Kling-O1 und Runway Aleph auf dem RefVIE-Bench erzielt das Modell einen Overall-Score von 3,31 (Runway: 3,29). Besonders hervorzuheben sind die hohe Identitätskonsistenz (3,98) und Referenz-Ähnlichkeit (3,72).
Qualitative Ergebnisse: Die Visualisierungen zeigen, dass Kiwi-Edit komplexe Aufgaben wie das Hinzufügen von Objekten mit spezifischen Texturen oder das Ersetzen von Hintergründen unter Beibehaltung der Vordergrunddynamik präziser bewältigt als Konkurrenzmodelle.

5. Bedeutung

Kiwi-Edit adressiert eine kritische Lücke in der Forschung: den Mangel an hochwertigen Daten für referenzgeführtes Video-Editing. Durch die Einführung einer skalierbaren Datengenerierungsmethode und eines leistungsfähigen Unified-Architektur-Modells demokratisiert die Arbeit den Zugang zu hochkontrollierbarem Video-Editing. Sie zeigt, dass die Kombination aus multimodalen Sprachmodellen und Diffusionsmodellen, gestützt durch synthetische Referenzdaten, den Weg für präzisere, benutzerfreundlichere und visuell konsistentere Videobearbeitungswerkzeuge ebnet. Alle Datensätze, Modelle und Codes sind Open Source verfügbar.