Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen alten Film oder ein lustiges Video, in dem eine Person spricht oder ein Tier ein Geräusch macht. Du möchtest etwas daran ändern: Vielleicht soll der Mann eine andere Stimme haben, oder die Katze soll plötzlich „Miau" statt „Wau" sagen, oder der Regen soll lauter klingen.

Das Problem bei den bisherigen Video-Editoren ist, dass sie wie ein grober Maler sind: Wenn sie etwas ändern, zerstören sie oft die Synchronität. Das Bild bewegt sich, aber der Ton passt nicht mehr, oder wenn man die Stimme ändert, sieht das Gesicht plötzlich aus wie eine Puppe.

Die Forscher aus diesem Papier haben AVI-Edit entwickelt. Man kann sich das wie einen magischen, allwissenden Regisseur vorstellen, der drei spezielle Werkzeuge besitzt, um Videos perfekt zu bearbeiten, ohne den Zauber des Originals zu brechen.

Hier ist die Erklärung der drei wichtigsten Werkzeuge, einfach und mit Analogien:

1. Der „Präzisions-Schäferhund" (Granularity-Aware Mask Refiner)

Das Problem: Wenn du einem Computer sagst: „Ändere diesen Mann", gibst du ihm oft nur eine grobe Umrandung (wie einen Bounding-Box-Rahmen). Das ist wie wenn du einem Koch sagst: „Mach das ganze Haus sauber", anstatt genau zu sagen: „Reinige nur die Küche". Der Computer weiß dann nicht genau, wo der Mann aufhört und die Wand anfängt.

Die Lösung: AVI-Edit hat einen „Präzisions-Schäferhund".

Die Analogie: Stell dir vor, du gibst dem Computer einen groben Umriss (wie eine Skizze mit einem dicken Stift). Der Schäferhund nimmt diese Skizze, läuft sie ab und schneidet sie mit einer Rasierklinge so präzise zu, dass er genau weiß, wo die Haare des Mannes enden und wo die Jacke beginnt.
Wie es funktioniert: Der Computer schaut sich das Bild und den Ton an und verfeinert die grobe Linie Schritt für Schritt, bis er genau weiß, welcher Pixel zum Mann gehört und welcher zur Umgebung. So bleibt der Hintergrund unsichtbar und unberührt.

2. Der „Taktgeber mit Rückkopplung" (Self-Feedback Audio Agent)

Das Problem: Wenn du die Stimme einer Person änderst, muss der neue Ton exakt mit den Lippenbewegungen übereinstimmen. Bisherige Methoden waren wie ein Schlagzeuger, der den Takt verpasst hat – das Bild läuft, aber der Ton ist versetzt oder klingt künstlich.

Die Lösung: AVI-Edit nutzt einen „Taktgeber mit Rückkopplung".

Die Analogie: Stell dir vor, du bist ein DJ, der einen Song remixt.
1. Trennen: Zuerst trennt er den alten Gesang vom Hintergrund (wie das Entfernen einer Spur im Mixer).
2. Erstellen: Dann erstellt er den neuen Gesang basierend auf deinem Text.
3. Mischen: Er mischt beides zusammen.
4. Der kritische Hörer (Rückkopplung): Hier kommt das Geniale: Ein intelligenter „Kritiker" (eine KI) hört sich das Ergebnis an. Wenn er sagt: „Hey, das klingt zu leise" oder „Der Takt passt nicht", schickt er den DJ zurück zur Arbeit. Der DJ korrigiert es und mischt es erneut. Dieser Kreislauf läuft so lange, bis der Kritiker zufrieden ist.
Das Ergebnis: Der Ton passt perfekt zu den Lippen und den Bewegungen im Video, als wäre er von Anfang an so aufgenommen worden.

3. Der „Gedächtnis-Manager" (Audio-Sync Video Backbone)

Das Problem: Wenn man ein Video bearbeitet, darf der Rest der Welt nicht verrückt werden. Wenn der Mann spricht, darf das Fenster im Hintergrund nicht flackern.

Die Lösung: AVI-Edit nutzt ein starkes Grundgerüst (basierend auf einem großen KI-Modell namens Wan2.2), das wie ein Gedächtnis-Manager funktioniert.

Die Analogie: Stell dir vor, du malst ein Bild auf eine Leinwand. AVI-Edit malt nur auf den Bereich, den der „Präzisions-Schäferhund" markiert hat. Der Rest der Leinwand (der Hintergrund, andere Personen, das Licht) bleibt unberührt und stabil. Der Manager sorgt dafür, dass die Bewegung im Video flüssig bleibt und nicht zittert.

Was kann man damit alles machen? (Die vier Szenarien)

Das Papier zeigt vier coole Beispiele:

Stimme ändern: Ein Mann spricht, aber du willst, dass er wie ein Roboter klingt. Das Bild bleibt gleich, nur der Ton ändert sich perfekt synchron.
Aussehen ändern: Ein Mann trägt einen Hut. Du sagst: „Mach ihn zu einer Frau". Das Video ändert das Aussehen, aber die Stimme des Mannes bleibt erhalten (oder wird passend angepasst).
Tier-Tausch: Ein Hund bellt. Du sagst: „Mach daraus eine Katze". Das Video zeigt eine Katze, und das Bellen wird zu einem Miauen.
Dynamik ändern: Wasser fließt aus einem Hahn. Du sagst: „Mach den Wasserstrahl stärker". Das Video zeigt mehr Wasser, und das Rauschen wird lauter – alles nur durch einen Textbefehl und den Ton.

Zusammenfassung

AVI-Edit ist wie ein Super-Editor, der versteht, dass Video und Ton untrennbar verbunden sind.

Es nutzt einen Präzisions-Schäferhund, um genau zu wissen, was geändert werden soll.
Es nutzt einen Taktgeber mit Rückkopplung, um sicherzustellen, dass der Ton perfekt passt.
Es nutzt einen Gedächtnis-Manager, damit der Rest des Videos stabil bleibt.

Das Ergebnis sind Videos, die so natürlich aussehen und klingen, als wären sie nie bearbeitet worden – nur mit einem anderen Inhalt. Das ist ein riesiger Schritt hin zu Videos, die wir wirklich glauben können.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Bestehende Methoden zur Videobearbeitung konzentrieren sich fast ausschließlich auf visuelle Merkmale und ignorieren dabei die audiovisuelle Synchronisation. Dies führt dazu, dass beim Ändern von Objekten oder Szenen die ursprüngliche Synchronität zwischen Bild und Ton verloren geht. Zudem fehlt es vielen Ansätzen an der notwendigen feingranularen räumlichen und zeitlichen Kontrolle, um präzise Änderungen auf Instanzebene (z. B. eine spezifische Person oder ein Tier) vorzunehmen, ohne den Hintergrund oder andere Audio-Komponenten zu beeinträchtigen.
Das Hauptziel ist es, ein Framework zu entwickeln, das es ermöglicht, eine spezifische Video-Instanz und ihren begleitenden Ton basierend auf einer groben Maske und einer Textbeschreibung zu bearbeiten, während die audiovisuelle Synchronisation und der Hintergrund erhalten bleiben.

2. Methodik

Das vorgeschlagene Framework AVI-Edit basiert auf dem vortrainierten Video-Generationsmodell Wan2.2-5B und besteht aus drei Hauptkomponenten:

A. Audio-Sync Video Backbone

Dies ist das Kernmodell für die Videogenerierung.

Architektur: Es nutzt einen Diffusion-Transformer (DiT).
Funktionsweise: Das Modell kodiert den Eingabeclip in einen latenten Raum. Um die audiovisuelle Synchronisation zu gewährleisten, wird eine Frame-wise Cross-Attention-Schicht in jeden DiT-Block integriert. Diese Schicht empfängt kuratierte Audio-Tokens und steuert die zeitliche Ausrichtung der Videolatent-Codes.
Hintergrund-Erhaltung: Eine heruntergeladene Instanzmaske wird verwendet, um zu definieren, welche Bereiche bearbeitet werden sollen. Bereiche außerhalb der Maske bleiben unverändert, um Inkonsistenzen im Hintergrund zu vermeiden.

B. Granularity-Aware Mask Refiner (GAMR)

Da Benutzer oft nur grobe Masken (z. B. Bounding Boxes) bereitstellen, ist eine präzise Instanzsegmentierung notwendig.

Präzisionsfaktor ( $p$ ): Ein neu eingeführter Parameter, der den Grad der Übereinstimmung zwischen der bereitgestellten Maske und der tatsächlichen Instanz quantifiziert (von maximaler Degradierung bis zur perfekten Kontur).
Verfeinerungsprozess: Der GAMR nutzt eine Architektur, die dem Video-Backbone ähnelt, ersetzt jedoch Text-Tokens durch Video-Tokens, um visuelle Semantik zu nutzen. Er iterativ die grobe Maske in eine präzise Instanzmaske umgewandelt, wobei er sich vom Präzisionsfaktor und den Audio-Cues leiten lässt. Dies geschieht während des ODE-Lösungsprozesses (Inferenz).

C. Self-Feedback Audio Agent

Dieser Agent kuratiert den begleitenden Ton, um eine feingranulare zeitliche Kontrolle zu gewährleisten.

Pipeline: Der Agent durchläuft einen Zyklus aus Trennen (Separate) – Generieren (Generate) – Remixen (Remix) – Überarbeiten (Rework).
1. Trennung: Basierend auf einer Textbeschreibung und visuellem Kontext werden nicht-zugehörige Audio-Komponenten (z. B. Hintergrundgeräusche) vom Zielobjekt getrennt.
2. Generierung: Neue Audio-Komponenten (z. B. neue Sprache oder Geräusche) werden generiert.
3. Remix & Bewertung: Die Komponenten werden gemischt. Ein multimodales Large Language Model (MLLM) bewertet die Qualität (Realismus, Harmonie, Einhaltung der Anweisung).
4. Feedback-Schleife: Falls die Qualität einen Schwellenwert nicht erreicht, generiert das MLLM Verbesserungsinstruktionen, und der Prozess wiederholt sich, bis ein hochwertiges Ergebnis vorliegt.

D. Datensatz (AVISET)

Um das Training und die Evaluation zu ermöglichen, wurde ein neuer Datensatz AVISET erstellt (71k Trainings-, 1k Validierungs-, 1k Test-Clips). Er enthält instanz-zentrierte Korrespondenzen, präzise Instanzmasken, Szenenbeschreibungen und für den Testset gepaarte Original- und Bearbeitungsanweisungen.

3. Wichtige Beiträge

Framework AVI-Edit: Ein neues Framework für die Bearbeitung von Video-Instanzen mit audiovisueller Synchronisation und feingranularer räumlich-zeitlicher Kontrolle.
Granularity-Aware Mask Refiner (GAMR): Eine Methode zur iterativen Verfeinerung grober Benutzer-Masken in präzise Instanzmasken, gesteuert durch einen Präzisionsfaktor.
Self-Feedback Audio Agent: Ein Pipeline-Ansatz zur Kuratierung von Audio, der durch eine MLLM-gesteuerte Feedback-Schleife robuste und zeitlich präzise Audio-Begleitungen für verschiedene Szenarien (Sprache, Geräusche) sicherstellt.
AVISET-Datensatz: Ein großer, annotierter Datensatz speziell für die Aufgabe der instanzbasierten audiovisuellen Videobearbeitung.

4. Ergebnisse

Die Evaluation erfolgte auf dem eigenen AVISET-Datensatz und dem öffentlichen AvED-Bench.

Quantitative Ergebnisse: AVI-Edit übertrifft State-of-the-Art-Methoden (AvED, Ovi, VACE-Foley) in allen Metriken:
- Visuelle Qualität: Bessere FVD (Fréchet Video Distance) und IS (Inception Score).
- Konsistenz: Höhere Frame-Konsistenz (FC) und Text-Video-Ausrichtung (TC).
- Synchronisation: Überlegene Audio-Video-Ausrichtung (AC) und Lippenbewegungssynchronisation (Sync-C/D).
Qualitative Ergebnisse: Im Vergleich zu Baselines zeigt AVI-Edit weniger Flackern, bessere Erhaltung des Hintergrunds und realistischere Audio-Synthese.
Benutzerstudie: In einer Studie mit 25 Teilnehmern erhielt AVI-Edit in allen Kategorien (Audio-Visual Synchronization, Text Alignment, Overall Preference) die höchsten Präferenzwerte (ca. 45–49 %).
Audio-Qualität: Über 90 % der generierten Audios wurden als „Acceptable" oder „Perfect" bewertet.

5. Bedeutung und Ausblick

AVI-Edit schließt eine wichtige Lücke in der Videobearbeitung, indem es die oft vernachlässigte audiovisuelle Synchronisation auf Instanzebene wiederherstellt. Es ermöglicht Anwendungen wie das Ändern der Sprache eines Sprechers bei Beibehaltung des Aussehens, das Ändern des Aussehens einer Person bei Beibehaltung der Originalstimme oder das Ändern der Semantik eines Objekts (z. B. Hund zu Katze) inklusive der entsprechenden Geräusche.

Einschränkungen: Das aktuelle System bearbeitet Instanzen sequenziell; die gleichzeitige Bearbeitung mehrerer Instanzen ist noch nicht implementiert.
Zukunftsausblick: Die Autoren planen, die gleichzeitige Multi-Instanz-Bearbeitung zu erforschen und die Anwendung auf längere Videos weiter zu optimieren.

Zusammenfassend stellt AVI-Edit einen bedeutenden Fortschritt dar, der Videobearbeitung durch die Integration von Audio als steuerndes Element für zeitliche Präzision und Synchronisation deutlich realistischer und kontrollierbarer macht.