FoleyDirector: Fine-Grained Temporal Steering for Video-to-Audio Generation via Structured Scripts

Das Paper stellt FoleyDirector vor, ein Framework, das durch strukturierte zeitliche Skripte und eine spezielle Fusionsarchitektur die präzise zeitliche Steuerung bei der Video-zu-Audio-Generierung ermöglicht und dabei die Audioqualität sowie die Handhabung komplexer Mehrereignis-Szenarien verbessert.

You Li, Dewei Zhou, Fan Ma, Fu Li, Dongliang He, Yi Yang

Veröffentlicht 2026-03-23
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen stummen Film. Vielleicht siehst du eine Katze, die gähnt, oder ein Auto, das vorbeifährt. Aber es ist komplett still. Früher mussten Sound-Designer (die sogenannten "Foley-Künstler") mühsam jede einzelne Geräuschspur manuell aufnehmen und perfekt auf das Bild abstimmen – ein teurer und zeitaufwändiger Prozess.

Heute gibt es KI, die das automatisch macht. Aber diese KIs haben ein Problem: Sie sind wie ein blinder Dirigent. Sie hören das Bild, aber sie können nicht genau sagen, wann genau ein Geräusch kommen soll. Wenn du sagst: "Miau in Sekunde 2, dann Reden in Sekunde 4", versteht die alte KI das oft nicht. Sie macht einfach ein langes "Miau-Reden-Miau"-Gemisch oder ignoriert deine Wünsche, weil sie sich zu sehr auf das Bild verlässt.

Hier kommt FoleyDirector ins Spiel. Es ist wie ein Super-Assistent für Filmregisseure, der endlich versteht, dass ein Film aus vielen kleinen, zeitlich genau getakteten Momenten besteht.

Hier ist die Erklärung in drei einfachen Teilen:

1. Das Problem: Der "Grobe" Regisseur

Die alten KIs (wie HunyuanVideo-Foley) bekommen nur eine grobe Beschreibung: "Ein Auto fährt vorbei." Sie wissen nicht, ob das Hupen vor dem Auto oder nach dem Auto passiert.

  • Das Bild ist nicht genug: Manchmal siehst du im Video gar nicht, woher das Geräusch kommt (z. B. ein Hund bellt hinter der Kamera). Die alte KI ist dann ratlos und macht nichts oder macht es falsch.
  • Keine Zeitkontrolle: Du kannst nicht sagen: "Stille von 5 bis 6 Sekunden, dann Hupen."

2. Die Lösung: Das "Strukturierte Drehbuch" (Structured Temporal Scripts)

FoleyDirector löst das, indem es dem Film ein Drehbuch in Sekundenbruchteilen gibt.
Stell dir vor, statt dem KI zu sagen "Mach ein Geräusch", gibst du ihr ein Skript, das so aussieht:

  • Sekunde 0-1: "Stille."
  • Sekunde 1-2: "Katze miaut."
  • Sekunde 2-3: "Stille."
  • Sekunde 3-4: "Mensch spricht."

Die KI nennt das Structured Temporal Scripts (STS). Das ist wie eine Liste von Anweisungen für jeden einzelnen Moment des Films. Die KI liest dieses Skript und weiß genau: "Ah, jetzt muss ich das Hupen einfügen, nicht vorher und nicht nachher."

3. Die Magie: Der "Zwei-Kanal-Synthesizer" (Bi-Frame Sound Synthesis)

Das ist der coolste Teil. Was, wenn du im Bild einen Tiger siehst, der gähnt, aber du willst, dass er plötzlich miaut (weil es ein lustiger Film ist)? Oder wenn du einen Hund hörst, der hinter der Kamera bellt?

Die alte KI würde sagen: "Ich sehe einen Tiger gähnen, also muss ich ein Gähngeräusch machen." Sie lässt sich vom Bild zu sehr leiten.

FoleyDirector hat einen Zwei-Kanal-Modus:

  • Kanal A (Im Bild): Hört auf das, was man sieht (der Tiger gähnt).
  • Kanal B (Außerhalb des Bildes): Ignoriert das Bild komplett und hört nur auf dein Skript (der Tiger miaut oder ein Hund bellt im Hintergrund).

Die KI mischt diese beiden Kanäle dann perfekt zusammen. Sie kann also gleichzeitig das Gähnen des Tigers (im Bild) und das Miauen (deine kreative Idee) erzeugen, ohne dass das Bild verwirrt wird.

Warum ist das so toll?

  • Präzision: Du bist jetzt der Regisseur. Du bestimmst genau, wann was passiert.
  • Kreativität: Du kannst Dinge hinzufügen, die gar nicht im Bild zu sehen sind (z. B. Hintergrundmusik oder Geräusche von Off-Screen-Charakteren).
  • Flexibilität: Du kannst zwischen "normalem Film" (KI macht alles automatisch basierend auf dem Bild) und "gesteuertem Film" (du gibst das Skript vor) hin- und herwechseln, ohne die Qualität zu verlieren.

Zusammenfassend:
FoleyDirector verwandelt die KI von einem blinden Nachahmer in einen gehorchenden Orchesterdirigenten. Du hältst den Taktstock (das Skript), und die KI spielt die Musik (die Geräusche) genau dann, wenn du es willst – egal, ob man die Instrumente im Bild sieht oder nicht. Das macht aus einem stummen Video einen lebendigen, kontrollierbaren Film.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →