FoleyDirector: Fine-Grained Temporal Steering for Video-to-Audio Generation via Structured Scripts

FoleyDirector is een nieuw kader dat Video-naar-Audio-generatie verbetert door gebruik te maken van gestructureerde tijdschriften en een tijdsgebaseerde fusiemodule om precieze, fijnmazige tijdscontrole mogelijk te maken voor complexe multi-gebeurtenis-scenario's, terwijl de hoge audiokwaliteit van het basismodel behouden blijft.

You Li, Dewei Zhou, Fan Ma, Fu Li, Dongliang He, Yi Yang

Gepubliceerd 2026-03-23
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

FoleyDirector: De Regisseur van Geluid voor Video's

Stel je voor dat je een filmkijker bent. Je kijkt naar een prachtig beeld van een kat die op een muur loopt. Maar er is een probleem: de film is stom. Geen geklaauw, geen gepiep, geen geluid van de wind. Normaal gesproken zou je een dure geluidstechnicus (een "Foley-artist") nodig hebben die urenlang in een studio zit om precies het juiste geluid te maken dat bij dat beeld past.

FoleyDirector is een nieuwe slimme computer die dit werk overneemt. Maar deze computer is niet zomaar een robot; het is een slimme regisseur die je kunt vertellen exact wanneer en hoe een geluid moet klinken.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Dove" Robot

Huidige AI's die video's omzetten in geluid, zijn als een muzikant die blind speelt. Ze kijken naar het beeld en hopen dat ze het juiste geluid raden.

  • Het probleem: Als een kat buiten beeld is (bijvoorbeeld achter de muur), ziet de AI niets en maakt hij geen geluid. Of als je wilt dat een auto-toeter alleen op 5 seconden klinkt en daarna stil is, kan de oude AI dat niet. Hij denkt: "Oh, er is een auto, dus ik maak de hele tijd een toetergeluid."

2. De Oplossing: Het "Draaiboek" (Structured Temporal Scripts)

FoleyDirector introduceert iets nieuws: een Gestructureerd Draaiboek.
Stel je voor dat je niet alleen zegt: "Maak een film over een auto." Je geeft de regisseur een gedetailleerd script:

  • 0-5 seconden: Stilte.
  • 5-6 seconden: Een auto-toeter (piep!).
  • 6-10 seconden: Stilte.

In plaats van dat de AI gissen moet, leest hij dit script. Dit is als het verschil tussen een acteur die improviseert en een acteur die een tekstboek heeft. De AI weet nu precies wanneer hij moet spelen en wat hij moet spelen, zelfs als je in het beeld niets ziet.

3. De Magische Trucs

A. De "Twee-Kanaals" Studio (Bi-Frame Sound Synthesis)

Soms wil je geluiden die je niet in beeld ziet. Denk aan iemand die buiten de kamer schreeuwt, of een hond die blaft terwijl de camera op een bloementuin gericht is.

  • Hoe het werkt: FoleyDirector heeft twee geluidskanalen.
    1. Het "In-beeld" kanaal: Luistert naar wat je ziet (de bloemen).
    2. Het "Buiten-beeld" kanaal: Luistert alleen naar je script.
  • De analogie: Het is alsof je twee muzikanten hebt. Eén speelt wat je ziet (de bloemen), en de andere speelt wat je vertelt (de schreeuwende man), zonder dat de eerste muzikant zich laat afleiden door wat de tweede doet. Ze worden daarna perfect samengevoegd.

B. De "Tijdbewuste" Regisseur (Temporal Fusion)

De AI moet niet alleen weten wat er gebeurt, maar ook hoe lang het duurt.

  • De analogie: Stel je voor dat je een cake bakt. De oude AI gooide alle ingrediënten (bloem, suiker, eieren) in één grote bak en hoopte dat het een cake werd. FoleyDirector gebruikt een tijdbewuste regisseur die zegt: "Eerst 2 minuten bloem, dan 1 minuut suiker, en pas op het einde de eieren." Hierdoor klopt het geluid perfect met de timing van het beeld.

4. Waarom is dit geweldig?

  • Jij bent de regisseur: Je kunt zelf beslissen: "Laat de kat miauwen op seconde 2, maar laat de mens praten op seconde 4." De AI luistert naar jou, niet alleen naar het beeld.
  • Geen gissen meer: Zelfs als er een object verborgen is (bijvoorbeeld een hond achter een hek), maakt de AI het geluid omdat jij in het script hebt gezegd dat de hond er is.
  • Flexibiliteit: Je kunt de regisseur ook uitschakelen. Als je gewoon een snelle video met geluid wilt zonder gedoe, werkt de AI weer zoals gewoonlijk.

Samenvatting

FoleyDirector is als het geven van een tijdschema aan een muzikant. In plaats van dat de muzikant raden moet wat er speelt, krijg jij de controle. Je kunt zeggen: "Speel dit geluid op dit moment, en dat geluid op dat moment," zelfs als je op het scherm niets ziet. Het maakt het maken van films met geluid veel makkelijker, creatiever en preciezer.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →