FoleyDirector: Fine-Grained Temporal Steering for Video-to-Audio Generation via Structured Scripts

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous regardez un film muet. C'est beau, mais il manque quelque chose d'essentiel : le son. Jusqu'à présent, les intelligences artificielles capables de créer du son à partir de vidéos (comme un chien qui aboie ou une voiture qui klaxonne) étaient un peu comme des musiciens débutants : elles jouaient la bonne mélodie, mais souvent au mauvais moment, ou elles ne savaient pas quoi jouer quand l'action se passait hors de l'écran.

Voici FoleyDirector, une nouvelle invention qui change la donne. Pour faire simple, c'est comme si vous donniez à l'IA un scénario de réalisateur ultra-précis, au lieu de lui donner juste une description vague.

Voici comment cela fonctionne, expliqué avec des images simples :

1. Le Problème : L'IA qui "devine" trop

Imaginez que vous demandez à un ami de faire le bruit d'un train.

Les anciennes méthodes (comme HunyuanVideo-Foley) disent : "Ah, il y a un train sur l'image ? Bon, je vais faire le bruit du train... mais je vais le faire pendant toute la vidéo, même quand le train a disparu !" Ou pire, si le train est caché derrière un mur, l'IA dit : "Je ne vois rien, je ne fais rien."
Le résultat : C'est flou, imprécis, et l'IA ne comprend pas quand arrêter ou commencer le bruit.

2. La Solution : Le "Scénario Structuré" (Structured Temporal Scripts)

FoleyDirector introduit une idée géniale : au lieu de donner une seule phrase à l'IA, on lui donne un scénario divisé en petits chapitres.

L'analogie du chef d'orchestre : Imaginez que l'IA est un orchestre. Avant, le chef lui disait juste : "Jouez de la musique de film !" Maintenant, avec FoleyDirector, le chef (l'utilisateur) donne une partition précise :
- De 0 à 5 secondes : Silence total.
- De 5 à 6 secondes : Klaxon de voiture (très fort).
- De 6 à 8 secondes : Silence.
- De 8 à 10 secondes : Un chat miaule (même si le chat n'est pas visible à l'écran !).

C'est ce qu'ils appellent des Scripts Temporels Structurés. C'est comme donner à l'IA une carte au trésor minute par minute, au lieu d'une simple indication "cherche le trésor".

3. La Magie : Le Module de Fusion (SG-TFM)

Comment l'IA lit-elle ce scénario sans oublier la vidéo ?

L'analogie du traducteur bilingue : L'IA a deux cerveaux : un qui regarde l'image (les yeux) et un qui écoute le scénario (les oreilles). Le nouveau module de FoleyDirector agit comme un traducteur ultra-rapide qui synchronise parfaitement les deux.
Il dit au cerveau "image" : "Regarde, le chat est caché, mais le scénario dit 'miaou' à 8 secondes. Donc, on joue le miaou à 8 secondes, même si on ne voit pas le chat."
Cela permet de créer des sons pour des choses qu'on ne voit pas (un bruit derrière une porte, un cri dans le noir) ou de couper un son exactement quand on le veut.

4. Le Super-Pouvoir : La Synthèse "Bi-Frame"

Parfois, une scène est complexe : un chien aboie (visible) pendant qu'une sirène de police passe loin (invisible).

L'analogie du mixeur audio : FoleyDirector utilise une technique appelée "Bi-Frame". Imaginez deux pistes audio séparées qui tournent en même temps :
1. Piste "À l'écran" : Elle écoute ce qu'elle voit (le chien).
2. Piste "Hors écran" : Elle écoute uniquement le scénario (la sirène), en ignorant ce qu'elle voit.
À la fin, elle mélange les deux pistes parfaitement. Résultat : vous entendez le chien et la sirène en même temps, chacun au bon moment, sans que l'un ne gêne l'autre.

En résumé

FoleyDirector transforme l'utilisateur en réalisateur de son.

Avant : L'IA faisait du bruit au hasard ou seulement quand elle voyait quelque chose.
Maintenant : Vous lui donnez un script précis ("Silence, puis klaxon, puis miaou"), et elle l'exécute avec une précision chirurgicale, même pour les sons invisibles.

C'est comme passer d'un enfant qui tape sur des casseroles au hasard, à un chef d'orchestre qui sait exactement quand faire entrer chaque instrument pour créer une expérience parfaite.

FoleyDirector: Fine-Grained Temporal Steering for Video-to-Audio Generation via Structured Scripts

1. Le Problème : L'IA qui "devine" trop

2. La Solution : Le "Scénario Structuré" (Structured Temporal Scripts)

3. La Magie : Le Module de Fusion (SG-TFM)

4. Le Super-Pouvoir : La Synthèse "Bi-Frame"

En résumé

1. Problématique

2. Méthodologie : FoleyDirector

A. Scripts Temporels Structurés (STS)

B. Module de Fusion Temporelle Guidé par Script (SG-TFM)

C. Synthèse Sonore Bi-Frame (Bi-Frame Sound Synthesis)

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

FoleyDirector: Fine-Grained Temporal Steering for Video-to-Audio Generation via Structured Scripts

1. Le Problème : L'IA qui "devine" trop

2. La Solution : Le "Scénario Structuré" (Structured Temporal Scripts)

3. La Magie : Le Module de Fusion (SG-TFM)

4. Le Super-Pouvoir : La Synthèse "Bi-Frame"

En résumé

1. Problématique

2. Méthodologie : FoleyDirector

A. Scripts Temporels Structurés (STS)

B. Module de Fusion Temporelle Guidé par Script (SG-TFM)

C. Synthèse Sonore Bi-Frame (Bi-Frame Sound Synthesis)

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires