FoleyDirector: Fine-Grained Temporal Steering for Video-to-Audio Generation via Structured Scripts

本論文は、視覚情報が不十分な場合や複数のイベントが絡む複雑なシーンにおいても、構造化された時間的スクリプトを用いて動画から高精度な音声を生成・制御することを可能にする新しいフレームワーク「FoleyDirector」を提案し、その有効性を新たなデータセットと評価ベンチマークを通じて実証したものである。

You Li, Dewei Zhou, Fan Ma, Fu Li, Dongliang He, Yi Yang

公開日 2026-03-23
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎬 フォーリー・ディレクター:動画に「音」を自由自在に操る魔法の脚本

この論文は、**「FoleyDirector(フォーリー・ディレクター)」**という新しい AI 技術について紹介しています。

簡単に言うと、「動画に音を自動でつける AI」を、まるで映画の音響監督(フォーリー・アーティスト)が脚本を持って指示を出すかのように、細かくコントロールできるようにした技術です。

これまでの AI は「動画を見て、自然な音を自動でつける」ことはできましたが、**「特定の時間だけクラクションを鳴らしたい」「画面にいない猫の鳴き声を入れたい」**といった、細かい指示には弱かったのです。

この新しい技術がどうやってそれを可能にしたのか、3 つのポイントで解説します。


1. 📜 「タイムライン付きの脚本」で AI に指示する

(Structured Temporal Scripts: STS)

これまでの AI は、動画全体に対して「車が行っている」といった**「全体のあらすじ」だけを聞いて音を作っていました。だから、「5 秒から 6 秒だけクラクションを鳴らして、あとは静かに」というような「いつ、何を」**という細かい指示ができませんでした。

FoleyDirector のアイデア:
AI に「脚本」を与えます。でも、ただの文章ではなく、**「1 秒ごとのタイムラインが書かれた脚本」**です。

  • 0〜2 秒: 静寂
  • 2〜3 秒: 猫が「ニャー」と鳴く
  • 4〜6 秒: 人間が話す

まるで映画監督が「このシーンではこの音が鳴る」と指示する脚本(Structured Temporal Scripts)を AI に与えることで、AI は**「いつ、どんな音を出すか」**を正確に理解できるようになりました。

2. 👁️「目に見えない音」も聞き分ける

(視覚情報が足りない時のサポート)

動画の AI は、**「目に見えるもの」**に頼りすぎています。

  • 画面の隅に小さな虫がいて、その音が欲しい場合。
  • 画面の外(オフスクリーン)で犬が吠えている場合。
  • 物が隠れていて、音が聞こえるはずなのに視覚情報が少ない場合。

これらは従来の AI にとって「難問」でした。目に見えないから、音がいつ鳴るかわからないからです。

FoleyDirector の解決策:
脚本に「画面の外で犬が吠えている」と書けば、AI は**「目に見えなくても、脚本に従って音を作れる」ようになります。
まるで、
「目隠しをしていても、脚本を頼りに音を作るプロの音響監督」**のような働きをします。視覚情報がない場合でも、脚本という「追加の情報」で音を正確にコントロールできます。

3. 🎭「本物」と「作り話」を同時に操る

(Bi-Frame Sound Synthesis)

もっと複雑なことをやりたい場合もあります。

  • 「画面の中の犬が吠えている音(本物)」
  • 「画面の外で、突然人間が笑い出す音(作り話・フィクション)」

これらを同時に、かつ区別して作るのは難しいことです。従来の AI は、画面の中の犬に合わせて、人間が笑う音まで「犬が笑っている」と勘違いしてしまったり、制御を失ったりしました。

FoleyDirector の解決策:
AI の頭の中で**「2 つのトラック(道)」**を用意します。

  1. インフレーム(画面内)トラック: 動画の映像に合わせて音を作る。
  2. アウトフレーム(画面外)トラック: 映像を無視して、脚本の指示だけで音を作る。

そして、この 2 つを**「必要なタイミングで混ぜ合わせる」**ようにしています。これにより、「画面の中の犬の吠え声」と「画面外の人間の笑い声」を、それぞれ独立して、かつ完璧に同期させて作ることが可能になりました。


🌟 まとめ:なぜこれがすごいのか?

これまでの動画生成 AI は、「自動運転」のようなもので、景色を見て勝手に音をつけてくれました。しかし、**「ここだけクラクションを鳴らして」「ここは静かに」という「手動運転(マニュアル操作)」**はできませんでした。

FoleyDirectorは、**「脚本(タイムライン付きの指示)」**というハンドルをユーザーに渡しました。

  • **ユーザーは「フォーリー・ディレクター(音響監督)」**になれる。
  • AI はその指示通りに、完璧なタイミングで音を演出する。

これにより、動画制作はより自由で、クリエイティブなものになります。まるで、あなたが映画の音響監督になって、AI に「ここは猫の鳴き声、ここは静寂」と指示を出し、最高の映画を作り上げているような感覚です。

「音」も「映像」も、あなたの脚本通りに操れる時代が来たのです。 🎬🔊✨

自分の分野の論文に埋もれていませんか?

研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。

Digest を試す →