JenBridge: Adaptive Long-Form Video Soundtracking across Scene Transitions

JenBridgeは、Transformerベースの生成モデルとLLM駆動のディレクターエージェントを活用することで、新たに提案されたLVSベンチマークによって検証された、シーンの変化にわたる自然で物語の一貫性を持つトランジションを備えた、高忠実度かつ長尺のビデオサウンドトラックを生成する、斬新でモジュール式のフレームワークである。

原著者: Jiashuo Yu, Yao Yao, Boyu Chen, Alex Wang

公開日 2026-06-02✓ Author reviewed
📖 1 分で読めます☕ さくっと読める

原著者: Jiashuo Yu, Yao Yao, Boyu Chen, Alex Wang

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。 免責事項の全文を読む

あなたは映画監督だと想像してください。ただし、作曲家に映画のスコアを依頼する代わりに、非常に賢い自動化されたロボットのアシスタントを雇っているとします。あなたの映画は長編で、静かな森から高速カーチェイス、そして悲しい別れのシーンへと、さまざまな場面が次々と切り替わります。

現在のAI音楽ツールの問題点は、一度に一曲しか演奏できないミュージシャンのようなところです。もし彼らに映画全体のスコアを書くよう頼んだら、森のシーンでは明るい曲を流し、次のカーチェイスでは突如としてヘヴィメタルを流すといった、唐突な切り替えが起こり、不自然でバラバラな仕上がりになってしまうかもしれません。彼らは、シーン間の「つなぎ目(ブリッジ)」をどう作るべきかを知らないのです。

JenBridgeは、この問題を解決するために設計された新しいシステムです。これは、映画全体を扱い、場面が劇的に変化する場合でも音楽が自然に流れるようにする「音楽の架け橋(ブリッジ・ビルダー)」だと考えてください。

その仕組みは、以下の3つのシンプルなステップで構成されています。

1. エディター(編集者):映画をシーンに切り分ける

まず、JenBridgeは映画エディターとして機能します。長いビデオを見て、論理的な小さな塊(シーン)へと自動的に切り分けます。単にランダムに切るのではなく、キャラクターが部屋を出て行ったり天候が変わったりするように、物語が変化するポイントを見つけ出します。

2. コンポーザー(作曲家):各シーンのための音楽を書く

次に、それぞれのビデオクリップに対して、JenBridgeには「コンポーザー」AIが用意されています。このコンポーザーは非常に有能です。ビデオクリップを見て、「どのような音楽がふさわしいか?」を考えます。

  • 特別な翻訳機(VMPTと呼ばれます)を使用して、ビデオの記述(例:「雨の中にいる悲しげなロボット」)を、音楽のレシピ(例:「スローで悲しいピアノ、短調」)へと変換します。
  • そして、そのシーンに特化した高品質な楽曲を生成します。

3. ディレクター(監督):シーン間の「接着剤」

ここが最も重要な部分です。以前なら、2つの異なる曲がある場合、それらをただテープで貼り合わせるようなものでしたが、それではひどい響きになってしまいます。JenBridgeには、シーン同士をどのように接続するかを決定する「ディレクター」(人間の映画監督のように振る舞うAIエージェント)が備わっています。

ディレクターは、シーンを繋ぐための4つの手法を含む「ツールキット」を持っています。

  • ハードカット(急な切り替え): 静かなビーチから突然の爆発へとシーンが変わる場合、ディレクターは音楽をピタッと止め、即座に新しい曲を開始させます。これは物語における鋭い「スナップ」のようなものです。
  • サイレンス(静寂): キャラクターが衝撃を受けたとき、ディレクターは緊張感を高めるために、音楽を完全に無音の状態へとカットすることがあります。
  • フェード(徐々に変化): 朝のコーヒータイムから朝の散歩へと移るような、2つのシーンが似ている場合、ディレクターは一方の曲をフェードアウトさせながら、もう一方の曲をフェードインさせ、緩やかに移行させます。
  • ブリッジ(魔法の技): 物語が「悲しみ」から「希望」へと移り変わる場合、ディレクターは単に曲を切り替えるだけではありません。特別なAIを使用して、悲しい曲から希望に満ちた曲へとスムーズに変容させる「全く新しい音楽的ブリッジ」を構成します。それは、両方の言語を話せる音楽の翻訳者のように、それらを完璧に繋ぐ文章を作り出すようなものです。

ディレクターは賢明であり、「このシーンにはハードカットが必要だが、次のシーンにはスムーズなブリッジが必要だ」といった判断を下すことができます。彼らは人間と同じように、知的にこれらの選択を行います。

どのようにテストされたか

開発者たちは、AIがこのような長編映画を適切に扱えるかどうかをまともにテストした例はこれまでなかったことに気づきました。そこで、彼らはLVSベンチマークと呼ばれる新しい「試験」を構築しました。

  • 彼らは120本の映画予告編(シーンの切り替えが非常に速いもの)を用意しました。
  • そして、JenBridgeと他のいくつかのAIシステムに、それらのスコアを作成させました。
  • その結果を、人間のリスナーが評価しました。

結果: JenBridgeが圧倒的な勝利を収めました。人間のリスナーは、音楽がより自然に聞こえ、遷移(トランジション)がよりスムーズであり、映画全体がバラバラな曲をただ貼り付けたものではなく、一つのまとまった物語として感じられたと評価しました。

まとめ

JenBridgeは、単にビデオクリップのための音楽を作るシステムではありません。それは「物語」を理解するシステムです。ビデオを分解し、各パートに合わせたカスタム音楽を書き、そして「ディレクター」が、映画そのものと同じように音楽が自然に流れるよう、各パートを正確にどのように接続すべきかを決定します。これは、映画制作における真のクリエイティブなパートナーとしてのAIへの一歩となります。

自分の分野の論文に埋もれていませんか?

研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。

Digest を試す →