StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation

本論文は、SLO 感知バッチスケジューリングやスケーラブルなパイプラインオーケストレーションなどのシステム最適化により、14B パラメータモデルで 0.5 秒以内の初フレーム生成と 58.28 FPS の実時間処理を実現し、動画拡散モデルを用いた低遅延かつ高品質なインタラクティブライブストリーミングを可能にする「StreamDiffusionV2」を提案するものです。

Tianrui Feng, Zhi Li, Shuo Yang, Haocheng Xi, Muyang Li, Xiuyu Li, Lvmin Zhang, Keting Yang, Kelly Peng, Song Han, Maneesh Agrawala, Kurt Keutzer, Akio Kodaira, Chenfeng Xu

公開日 2026-02-24
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

StreamDiffusionV2:まるで「魔法の生放送」を作る新システム

この論文は、**「StreamDiffusionV2(ストリームディフュージョン・バージョン 2)」**という、新しい AI 動画生成システムについて紹介しています。

一言で言うと、**「AI がリアルタイムで、途切れることなく、高品質な動画を『生放送』のように作り出すための、画期的な仕組み」**です。

これまでの技術には大きな壁がありましたが、このシステムはそれを乗り越えました。わかりやすく、日常の例え話を使って解説します。


1. 従来の問題点:「写真の積み重ね」と「遅延」

これまでの AI 動画生成(ライブ配信向け)は、主に**「一枚一枚の写真を AI が描く」**という方式でした。

  • 例え話: 画家が、1 秒間に 30 枚の絵を描いて、それを動画のように見せるイメージです。
  • 問題点: 絵と絵のつなぎ目がぎこちなくて、**「カクカクしたり、色がフラフラしたり(時間的な一貫性が悪い)」**という欠点がありました。

一方、最新の「動画生成 AI」は、**「動画そのもの」**を理解して作れるようになりました。

  • 例え話: 映画監督が、最初から最後まで通した「脚本(動画データ)」を一度に作ろうとするイメージです。
  • 問題点: 品質は最高ですが、**「完成するまで時間がかかりすぎる」**のです。ライブ配信のように「今、この瞬間」に映すには、待ち時間が長すぎて実用になりませんでした。また、一度に大量のデータを処理しようとするため、サーバーがパンクしやすいという課題もありました。

2. StreamDiffusionV2 の解決策:「流れる川」のような仕組み

このシステムは、**「動画生成を、止まることなく流れる川のように」**変えました。

① 待ち時間をゼロにする「SLO 対応のバッチ処理」

  • 従来のやり方: 100 枚の絵をまとめて描いてから、初めて最初の絵を渡す(待ち時間が長い)。
  • StreamDiffusionV2: **「必要な分だけ、必要な時に」**描きます。
    • 例え話: レストランで料理を出すイメージです。
      • 昔:「注文された料理を全部(10 品)作り終えてから、最初の一品を客に渡す」。
      • 今:「一品ずつ、でき次第すぐに渡す。でも、厨房(GPU)が忙しすぎないよう、一度に何人分の注文を同時に進めるか(バッチサイズ)を、厨房の混雑状況に合わせて自動で調整する」。
    • これにより、**「最初の映像が出るまでの時間(0.5 秒)」**が劇的に短くなり、ライブ配信の遅延を解消しました。

② 長時間でも「ボヤけない」工夫

  • 問題: 長時間の生放送を続けると、AI が「さっきの話(文脈)」を忘れ、キャラクターの顔が変わったり、動きがおかしくなったりします(ドリフト現象)。
  • 解決策: **「記憶のアンカー(錨)」**を常に更新します。
    • 例え話: 長い旅をする際、地図を常に更新し、現在の自分の位置を基準に「北」を再設定し続けるようなものです。
    • システムは、現在の話の流れや動きに合わせて、AI の「記憶(キ・バリューキャッシュ)」を常にリフレッシュし、数時間の放送でもキャラクターの顔やスタイルが崩れないようにします。

③ 激しい動きも「ブレない」工夫

  • 問題: 箱庭やスポーツなど、動きが速いシーンだと、AI が「なめらかにしすぎ」て、映像がぼやけたり、ゴースト(残像)が出たりします。
  • 解決策: **「動きの速さに合わせた描画」**をします。
    • 例え話: 車の運転に例えると、
      • 静かな風景(遅い動き):「ゆっくり丁寧に、細部まで描く」。
      • 高速道路(速い動き):「急いで描き、ブレを防ぐために力を入れる」。
    • AI はカメラの動きや被写体の速さを瞬時に察知し、**「速い動きには力強く、遅い動きには丁寧に」**描画するノイズ制御を行います。これにより、激しいアクションシーンでも鮮明な映像が保たれます。

④ 複数の GPU を「チームワーク」で動かす

  • 問題: 高性能な GPU を複数並べても、通信の遅れや待ち時間で、性能が半分以下になることがありました。
  • 解決策: 「パイプライン(工場ライン)の最適化」
    • 例え話: 工場で製品を作る際、A さんが「下書き」、B さんが「着色」、C さんが「仕上げ」をします。
      • 昔:A さんが全部終わってから B さんが始める(待ち時間が長い)。
      • 今:A さんが 1 枚描いたら、すぐに B さんに渡して着色させ、C さんは仕上げを始める。そして、次の 1 枚を A さんが描き始める。
    • これを、複数の GPU 間で完璧に同期させ、**「1 枚の映像が完成するまでの待ち時間を最小化」しながら、「1 秒間に何枚作れるか(FPS)」**を最大化しました。

3. どれくらいすごいのか?(実績)

このシステムは、**「140 億パラメータ(超巨大な脳)」を持つ AI でも、「4 台の最新 GPU」**を使えば、1 秒間に約 58 枚の映像を生成できます。

  • 1.3B(小型モデル): 1 秒間に約 64 枚(60fps の動画再生より速い!)。
  • 14B(大型モデル): 1 秒間に約 58 枚(高品質でも遅延なし)。

**「最初の映像が出るまで 0.5 秒」という驚異的な速さで、「1 秒間に 60 枚」の滑らかな動画を、「遅延(ラグ)なし」**で生放送できるのです。

4. まとめ:なぜこれが重要なのか?

これまでは、**「高品質な動画生成」「リアルタイムなライブ配信」は、「魚と熊掌(どちらも手に入らない)」**の関係でした。

  • 綺麗に作ろうとすると遅い。
  • 速くしようとすると、映像がカクカクする。

しかし、StreamDiffusionV2は、このジレンマを解消しました。

  • 個人クリエイター: 自分の PC で、高品質な VTuber やゲーム実況の背景をリアルタイムに変えられる。
  • 企業: 大規模なライブ配信プラットフォームで、何千人もの視聴者に、遅延なく高品質な AI 映像を提供できる。

まるで、**「魔法のカメラ」**が、今見ている世界を、即座にファンタジーな世界に変えてくれるような技術です。これにより、ライブ配信やエンターテインメントの未来が、大きく開かれることが期待されています。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →