S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

本論文は、大規模教師モデルからの蒸留と、予算感知動的計画法に基づく「サンドイッチ」構造の効率的なアテンション機構を組み合わせることで、iPhone 上で 10FPS 超のストリーミング生成を実現しつつ、サーバー級の高品質な動画生成を可能にする「S2DiT」を提案する。

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「スマホでリアルタイムに、高品質な動画を AI に作らせる」**という画期的な技術「S2DiT」について書かれています。

これまでの AI 動画生成は、巨大なサーバー(データセンター)にないと動かない「重たい車」のようなものでした。それを、iPhone のような「軽快なスポーツカー」でも走れるように変えたのがこの研究です。

わかりやすく、3 つのポイントに分けて解説します。


1. 問題:なぜスマホでは動かなかったのか?

これまでの AI 動画生成技術(拡散トランスフォーマー)は、**「全画面のピクセルを一度に全部見て、細部まで計算する」**という重たい作業をしていました。

  • 例え話: 巨大な図書館のすべての本を、一冊ずつ開いて内容をチェックしてから本を閉じるような作業です。
  • 結果: 計算量が膨大すぎて、スマホのバッテリーが瞬時に切れてしまい、動画がカクカクして実用できませんでした。

2. 解決策①:「サンドイッチ構造」という新しい設計図

著者たちは、計算を効率化するために**「サンドイッチ・ディフュージョン・トランスフォーマー(S2DiT)」**という新しい仕組みを作りました。

  • 通常の AI: 最初から最後まで、すべてを「高解像度(詳細)」で計算しようとするので重くなります。

  • S2DiT の工夫:

    • 具(中身): 重要な部分は「高解像度」で詳しく見る(LCHAという技術)。
    • パン(外側): 全体の雰囲気や動きは「低解像度(ざっくり)」で素早く見る(SSAという技術)。
    • これらを**「高解像度→低解像度→高解像度」のように交互に挟み込む(サンドイッチにする)ことで、「必要なところだけ詳しく、不要なところはざっくり」**と計算しています。
  • 例え話:
    料理を作る際、メインの肉は包丁で丁寧に切り分け(高解像度)、付け合わせの野菜はざっくり刻む(低解像度)ようにしています。全部を丁寧に切ると時間がかかりすぎますが、この「サンドイッチ」方式なら、美味しさ(画質)は保ったまま、調理時間(計算速度)を劇的に短縮できます。

3. 解決策②:「天才先生」から学ぶ「2-in-1 勉強法」

スマホ用の AI は小さく(軽量)なため、最初から高品質な動画を作れません。そこで、巨大な「先生 AI(Wan 2.2-14B)」の知識を盗み取る**「蒸留(ディストレーション)」**という技術を使いました。

  • 従来の方法: 先生がその場で問題を解いて、生徒が見て真似をする。→ 先生が重いので、スマホでは無理。
  • S2DiT の方法(オフライン・キャッシュ):
    1. 先生 AI が事前に「問題と解答」をすべて書き出して、ノートにまとめておく(キャッシュ)。
    2. 生徒 AI(スマホ用)は、そのノートを眺めて勉強するだけ。
    • これにより、重い先生 AI をスマホに載せる必要がなくなり、**「先生と同じレベルの頭脳」**を小さな生徒 AI に移植できました。

さらに、動画が途切れないように、**「次のフレームを自分で予測して生成する(自己強制)」**という技術も組み合わせています。

4. 結果:スマホで「ストリーミング」生成が可能に

この技術によって、以下のようなことが実現しました。

  • iPhone 16 Pro Maxで、**1 秒間に 10 枚以上(10 FPS)**の動画を生成できます。
  • 文字を入力すると、リアルタイムに動画が流れていく(ストリーミング生成)ことができます。
  • 画質は、巨大なサーバーで動いている最新 AI と比べても遜色ありません。

まとめ

この論文は、**「重たい計算を『サンドイッチ』のように工夫して軽くし、巨大な先生の知識を『ノート』で効率よく盗み取ることで、スマホで高品質な動画生成を可能にした」**という画期的な成果です。

これからは、スマホアプリで「今、何をしているか」を入力するだけで、その瞬間に AI が動画を作ってくれるような未来がすぐそこに来たと言えます。