Flowception: Temporally Expansive Flow Matching for Video Generation

本論文は、離散的なフレーム挿入と連続的なフレーム除去を交互に学習する確率経路を採用することで、誤差蓄積の軽減や計算コストの削減、動画長と内容の同時学習を可能にし、画像から動画への生成や動画補間など多様なタスクを統合的に実現する新しい非自己回帰的かつ可変長の動画生成フレームワーク「Flowception」を提案しています。

Tariq Berrada Ifriqi, John Nguyen, Karteek Alahari, Jakob Verbeek, Ricky T. Q. Chen

公開日 2026-03-24
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

Flowception(フローセプション):動画生成の「魔法の編集者」

こんにちは!今日は、Meta の研究チームが開発した新しい動画生成技術**「Flowception(フローセプション)」**について、難しい数式や専門用語を使わずに、身近な例え話で解説します。

🎬 今までの動画生成は「どうだった?」

新しい動画を作る AI には、大きく分けて 2 つのやり方がありました。

  1. 全フレーム一斉生成(フルシークエンス):
    • 例え: 映画の全 100 カットを、同時に 100 人のスタッフが描き始めるようなもの。
    • メリット: 全体のバランスが良く、高品質。
    • デメリット: 100 人全員が描き終わるまで、誰も動画を見られない(リアルタイム性がない)。また、計算量が膨大で、長い動画を作るのは大変。
  2. 自動生成(オートレグレッシブ):
    • 例え: 1 枚描いては次のスタッフに渡し、次にまた次のスタッフに渡す「リレー」方式。
    • メリット: 描けた順にすぐ見られる。
    • デメリット: 最初の 1 枚に少しのミスがあると、それが次の絵、次の絵へと「伝染」して、最後にはボロボロになってしまう(エラーの蓄積)。また、前の絵しか見られないので、全体の構成が難しくなる。

✨ Flowception の「魔法」:挿入と消去を繰り返す

Flowception は、この 2 つの欠点をすべて解決する**「新しい動画の描き方」**です。

イメージしてください。
あなたは**「魔法の編集者」**で、白いキャンバス(動画)に絵を描き始めます。

  1. 最初は「ノイズ」だけ:
    まず、キャンバスに「何もない(ノイズ)」状態から始めます。
  2. 「挿入」と「消去」を同時に行う:
    • 消去(ノイズ除去): すでに描かれている絵を、少しずつ綺麗にしていきます(「ここは空だ」「ここは木だ」とはっきりさせる)。
    • 挿入(フレーム追加): 絵と絵の**「間」**に、新しいキャンバス(フレーム)をパッと挿入します。最初は真っ白なノイズですが、すぐに周りの絵に合わせて色がついていきます。

ここがすごいポイント!

  • 順番は自由: 最初から順番に描く必要はありません。「まず冒頭と終わりを描いて、その間を埋める」「動きの激しい部分を先に描く」といったように、AI が**「今、どこに新しい絵が必要か」**を自分で判断して挿入します。
  • エラーが伝染しない: 前の絵が少し崩れても、新しい絵を「間」に挿入して修正できるので、ミスの蓄積を防げます。
  • 計算が楽: 最初は絵が少なくて済むので、最初の内は計算が軽く、動画が長くなるにつれて徐々に描き足していくため、全体として非常に効率的です。

🎭 できることはこれだけじゃない!

Flowception は、単に動画を作るだけでなく、**「どんな動画でも作れる万能ツール」**です。

  • 画像から動画へ(Image-to-Video):
    • 1 枚の写真を与えると、その写真から新しいフレームを「間」に挿入して、動画のように動かします。
  • 動画のつなぎ目(Interpolation):
    • 「A という瞬間」と「B という瞬間」の 2 枚の写真があれば、その間を AI が勝手に埋めて、滑らかな動画を作ります。
  • 長さの自由:
    • 「10 秒の動画を作って」と言えば 10 秒、「30 秒なら?」と言えば 30 秒。動画の長さを事前に決める必要がなく、AI が「この物語にはこれくらい必要だ」と判断して長さを作ります。

🚀 なぜこれが画期的なのか?

  • 高品質で、かつ高速: 従来の「全フレーム一斉生成」よりも計算コストが 3 分の 1 になり、自動生成方式よりも品質が高く、エラーも少ないです。
  • リアルタイムに近い: 描きながら見られるので、ストリーミング動画の生成にも向いています。
  • 柔軟性: 映画の編集のように、必要な場面にだけ注力して描くことができるため、長い動画でも質が落ちません。

🌟 まとめ

Flowception は、「動画を作る AI」を、一列に並んで描く「リレー選手」から、全体を見渡しながら必要な場所にパッと絵を描き足せる「天才的な編集者」に変えた技術です。

これにより、私たちはより長く、より滑らかで、高品質な動画を、これまでよりもはるかに少ない計算資源で生成できるようになります。まるで、魔法の筆で動画を描いているような感覚ですね!

自分の分野の論文に埋もれていませんか?

研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。

Digest を試す →