Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model

Kaleido は、多様な高品質なトレーニングデータの構築と参照画像を安定して統合する「参照回転位置エンコーディング(R-RoPE)」の導入を通じて、複数の参照画像に基づく一貫性のあるマルチ被写体動画生成を実現するオープンソースのフレームワークです。

Zhenxing Zhang, Jiayan Teng, Zhuoyi Yang, Tiankun Cao, Cheng Wang, Xiaotao Gu, Jie Tang, Dan Guo, Meng Wang

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

カレイド(Kaleido):動画生成の「魔法の万華鏡」

この論文は、**「特定のキャラクターや物を、好きな背景や動きで自由に動かせる動画を作る技術」**について書かれています。

この技術を**「カレイド(Kaleido)」**と呼んでいます。名前の通り、万華鏡のように、同じ「主役」を様々な角度や状況で美しく見せることができるのが特徴です。

以下に、専門用語を使わず、日常の例え話で解説します。


1. 何が問題だったの?(以前の技術の悩み)

これまでの動画生成 AI は、2 つの大きな悩みを抱えていました。

  • 「主役」がボヤけてしまう
    例え話:「好きな人(主役)を写真に撮って、その人を動かす動画を作ろうとしたのに、動画になると顔が別人に変わったり、服のデザインが崩れたりしてしまう。」
    複数の写真から「この人だ!」と正確に認識して、一貫した姿で動かすのが難しかったのです。

  • 「背景」が混ざり込んでしまう
    例え話:「公園で撮った写真から、その人を「宇宙」で走らせる動画を作ろうとしたのに、動画の背景に公園の木々やベンチが勝手についてきてしまった。」
    主役と背景がくっつきすぎていて、背景だけを取り替えるのが大変でした。

さらに、「複数の主役」(例:男の子と女の子、あるいは犬と猫)を同時に登場させると、お互いが混ざり合ったり、どっちがどっちか分からなくなったりする問題もありました。


2. カレイドの解決策:2 つの「魔法」

カレイドはこの問題を、2 つの工夫で解決しました。

① 魔法のレシピ本(データ構築パイプライン)

AI を勉強させるための「教材(データ)」を、今までにない方法で作り直しました。

  • クロスペアリング(Cross-Paired)という工夫
    例え話:「A さんが『カフェ』でコーヒーを飲んでいる写真」と「B さんが『ビーチ』で泳いでいる写真」を、AI に見せる時に**「A さんをビーチで泳がせ、B さんをカフェでコーヒーを飲ませる」**ように組み替えて教えました。

    これにより、AI は「主役(A さんや B さん)」と「背景(カフェやビーチ)」は別物だと強く理解するようになります。結果として、好きな背景に主役を自由に配置できるようになりました。

② 位置の「座標シール」(R-RoPE)

AI が写真と動画を混ぜて処理する時、混乱しないようにする新しい仕組みです。

  • R-RoPE(参照回転位置符号化)
    例え話:AI の頭の中は、動画のフレーム(時間)と写真(空間)が並んでいる「長い列」になっています。
    通常、写真を入れると「動画の次のフレーム」だと思われて混乱します。
    カレイドは、写真のデータに**「特別なシール(座標)」**を貼ります。

    • 動画のフレーム:「0 番、1 番、2 番…」
    • 写真のデータ:「100 番、101 番…」(数字を大きくずらす)

    これにより、AI は「あ、これは動画の続きじゃなくて、参考にする写真だ!」と瞬時に区別できるようになります。これでお互いが混ざり合うことなく、複数の主役をきれいに並べられるようになりました。


3. 結果はどうなった?

カレイドは、既存のオープンソース(誰でも使える)のモデルだけでなく、「Vidu」や「Kling」といった、お金を出さないと使えない最高峰のクローズドソース(企業秘密)のモデルにも匹敵する、あるいは凌駕する性能を出しました。

  • 主役の顔や特徴が、動画中ずっと崩れずに保たれる。
  • 背景を自由自在に変えられる(例:同じ人物を、夜、昼、宇宙、海で走らせる)。
  • 複数のキャラクターを同時に登場させても、それぞれがちゃんと役割を果たす。

まとめ

カレイドは、**「主役と背景を上手に分離し、複数の写真から一貫したキャラクターを動かす」**ための新しい技術です。

まるで、**「主役のキャラクターを粘土細工のように自由に形作り、背景のセットも好きなように組み替えられる」**ような感覚です。これにより、誰でも高品質なアニメーションや広告動画を作れる時代が近づきました。

この技術のコードやモデルはオープンソース(誰でも無料で使える状態)で公開される予定なので、今後の動画制作のあり方を大きく変えるでしょう。