PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

PRISM は、関節ごとの潜在分解とノイズのない条件注入を導入することで、テキストからモーションへの生成、ポーズ条件付き生成、および長期のストリーミング合成を単一のモデルで統合し、最先端の性能を実現する新しい動画生成フレームワークです。

Zeyu Ling, Qing Shuai, Teng Zhang, Shiyang Li, Bo Han, Changqing Zou

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

PRISM:まるで「魔法のアニメーター」のような新しい動き生成技術

こんにちは!今日は、Zhejiang 大学の研究チームが開発した**「PRISM」**という、とても面白い新しい AI 技術について、難しい専門用語を使わずに、日常の例え話で説明します。

この技術は一言で言うと、**「言葉やポーズから、自然で長いアニメーションの動きを、途切れることなく作り出す魔法」**です。


🎬 従来の問題:なぜアニメーションは「ぎこちない」のか?

これまでの AI は、人間の動きを作るのに 2 つの大きな壁にぶつかっていました。

  1. 「一まとめ」の箱詰め問題
    従来の AI は、人間の全身の動きを 1 枚の「大きな箱(データ)」にぎゅうぎゅうに詰め込んでいました。

    • 例え話: 料理を作る際、卵、牛乳、小麦粉、砂糖をすべて混ぜ合わせて「粉」にしてから、料理を作ろうとしているようなものです。
    • 結果: AI は「どこが卵で、どこが牛乳か」を自分で見分けなければならず、動きがぎくしゃくしたり、足が地面にめり込んだり(スリップ)、不自然な動きになってしまいました。
  2. 「長い物語」を作れない問題
    短い動きなら作れても、長い物語(例:「剣を取り、敵に近づき、攻撃し、逃げる」)を作ろうとすると、AI はすぐに混乱して、動きが崩壊したり、同じ場所をグルグル回ったりしてしまいました。

    • 例え話: 10 回連続で「次のコマを描いて」と言われると、1 回目は上手でも、10 回目には「あれ?今どこだったっけ?」と迷子になってしまうようなものです。

✨ PRISM の解決策:2 つの「魔法」

PRISM は、この 2 つの問題を、とてもシンプルで賢い方法で解決しました。

魔法①:関節ごとの「個別のメモ」を使う(Joint-Factorized Latent)

PRISM は、全身を 1 つの箱に詰め込むのではなく、**「関節ごとに小さなメモ(トークン)」**に分けて管理します。

  • 例え話:
    • 従来の AI: 「全身の動き」を 1 つの巨大なメモに書き込む。
    • PRISM: 「左腕」「右足」「腰」など、23 個の小さなメモに分けて、それぞれに「どう動けばいいか」を指示します。
    • メリット: AI は「左腕はこう動け、右足はこう動け」と、それぞれを個別に、かつ正確にコントロールできます。まるで、指揮者がオーケストラの各楽器に個別に指示を出しているように、動きが滑らかで物理的に自然になります。

魔法②:「きれいなヒント」を混ぜる(Noise-Free Condition Injection)

PRISM は、AI が「何から動き始めればいいか」を迷わないように、**「すでに完成した部分(ヒント)」**を、きれいな状態で AI に渡すことができます。

  • 例え話:
    • 従来の AI: 物語の続きを描くとき、「前の話」を思い出そうとして、記憶を頼りに描くので、次第に話がおかしくなっていく。
    • PRISM: 「前の話(最後のポーズ)」を、**「完成した原稿」として AI の机の上に置きます。AI は「ここから先を描いてね」という指示(テキスト)を受け取り、「置かれた原稿(ヒント)」**をそのまま引き継ぎながら、新しい部分を描き始めます。
    • メリット: これにより、テキストから動きを作るだけでなく、「特定のポーズから動き続ける」ことも、1 つの AI で自由自在にできるようになりました。

🚀 驚きの結果:12 秒以上の「無限」の動き

この 2 つの魔法を組み合わせることで、PRISM は以下のような驚異的なことができます。

  • 長い物語もバッチリ: 12 秒(約 360 フレーム)のトレーニングデータしか見ていないのに、10 回以上連続して(120 秒以上!)途切れることなく、自然な動きを作り出せます。
  • ストーリーも描ける: 「戦士が門に近づき、壁の後ろにしゃがみ込み、横転して立ち上がる」といった、複雑なストーリーを、AI が自動的に分解して、滑らかなアニメーションに変換します。
  • 人間以上の自然さ: 実際の人間が動いているようなデータと比べても、PRISM が作った動きは、より滑らかで、足が地面にスリップすることもありません。

🌟 まとめ

PRISM は、AI に「全身を 1 つの塊」ではなく、「関節ごとの個別の動き」として理解させ、**「前の続きをきれいに引き継ぐ」**仕組みを作りました。

これにより、ゲームや映画、VR などで、**「言葉で指示するだけで、長く自然なアニメーションが自動生成される」**時代が、もうすぐそこに来ているのです。まるで、魔法の杖を振るだけで、キャラクターが自分の意志で動き出すような未来が、PRISM によって現実になりつつあります。