Each language version is independently generated for its own context, not a direct translation.

🎬 MTVCraft：キャラクターの動きを「言葉」で操る新時代のアニメーション技術

この論文は、**「MTVCraft」という新しい技術について紹介しています。簡単に言うと、「静止画のキャラクターに、動画の動きを完璧にコピーさせる」**技術です。

これまでの技術には大きな「壁」がありましたが、この研究はそれを打破しました。どんな壁だったのか、そしてどう解決したのかを、わかりやすい例え話で解説します。

🚧 従来の技術の「壁」：2D の絵で指示する限界

これまでのアニメーション生成 AI は、動きを教えるために**「2D のスケッチ（骨格図やポーズ画像）」**を使っていました。

🎨 例え話：「手書きのレシピ」で料理を作る

これまでの方法は、**「手書きのレシピ（2D 画像）」**を見て料理を作るようなものです。

問題点 1：情報が足りない
レシピには「卵を割る」と書かれていても、その「手首の角度」や「力加減」までは書かれていません。AI は「たぶんこうだろう」と推測するしかなく、不自然な動きになりがちです。
問題点 2：形に縛られる
もしレシピが「太った人」向けに描かれていて、料理する人が「細い人」だと、AI は無理やり太った人の形に合わせようとして、キャラクターが変形したり、崩れたりしてしまいます。

✨ MTVCraft の革命：4D 運動トークン（4D Motion Tokens）

MTVCraft は、この「手書きのレシピ」を捨て、**「動きそのもののデジタルデータ」**を直接使います。

🧩 例え話：「ブロック遊び」で動きを教える

MTVCraft は、動きを**「レゴブロック（トークン）」**の集まりとして捉えます。

3D の骨格データを、小さなブロック（トークン）に変換します。
これを**「4D 運動トークン」と呼びます。「4D」とは、「3D 空間（高さ・幅・奥行き）」＋「時間」**の 4 つの次元を意味します。

なぜこれがすごいのか？

奥行き（3D）がわかる： 単なる平面の絵ではなく、「手が前へ出ている」「体が回転している」という立体感がそのまま伝わります。
形に縛られない： ブロックの組み立て方（動き）さえ合っていれば、それが「太った人」でも「細い人」でも、あるいは「猫」や「ロボット」でも、同じブロックの組み立て方を適用できます。キャラクターの形（顔や服）と、動き（ブロックの組み立て）が完全に分離されているからです。

🏗️ 仕組みの 2 つの柱

この技術は、主に 2 つの部品で動いています。

1. 4DMoT（動きの翻訳機）

役割： 動画から「3D の骨格データ」を読み取り、それを AI が理解しやすい**「4D 運動トークン（ブロック）」**に変換します。
イメージ： 複雑なダンスを、AI が理解できる「簡単なコード（ブロックの並べ方）」に翻訳する翻訳機です。

2. MV-DiT（動きを察知する画家）

役割： 翻訳された「ブロック（トークン）」を見ながら、静止画のキャラクターを動かして動画を作ります。
特徴： 従来の AI は「絵（2D）」を見ていましたが、この AI は**「ブロック（4D データ）」**を見て「あ、ここは腕を上げているんだな」と理解します。
4D 位置エンコーディング： ブロックが「いつ（時間）」、「どこ（3D 空間）」にあるかを正確に把握するための「住所シール」を貼るような仕組みです。これにより、動きが滑らかで自然になります。

🌟 この技術で何が実現できる？

1. 何でも動かせる（ゼロショット一般化）

人間だけでなく： 犬、猫、さらには**「ぬいぐるみ」や「無機物」**でも、動きを適用できます。
スタイルを選ばない： アニメ、リアルな写真、水墨画、ピクセルアートなど、どんな絵柄のキャラクターでも動かせます。
例え： 「このダンスのブロックの組み立て方」があれば、どんなキャラクターでもそのダンスを踊れるようになります。

2. 歪みが少ない

従来の技術では、動きの指示とキャラクターの形がズレると、顔が伸びたり体が歪んだりしましたが、MTVCraft は「動きの構造」と「キャラクターの見た目」を分けて扱うため、どんな激しい動きでもキャラクターが崩れません。

3. 大規模モデルにも対応

この技術は、小さな AI モデルから、非常に巨大で高性能な AI モデル（180 億パラメータ級）まで、簡単に拡張できます。

🎯 まとめ：なぜこれが画期的なのか？

これまでの技術は**「2D の絵を見て、真似をする」という、少し不器用な方法でした。
しかし、MTVCraft は「3D 空間での動きそのものを、ブロック（トークン）として直接理解する」**という、本質的なアプローチをとっています。

**「動きの言語（4D トークン）」**を直接扱えるようになったことで、

より自然で滑らかな動き
どんなキャラクターでも対応できる柔軟性
歪みのない高品質なアニメーション

が実現しました。これは、デジタル人間やバーチャルコンテンツの制作において、**「動きの自由」**を大きく広げる大きな一歩と言えるでしょう。

Each language version is independently generated for its own context, not a direct translation.

MTVCraft: 任意のキャラクターアニメーションのための 4D 運動トークンの技術的サマリー

本論文は、ICLR 2026 にて発表された「MTVCraft (Motion Tokenization Video Crafter)」という、キャラクター画像アニメーションのための新しいフレームワークを提案するものです。既存の手法が抱える限界を克服し、生データ（Raw Data）としての 4D 運動（3D 関節座標の時間系列）を直接モデル化することで、より汎用的で高品質なアニメーション生成を実現しています。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 問題定義 (Problem)

既存のキャラクター画像アニメーション手法は、駆動動画（Driving Video）から推定された2D ポーズ画像（スケルトン図や SMPL レンダリング画像など）を運動のガイダンスとして利用しています。しかし、このアプローチには以下の根本的な限界があります。

4D 情報の欠落: 2D 画像は、現実世界の 3D 空間と時間の情報（4D）を圧縮・投影したものであり、奥行きや物理的な運動のニュアンスが失われます。これにより、複雑な 4D シナリオでの物理的に妥当で表現豊かな運動の生成が困難です。
ピクセルレベルの依存と誤差: 画像ベースのガイダンスは、参照画像と駆動ポーズの形状や位置が一致することを前提としています。形状や位置が大きく異なる場合（例：異なる体型のキャラクターや、カメラアングルの変化）、モデルはポーズ画像を単にピクセル単位でコピーしようとし、歪みやアーティファクトが発生します。

問い: 2D レンダリング画像を経由せず、生データとしての 4D 運動を直接モデル化することは可能か？

2. 手法 (Methodology)

MTVCraft は、以下の 2 つの主要コンポーネントで構成される新しいパイプラインです。

A. 4DMoT (4D Motion Tokenizer)

3D 運動シーケンス（SMPL 関節座標の時間系列）を離散的な「4D 運動トークン」に変換する VQ-VAE ベースのモジュールです。

入力: 駆動動画から抽出された SMPL 関節座標（ $J_t \in \mathbb{R}^{24 \times 3}$ ）。
差分表現: 絶対位置ではなく、最初のフレームからの差分（相対運動）を学習することで、形状や絶対位置の変動から運動を解離（デカップリング）させます。
トークン化: 2D 空間（フレーム数と関節数）に沿って畳み込みを行い、ベクトル量子化（Vector Quantization）を通じて離散的なコードブックからトークンを生成します。
利点: 2D 画像に比べて、よりロバストな空間 - 時間的な手がかりを提供し、形状や位置のバイアスを排除します。

B. MV-DiT (Motion-aware Video Diffusion Transformer)

4D 運動トークンを条件として用いて、キャラクター画像をアニメーションさせる拡散トランスフォーマーです。

4D 運動アテンション (4D Motion Attention): 従来の自己アテンションに加え、運動トークンをキーとバリュー、ビジョントークンをクエリとして扱う新しいアテンション機構を導入します。これにより、モデルは生成時に必要な運動の手がかりを動的に検索・統合できます。
4D 位置符号化 (4D Positional Encodings): 従来の 3D 位置符号化（時間 $t$ 、高さ $h$ 、幅 $w$ ）を拡張し、運動トークンに対して $(t, x, y, z)$ の 4D 位置情報を Rotary Positional Encoding (RoPE) として適用します。これにより、運動と視覚トークンの間の幾何学的な整合性を保ちつつ、効果的な相互作用を可能にします。
スケーラビリティ: CogVideoX-5B（6B パラメータ）および Wan-2.1-14B（18B パラメータ）の両方の基盤モデルに適用可能であり、モデルサイズに応じて柔軟に拡張可能です。

3. 主要な貢献 (Key Contributions)

初の実装: 任意のキャラクター画像アニメーションにおいて、2D ポーズ画像ではなく、生 4D 運動シーケンスを直接モデル化する最初のフレームワークを提案しました。
4DMoT の開発: SMPL 関節座標を 4D 運動トークンに符号化する新しいトークナイザーを開発しました。これにより、2D ポーズ画像表現よりもロバストな空間 - 時間ガイダンスが得られます。
MV-DiT の設計: 4D 運動アテンションと 4D 位置符号化を備えた、運動意識型の Video DiT モデルを設計しました。これにより、4D 運動トークンによる高精度な制御が可能になりました。
SOTA 性能とゼロショット汎化: TikTok および Fashion ベンチマークで最先端（SOTA）の性能を達成しました。さらに、トレーニングデータに含まれていないスタイル、シナリオ、キャラクター（全身・半身、人間以外、動物、無機物など）に対しても、驚異的なゼロショット汎化能力を示しました。

4. 実験結果 (Results)

定量的評価: TikTok および Fashion データセットにおいて、PSNR、SSIM、LPIPS、FID、FVD、FID-VID などの主要指標において、既存の最良の手法（MimicMotion, UniAnimate-DiT など）を上回る結果を記録しました。
- 例（TikTok ベンチマーク）: MTVCraft-18B は FVD 276.65、FID 20.70 を達成し、他手法を大きく凌駕しました。
定量的評価: 図 1、図 5、図 13 に示されるように、ポーズの精度とアイデンティティの保持において優れた性能を発揮します。
ゼロショット汎化:
- 非人間対象: 人間中心のデータセットでトレーニングされたにもかかわらず、動物や無機物（例：オウム、人形）のアニメーションも成功させました。
- スタイル多様性: アニメ、ピクセルアート、インク画、フォトリアリズムなど、多様なビジュアルスタイルに対応可能です。
- アライメントの頑健性: 駆動ポーズと参照画像の形状や位置が大きくずれている場合でも、歪みなくアニメーションを生成できます。

5. 意義と将来性 (Significance)

MTVCraft は、キャラクターアニメーションの分野において以下の点で重要な転換点となります。

パラダイムシフト: ポーズ制御の標準を「2D 画像」から「4D 運動トークン」へと移行させ、より本質的な運動の理解と制御を可能にしました。
オープンワールド対応: 特定のキャラクターやスタイルに依存せず、任意のオブジェクトをアニメーション化できる「オープンワールド」な生成能力を開拓しました。
実用性: 大規模モデル（18B）へのスケーリングが容易であり、商用レベルでの展開（TeleAI によるデプロイ）も進められています。

結論として、MTVCraft は 4D 運動のトークン化と、それを活用した注意機構の導入によって、ポージングガイド付き動画生成の新しい方向性を示し、より汎用的で高品質なデジタルヒューマンおよびキャラクターアニメーションの実現に大きく貢献しました。

MTVCraft: Tokenizing 4D Motion for Arbitrary Character Animation