Each language version is independently generated for its own context, not a direct translation.

「狙い定めて動く」動画生成 AI の新技術：TAVID の解説

この論文は、「誰が、どの特定の物体に、どう動くか」を正確に指示して、リアルな動画を作れる新しい AIを紹介しています。

これまでの動画生成 AI は、「人がコップを飲む」と言っても、画面にコップがいくつあっても「どれかのコップ」を適当に選んでしまうことがありました。しかし、この新しい技術（TAVID）を使えば、「画面の『この赤いコップ』を指差して、そのコップを掴んでください」と指示するだけで、AI が正確にそのコップに手を伸ばす動画を作ることができます。

まるで、「魔法のカメラマン」が、役者（人間やロボット）に「その特定の役者（物体）とだけ交流してください」と指示を出すようなものです。

🎬 従来の AI との違い：迷路とコンパス

1. 従来の AI：「迷路で迷子になる役者」

これまでの動画生成 AI は、大きな図書館（大量の動画データ）で勉強してきた天才的な役者さんです。しかし、彼らは「コップを拾え」と言われると、図書館にある「コップ」のイメージを頭の中で思い浮かべ、**「あ、コップがある！よし、適当なコップを拾おう！」**と、画面の中のどのコップを掴むか迷ってしまいます。

問題点： 複数の同じような物体がある場合、AI は「どれがターゲットか」を区別できず、間違った物体に手を出したり、空っぽの空間を掴んだりしてしまいます。

2. 新しい AI（TAVID）：「コンパスを持った役者」

この新しい技術は、AI の頭に**「コンパス（目標指向の羅針盤）」**を取り付けました。

仕組み： ユーザーは、動画の最初のフレームで、「狙う物体」をマスク（塗りつぶし）で指定します。
効果： AI は「コンパス」が指し示す場所（マスクされた物体）を絶対的な目標として認識します。「コップを拾え」と言われれば、**「コンパスが指す、あの特定のコップ」**にしか手を伸ばしません。

🔧 どうやって実現したのか？3 つの工夫

この「コンパス」を AI にインストールするために、研究者たちは 3 つの工夫をしました。

① 「[TGT]」という魔法の言葉を使う

AI が読む台本（テキストプロンプト）に、「[TGT]（ターゲット）」という特別な単語を挿入しました。

例：「人がコップを拾う」→「人が**[TGT]**コップを拾う」
この「[TGT]」という単語が、画面の「マスクで指定された場所」と結びつくように訓練しました。まるで、「[TGT]」という単語が、画面の特定の場所を指差す指のようになっているのです。

② 「注意力」をトレーニングする（クロス・アテンション・ロス）

AI の脳内では、言葉と映像のイメージをつなぐ「注意力（アテンション）」という仕組みが働いています。

トレーニング： AI が「[TGT]」という単語を見たとき、**「その単語の注意力が、必ずマスクされた物体の場所に向かうように」**強制的に指導しました。
アナロジー： 子供に「リンゴを見て！」と言ったとき、子供の目が「リンゴ」にピタッと固定されるように、AI の「[TGT]」の視線を強制的にターゲットに固定するトレーニングです。

③ 脳の「重要な部分」だけを狙って教える

AI は非常に複雑な脳（トランスフォーマー）を持っていますが、すべての部分に同じように教えるのは非効率です。

工夫： 「どの脳の部分（ブロック）が、物体の位置を最も理解しているか」を調べ、その「重要な部分」だけに集中してトレーニングを行いました。
効果： 無駄なエネルギーを使わず、効率的に「狙い定める力」を身につけさせました。

🚀 この技術で何ができるの？

この技術は、単に動画を作るだけでなく、**「未来のロボットやゲームの監督」**として活躍します。

1. ロボットへの「ゼロショット」指示

シチュエーション： 実物大のロボットに「あの椅子に座って」と指示したいが、ロボット用のプログラムを書くのは大変。
解決策： まず、そのシーンの写真と「椅子のマスク」を AI に見せて、「人が椅子に座る動画」を生成させます。
結果： 生成された動画の動きをロボットに真似させることで、特別なプログラミングなしで、ロボットが自然に椅子に座る動作を習得できます。

2. 長い動画コンテンツの作成

シチュエーション： 映画やゲームで、キャラクターが部屋を歩き回り、特定の物体に手を伸ばす長いシーンを描きたい。
解決策： 最初のフレームと最後のフレームを繋ぐだけでなく、**「特定の物体とどう交流するか」**を AI が自動で補完してくれます。ユーザーは「どの物体を触るか」だけ指示すればよく、細かい動きは AI が勝手に「物理的に自然な動き」で埋めてくれます。

🌟 まとめ：AI への「指差し」が未来を変える

この論文の核心は、**「AI に『何をするか』だけでなく、『誰（何）とやるか』を正確に教えること」**です。

これまでの AI は「全体像」を描くのが得意でしたが、「特定の一点」を正確に狙うのが苦手でした。この TAVID という技術は、AI に**「コンパス」を与え、「その物体だけを狙え」**と教えることで、より現実的で制御しやすい動画生成を実現しました。

これからの未来、私たちが「あの箱を動かして」と指差すだけで、AI がロボットやゲームキャラクターに正確にその動作を遂行させる時代が来るかもしれません。それはまるで、魔法の杖で「あれ」を指し示すだけで、現実に動きが生まれるような感覚に似ています。

Each language version is independently generated for its own context, not a direct translation.

ターゲット認識型ビデオ拡散モデル（Target-Aware Video Diffusion Models）の技術的サマリー

この論文は、ICLR 2026 に掲載された「Target-Aware Video Diffusion Models（TAVD）」に関する研究です。入力画像から、特定の「ターゲット物体」と相互作用する「アクター（人間やロボットなど）」の動きを生成する新しいビデオ拡散モデルを提案しています。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細にまとめます。

1. 問題定義と背景

既存の画像からビデオを生成する（Image-to-Video: I2V）拡散モデルは、テキストプロンプトや入力画像に基づいて動画を作成できますが、**「ターゲット非認識（Target-Unaware）」**という課題を抱えています。

現状の限界: 既存モデルは、プロンプトに「ボトルを掴む」と書かれても、画像内の複数のボトルのうちどのボトルを掴むべきかを文脈から推論できず、誤った物体を操作したり、幻覚（hallucination）を起こしたりする傾向があります。
既存アプローチの課題: 深度マップ、エッジ、オプティカルフロー、ドラッグ操作（Drag-based manipulation）などの密な構造的な制御信号を用いる手法は存在しますが、これらは事前に詳細な運動軌跡やユーザーによる手動操作を必要とし、高レベルな「動作計画（Motion Planning）」としての汎用性に欠けます。
目標: 最小限の入力（ターゲットのセグメンテーションマスクとテキストプロンプト）のみで、アクターが指定された特定の物体と物理的に妥当な相互作用を行う動画を生成するモデルの実現。

2. 提案手法：ターゲット認識型ビデオ拡散モデル

提案手法は、ベースとなる画像からビデオへの拡散モデル（CogVideoX）を拡張し、ターゲットの空間情報をモデルに強制的に認識させるアーキテクチャと学習戦略を採用しています。

2.1 マスクによるターゲットの指定

入力拡張: 入力画像 $I$ に加えて、ターゲット物体のセグメンテーションマスク $M$ を追加入力としてモデルに与えます。
実装: マスクは入力画像のチャンネルとして結合され、ゼロパディングを施して他のフレームと整合させます。画像投影層（Image Projection Layer）を拡張し、新しいチャネルに対応できるようにしています（InstructPix2Pix の手法を踏襲）。

2.2 クロスアテンション損失によるターゲット認識の強制

単にマスクを入力するだけでは、モデルがそのマスクを有効活用するとは限りません。そこで、テキストプロンプト内の特殊トークンとマスクの空間情報を強制的に一致させる**クロスアテンション損失（Cross-Attention Loss）**を導入しました。

特殊トークン [TGT]: プロンプトに「The person interacts with [TGT] object.」という文を追加し、[TGT] というトークンをターゲットの空間情報をエンコードする役割に割り当てます。
損失関数: 動画の最初のフレームの潜在ノイズ $z_t$ と [TGT] トークンの間のクロスアテンションマップ $A(z_t, [TGT])$ が、入力されたターゲットマスク $\tilde{M}$ と一致するように損失を最小化します。
$\mathcal{L}_{attn} = \mathbb{E} \left[ \| A(z_t, [TGT]) - \tilde{M} \|_2^2 \right]$
全体損失: 通常の拡散モデルの再構成損失 $\mathcal{L}_{rec}$ と、重み $\lambda_{attn}$ でバランスさせたクロスアテンション損失を合計して最適化します。

2.3 選択的損失適用（Selective Loss Application）

計算効率と学習の効果を最大化するため、損失を適用する領域とトランスフォーマーブロックを限定しています。

アテンション領域の選択: マルチモーダル拡散トランスフォーマー（MM-DiT）において、Video-to-Text (V2T) クロスアテンションに損失を適用します。これは、V2T がビデオの潜在表現に直接影響を与えるため、ターゲットの空間認識に最も効果的であるためです（Text-to-Video ではなく）。
トランスフォーマーブロックの選択: 学習データの一部を用いたアブレーション調査により、セマンティックな情報が最も強くマスクと一致するブロック（ベースモデルの 5 番目から 23 番目までのブロック）を特定し、その範囲内のブロック（5 番目ごとなど）にのみ損失を適用しています。これにより VRAM 使用量を大幅に削減しつつ精度を維持しています。

2.4 データセットの構築

ターゲット認識を学習するための専用データセットを構築しました。

ソース: BEHAVE および Ego-Exo4D データセットから抽出。
条件: 最初のフレームでアクターがターゲットと接触していない状態、その後のフレームで接触・相互作用している状態。
アノテーション: 最初のフレームのターゲットマスク（自動セグメンテーションモデル使用）と、動作を記述するテキストプロンプト（CogVLM2-Caption 生成 + 手動修正）。

3. 主要な貢献

ターゲット認識型ビデオ拡散モデルの提案: セグメンテーションマスクとテキストプロンプトを用いて、アクターと特定のターゲットとの相互作用を生成する初のフレームワーク。
クロスアテンション損失の活用: 既存のモデルを改修することなく、マスク入力を効果的に利用し、空間的グラウンディングを実現する新しい学習手法。
専用データセットの公開: ターゲット認識タスクの学習・評価のために構築された新しいデータセット。
実用的な応用の実証:
- ゼロショット 3D HOI 動作合成: 生成された 2D ビデオから 3D 姿勢を推定し、物理シミュレータ（Isaac Gym）でロボット制御用のポリシーを学習。
- 長尺ビデオコンテンツ作成: 最小限のユーザー入力（ターゲット指定）で、ナビゲーションや相互作用を含む長尺動画を生成するパイプライン。

4. 実験結果

4.1 定量的評価

Contact Score（接触スコア）: 生成された動画内で、アクターがターゲットと接触しているフレームの割合を評価。
- 提案手法（Ours）: 0.878
- ベースモデル（CogVideoX）: 0.560
- 既存手法（Attn. Mod.）: 0.546
- 提案手法は既存のすべてのベースラインを大幅に上回りました。
ビデオ品質: VBench 指標（被写体の一貫性、背景の一貫性、動きの滑らかさなど）において、ベースラインと同等の品質を維持しており、ターゲット認識の導入が画質を劣化させていないことが確認されました。

4.2 定量的・定性的評価

ターゲットの正確性: 複数の同種物体が存在するシーンでも、マスクによって意図した物体のみを正確に操作する能力を示しました。
汎化性: 人間以外のアクター（動物、ロボットアーム）に対しても、人間で学習したモデルからゼロショットで良好に動作しました。
ドラッグベース手法との比較: 従来のドラッグ操作（DragDiffusion など）は、大規模な移動や複雑な相互作用では失敗しやすいのに対し、提案手法は明示的な運動指示なしに自然な相互作用を生成しました。

5. 意義と将来展望

ロボット工学への応用: 本モデルは「世界モデル（World Model）」として機能し、ロボットが未知の環境で物体とどのように相互作用すべきかを推論する「動作プランナー」としての役割を果たします。物理的に妥当な 3D 動作を 2D 生成モデルから抽出できる点は、ロボット学習において極めて重要です。
コンテンツ制作: ユーザーが複雑な運動軌跡を指定せずとも、ターゲットを指定するだけで自然な相互作用を含む動画を生成できるため、動画編集やストーリーテリングの効率化に寄与します。
限界と将来課題:
- 現在のアーキテクチャは 1 つのマスクに 1 つの物体を想定しており、複数の物体を 1 つのマスクで指定した場合や、動画内でターゲットを切り替える場合の処理は未解決です。
- 生成画質はベースモデル（オープンソース）の限界に依存しており、商用モデルの進歩に伴う改善が期待されます。
- カメラの動き（動的カメラ）への対応も今後の課題です。

総じて、この研究はビデオ生成モデルに「空間的な意図（どの物体を操作するか）」を付与する新たなパラダイムを提示し、AI による物理的相互作用の理解と制御において重要な一歩を踏み出したと言えます。

Target-Aware Video Diffusion Models