CamDirector: Towards Long-Term Coherent Video Trajectory Editing

CamDirector は、ハイブリッド・ワーピングによる世界キャッシュと履歴ガイド付き自己回帰拡散モデルを導入し、既存手法の課題を克服して長期にわたる一貫性を保ちながらユーザー定義のカメラ軌道に従った高品質な動画編集を実現する新しいフレームワークです。

Zhihao Shi, Kejia Yin, Weilin Wan, Yuhongze Zhou, Yuanhao Yu, Xinxin Zuo, Qiang Sun, Juwei Lu

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

「CamDirector」:スマホ動画のプロ級カメラワークへの変身術

この論文は、**「普通のスマホ動画に、プロが撮ったような滑らかなカメラ移動(パンやズーム、回り込みなど)を、AI が自動で追加してくれる」**という新しい技術「CamDirector」を紹介しています。

まるで、手持ちでガタガタに揺れる動画を、映画監督が撮影したような滑らかな映像に変えてくれる魔法のツールです。

この技術を、3 つの重要なポイントに分けて、わかりやすく解説します。


1. 従来の問題点:「パズルがバラバラになる」

これまでの AI は、動画を新しいカメラ角度に変えようとするとき、**「1 枚ずつの写真をバラバラに加工」**していました。

  • イメージ: 1000 枚の写真を並べて、それぞれを別々の人が「新しい角度」に書き換える作業を想像してください。
  • 問題: 前の写真と次の写真で、壁の模様や背景の位置が微妙にズレてしまいます。結果として、動画を見ると**「チカチカと点滅したり、背景がフラフラと浮いて見える」**ような不自然な映像になってしまいます。特に長い動画では、このズレがどんどん蓄積して、映像が崩壊してしまいます。

2. 新技術の核心:「2 つの魔法のステップ」

この論文の「CamDirector」は、その問題を解決するために、**「世界地図(ワールドキャッシュ)」「過去の記憶(ヒストリー)」**という 2 つのアイデアを使います。

① 「世界地図」を作る(ハイブリッド・ワーピング)

まず、動画の中を「動くもの(人、車)」と「動かないもの(壁、木、建物)」に分けます。

  • 動くもの: その瞬間の動きをそのまま新しい角度に写し取ります。
  • 動かないもの(背景): ここがポイントです。AI は動画の**「すべてのフレーム」を一度に読み込み**、動かない背景を 3 次元の「世界地図(ワールドキャッシュ)」として作り上げます。
    • アナロジー: 動画全体を一度に眺めて、「この建物はここにある」という正確な 3 次元の地図を作ってから、新しいカメラ角度からその地図を描き直すイメージです。
    • 効果: これにより、どのフレームを見ても背景の位置がズレず、**「一貫性のある滑らかな映像」**が作れます。

② 「過去の記憶」を引き継ぐ(ヒストリー・ガイド)

長い動画を生成する際、AI は動画を短い区切り(セグメント)に分けて作ります。

  • 従来の方法: 各区切りごとに「ゼロから」作り直すため、区切りをまたぐと景色が急に変わってしまいます。
  • CamDirector の方法: 前の区切りで作り上げた**「きれいな映像」を、次の区切りを作る際の「ヒント(ガイド)」として使います。** さらに、前の区切りで描き足した背景情報を「世界地図」に追加し、次の区切りでその情報を引き継ぎます。
    • アナロジー: 小説を書くとき、前の章の出来事や設定を忘れないように「要約メモ」を常に持ちながら次の章を書くようなものです。これにより、**「動画全体を通して、景色が自然に流れる」**ようになります。

3. 新しいテスト場「iPhone-PTZ」

これまでの研究では、テスト用の動画が「手ぶれ動画」や「静止画」しかなく、AI の性能を十分に測れていませんでした。
そこで、この論文では**「iPhone-PTZ」**という新しいテスト用データセットを作りました。

  • 内容: 実際の iPhone で撮影した、回転(パン)、移動(ドリー)、回り込み(オービット)など、本格的な映画のようなカメラワークが含まれた 10 種類のシーンです。
  • 結果: この新しいテストでも、CamDirector は他の最先端技術よりも**「少ない計算量(パラメータ)」**で、より高品質で自然な映像を生み出すことに成功しました。

まとめ:何がすごいのか?

この技術は、**「長い動画でも、背景がズレたりチカチカしたりしない、プロのような滑らかなカメラワーク」**を、少ない計算資源で実現しました。

  • 昔の AI: 1 枚ずつバラバラに描くので、長い動画だと絵が崩れる。
  • CamDirector: 「3 次元の地図」を作って全体を把握し、「前の続き」を覚えて描くので、長い動画でも映画のように滑らか。

今後は、この技術を使って、誰でもスマホで撮ったガタガタの旅行動画を、まるで映画のワンシーンのような美しい映像に変えることができるようになるかもしれません。