Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

本論文では、単眼動画の全ピクセルに対して世界座標系における効率的な密な 3 次元トラッキングを可能にする、VGGT 型の ViT を基盤とした新規フィードフォワードモデル「Track4World」を提案し、既存手法を上回る 2D/3D フロー推定および 3D 追跡性能を実証しています。

Jiahao Lu, Jiayi Xu, Wenbo Hu, Ruijie Zhu, Chengfeng Zhao, Sai-Kit Yeung, Ying Shan, Yuan Liu

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

Track4World:動画の「すべての点」を 3 次元で追跡する魔法のカメラ

この論文で紹介されている**「Track4World(トラック・フォー・ワールド)」は、一言で言えば「普通の動画(スマホで撮ったものなど)から、すべての物体が 3 次元空間でどう動いているかを、一瞬で正確に読み取る AI」**です。

これまでの技術には「特定の点しか追えない」や「計算に時間がかかりすぎる」という悩みがありましたが、Track4World はそれを解決しました。

わかりやすく、3 つのステップで解説しますね。


1. 従来の技術の「悩み」と Track4World の「解決策」

🕵️‍♂️ 従来の技術:「点の追跡」は得意だが「全体」は苦手

これまでの AI は、動画の中の「特定の点(例えば、車のヘッドライトの中心)」を追跡するのは得意でした。しかし、「画面のすべてのピクセル(点)」を追おうとすると、計算量が膨大になりすぎて、現実的に使えませんでした。
また、新しい技術は「最初のフレーム(最初の瞬間)に選んだ点」しか追えず、その後に画面に現れた新しい物体(例えば、後から入ってきた人)を追うのが苦手でした。

🚀 Track4World のアプローチ:「世界全体」を一度に把握する

Track4World は、「動画のすべての瞬間、すべての点」を、3 次元空間(世界)の座標で追跡します。
まるで、動画の中に「透明な 3 次元の網」を張って、その網のすべての目が同時に動いている様子を、一瞬で計算してしまうようなものです。


2. どのようにしてこれほど速く・正確にできるのか?(3 つの工夫)

Track4World が「魔法」のように見えるのは、3 つの賢い工夫があるからです。

① 「点」ではなく「流れ」を計算する(2 次元→3 次元の魔法)

通常、3 次元空間で「点 A から点 B へどう動くか」を計算するのは、迷路を解くように大変で時間がかかります。
Track4World は、まず**「2 次元の画像上での動き(左に 5 ピクセル動くなど)」を計算し、それを「3 次元の動き」に「持ち上げる(リフト)」**という技を使います。

  • 例え話: 地図(2 次元)上で「北へ 100 メートル」という動きを計算し、それを「北へ 100 メートル、かつ山を登って 50 メートル上昇」という 3 次元の動きに変換するイメージです。これにより、計算が劇的に速くなりました。

② 「任意の 2 枚」を自由に繋げる(時間を超えた追跡)

多くの AI は「隣り合うフレーム(1 秒目と 2 秒目)」しか見れません。しかし、Track4World は**「1 秒目と 100 秒目」の動きを直接計算**できます。

  • 例え話: 映画の「最初のシーン」と「最後のシーン」を直接つなげて、「このキャラクターは最初から最後までどう動いたか」を瞬時に理解できるようなものです。これにより、長い時間経っても物体を見失うことがなくなります。

③ 「2 次元のデータ」で「3 次元」を教える(豊富な教材)

3 次元の正解データ(教師データ)は非常に貴重で少ないですが、2 次元の動きデータ(光流)はインターネット上に山ほどあります。
Track4World は、「2 次元の動きの正解」を大量に学習させつつ、それを「3 次元の動き」に応用するという、一石二鳥の学習方法を採用しています。

  • 例え話: 2 次元の「絵画」の描き方を何万枚も練習した後、「3 次元の彫刻」の作り方を学ぶようなもので、基礎がしっかりしているため、3 次元の学習も非常にスムーズです。

3. 何がすごいのか?(具体的なメリット)

この技術が実現すると、以下のようなことが可能になります。

  • カメラの動きと物体の動きを完全に分離できる

    • 従来の動画では、「カメラが動いているのか、物体が動いているのか」がごちゃ混ぜでした。Track4World は、**「カメラが動いているだけ(背景は静止)」「物体が実際に動いている」**を明確に分けて、3 次元空間での本当の動きを再現できます。
    • 例え話: 電車の中で窓の外を見ると、木々は後ろに流れて見えますが、Track4World は「木は止まっているのに、自分が動いている」という真実を 3 次元で描き出します。
  • 新しい物体も追跡できる

    • 動画の途中で画面に入ってきた新しい人や車も、最初から追跡されているかのように、3 次元空間で追跡し続けることができます。
  • リアルタイムに近い速さ

    • これまで「3 次元追跡」には何時間もかかる計算が必要でしたが、Track4World は**「推論(計算)が非常に高速」**です。これにより、ロボットや AR(拡張現実)への応用が現実味を帯びてきました。

まとめ

Track4Worldは、単なる「動画の追跡」ではなく、**「動画の世界を、3 次元の物理法則に従ったリアルな空間として再構築する」**技術です。

  • 従来の AI: 「特定の点だけを追う、遅いカメラマン」
  • Track4World: 「画面のすべてを 3 次元で捉え、瞬時に世界を再構築する、神の視点を持つカメラマン」

この技術は、ロボットの視覚、映画の VFX、自動運転、そしてメタバースなど、私たちの未来の「3 次元理解」を支える重要な基盤になるでしょう。