LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

本論文は、2D 検出から 3D 推論へと段階的に進む「視覚的連鎖思考(Chain-of-Sight)」を導入し、3D 物体検出を次トークン予測問題として定式化することで、オープンボキャブラリかつゼロショットで高い性能を実現する VLM ネイティブな手法「LocateAnything3D」を提案する。

Yunze Man, Shihao Wang, Guowen Zhang, Johan Bjorck, Zhiqi Li, Liang-Yan Gui, Jim Fan, Jan Kautz, Yu-Xiong Wang, Zhiding Yu

公開日 2026-02-24
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

LocateAnything3D:AI に「3 次元の目」を持たせた新しい魔法

この論文は、AI(人工知能)が写真を見て、そこに何が写っているかを「名前」で言い当てると同時に、それが「どこにあり、どれくらい大きく、どの向きにあるか」という3 次元の空間情報まで理解できるようにする新しい方法を紹介しています。

これまでの AI は、2 次元の画像を「見る」ことは得意でしたが、3 次元の「奥行き」や「距離」を推測するのは苦手でした。この研究は、その壁を壊すための画期的なアプローチです。

以下に、専門用語を排して、わかりやすい比喩を使って解説します。


1. 従来の問題:「目隠し」をした状態での推測

これまでの AI は、写真から 3 次元の箱(物体の位置や大きさ)を推測する際、まるで**「目隠しをして、触覚だけで物体の形を想像している」**ようなものでした。

  • 2 次元の画像(写真)からいきなり 3 次元の情報を推測するのは、非常に難易度が高く、AI はよく「勘違い(幻覚)」をして、存在しないものを発見したり、距離を間違えたりしていました。
  • また、特定の種類の物体(車や人など)しか認識できない「閉じた箱」のようなシステムが多く、新しい物体が出てくると対応できませんでした。

2. 新技術の核心:「Chain-of-Sight(視線の連鎖)」

この論文が提案する**「LocateAnything3D」**というシステムは、人間の目が物を見るプロセスを真似ています。

比喩:探偵の推理プロセス

この AI は、探偵が事件現場を調べるような手順で画像を分析します。

  1. ステップ 1:「まず、2 次元で何があるか特定する」

    • 探偵がまず写真を見て、「あそこには『車』が写っているな」と平面的に位置を特定します。
    • AI もまず、画像の中で「どこに何があるか」を 2 次元の枠(四角い枠)で囲みます。これを**「視覚的な思考の連鎖(Chain-of-Sight)」**と呼びます。
    • これは「まず足場を固める」ようなもので、ここで「何があるか」を確定させることで、その後の推理が安定します。
  2. ステップ 2:「次に、3 次元の情報を推測する」

    • 「車がある」とわかった上で、「その車はカメラからどれくらい離れている?(距離)」「どれくらい大きい?(大きさ)」「どの方向を向いている?(向き)」を推測します。
    • 2 次元の位置がわかっているおかげで、3 次元の推測は**「目隠し」から「しっかり見ている状態」**に変わります。これにより、AI の勘違いが大幅に減ります。

3. 学習の工夫:「易しい順に、近い順に」

AI が学習する際にも、人間が子供に教えるような「カリキュラム」を取り入れています。

  • 近いものから遠いものへ(Near-to-Far):

    • 写真の中で、カメラに近い物体から順に処理します。
    • 理由: 近い物体ははっきり見えるので、まずここで正解を出して「自信」を付けさせます。そして、その情報を手がかりにして、遠くにある(見えにくい)物体を推測します。
    • 例: 料理を作る時、まず手元の材料を整理してから、奥の棚にある材料を探すのと同じです。
  • 中心→大きさ→向き(Center → Size → Rotation):

    • 物体の情報を、難しい順ではなく、**「まずどこにあるか(中心)」→「次にどれくらいか(大きさ)」→「最後にどの向きか(回転)」**という順序で出力させます。
    • 理由: 「どこにあるか」がわかれば、「どれくらいか」を推測しやすくなり、さらに「向き」も決まりやすくなります。一つずつ積み上げていくことで、AI の学習がスムーズになります。

4. すごい成果:どんなものでも見分けられる

このシステムは、以下のような素晴らしい能力を持っています。

  • 何でも見分けられる(Open-Vocabulary):
    • 「車」や「椅子」だけでなく、「赤いマグカップ」や「変な形の家具」など、AI が訓練中に一度も見たことのない物体でも、テキストで指示すれば見つけられます。
    • 例: 「あの青い箱を 3 次元で教えて」と言えば、AI はその箱の位置や大きさを即座に答えます。
  • 世界最高レベルの精度:
    • 有名なテスト(Omni3D ベンチマーク)で、これまでの最高記録を大きく更新しました。
    • なんと、**「正解の 2 次元の枠(2D ボックス)を最初から与えた場合」**よりも、この AI が「自力で 2 次元から 3 次元まで推測する」方が正確な結果を出したこともあります。これは、AI が 2 次元と 3 次元をセットで理解する重要性を証明しています。

5. なぜこれが重要なのか?

この技術は、単に「画像を分析する」だけでなく、**「ロボットが現実世界で動くための基礎」**になります。

  • ロボットアーム: 「テーブルの上の赤いリンゴを掴んで」と言われた時、リンゴが「どこにあり、どれくらい離れているか」を正確に理解できなければ、ロボットはリンゴを掴めません。
  • 自動運転: 歩行者や他の車が「どれくらい離れているか」を正確に把握することは、事故防止に直結します。

まとめ

LocateAnything3Dは、AI に「まず 2 次元で場所を特定し、それを足掛かりに 3 次元の空間を推理する」という、人間らしい思考プロセスを教えることに成功しました。

まるで、**「まず地図上の位置(2 次元)を確認し、その上で建物の高さや距離(3 次元)を想像する」**ような、理にかなった方法です。これにより、AI はより安全に、より柔軟に、私たちが住む 3 次元の世界を理解し、行動できるようになりました。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →