LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

LocateAnything3D 提出了一种将 3D 检测转化为基于视觉思维链(Chain-of-Sight)的下一个词预测任务的 VLM 原生方法,通过从 2D 检测到 3D 定位的由易到难课程学习策略,在 Omni3D 基准上取得了显著超越现有方法的性能并实现了强大的零样本泛化能力。

Yunze Man, Shihao Wang, Guowen Zhang, Johan Bjorck, Zhiqi Li, Liang-Yan Gui, Jim Fan, Jan Kautz, Yu-Xiong Wang, Zhiding Yu

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 LocateAnything3D 的新模型,它的核心目标是让人工智能(AI)不仅能“看懂”图片里的东西,还能像人类一样,精准地知道这些东西在三维空间里具体在哪里、有多大、是什么朝向。

为了让你更容易理解,我们可以把这项技术想象成教一个刚学画画的小学生如何从一张平面的照片里“变”出立体的世界

1. 核心难题:从“平面”到“立体”的跨越

以前的 AI 模型(比如现在的多模态大模型)非常擅长在二维(2D)世界里工作。你给它一张照片,它能告诉你:“这是一只猫,它在图片的左上角。”这就像是在一张平面地图上画圈。

但是,如果我们要让机器人去拿那个杯子,或者让自动驾驶汽车避开障碍物,光知道“在左上角”是不够的。我们需要知道:

  • 这个杯子离我有多远?(深度)
  • 它有多大?(尺寸)
  • 它是正着放还是歪着放?(旋转)

以前的方法就像是在教学生背死记硬背的公式,或者需要专门请一个“立体几何老师”(专门的 3D 检测头)来单独教。但这让 AI 变得很笨重,而且一旦遇到没见过的物体(比如一个奇怪的玩具),它就懵了。

2. 解决方案:Chain-of-Sight(视线链)

LocateAnything3D 的聪明之处在于,它没有直接让 AI 去猜复杂的 3D 坐标,而是模仿了人类观察世界的自然过程。作者把这个过程称为 Chain-of-Sight (CoS),也就是“视线链”。

这就好比你在玩一个**“先找位置,再猜深度”的寻宝游戏**:

  • 第一步:先找“在哪里”(2D 定位)
    就像你在一张照片里先圈出“那个红色的杯子在哪里”。这一步很简单,AI 很擅长。这就像是在地图上先插个旗子。

    • 比喻: 就像你进房间找眼镜,你首先是用眼睛扫视,看到“眼镜在桌子左边”。
  • 第二步:再猜“有多远、多大”(3D 推断)
    一旦确定了位置,AI 再根据这个位置,结合透视关系(近大远小),推断出它离你有多远、有多大。

    • 比喻: 既然知道眼镜在桌子左边,你根据桌子的透视和眼镜的大小,就能大概猜出它离你大概一米远。

关键点: 这个模型把这两个步骤串成了一个连续的对话。它不是直接输出一个复杂的 3D 坐标,而是像说话一样,先说“我在 2D 图里看到了这个框”,紧接着说“所以它在 3D 空间里是这样一个盒子”。

3. 两个聪明的“教学策略”

为了让 AI 学得更稳,作者还设计了两条“教学大纲”:

A. 由近及远(Near-to-Far)

人类看东西时,通常先关注离自己近的,再看远的。

  • 以前的做法: 像扫描仪一样,从左到右、从上到下一个个看。但这有个问题:如果左边有个很远的物体,右边有个很近的物体,AI 可能会先被远处的物体搞糊涂,导致后面全错。
  • LocateAnything3D 的做法: 强制 AI 先找最近的物体,再找远的
    • 比喻: 就像你在拥挤的房间里找东西,你肯定先看清脚边的东西,再抬头看远处的架子。因为近处的物体提供了“参照物”,帮你判断远处物体的大小和距离。

B. 由易到难(中心 -> 大小 -> 旋转)

在描述一个物体时,AI 输出的顺序也有讲究:

  1. 先说中心在哪(它在哪?这是最容易确定的)。
  2. 再说它有多大(它占多大地方?这比确定方向容易)。
  3. 最后说它怎么转的(它是歪着的吗?这是最难确定的)。
    • 比喻: 就像你描述一个人,先说“他在门口”(位置),再说“他很高”(大小),最后说“他正侧着身子”(旋转)。如果连他在哪都不知道,直接猜他怎么转,肯定猜不准。

4. 训练数据:把“杂乱的素材”变成“教科书”

为了教好这个 AI,作者收集了海量的数据(室内、室外、各种相机拍的),并把它们统一整理成了**“对话格式”**。

  • 以前:数据是散乱的,有的只有 2D 框,有的只有 3D 框。
  • 现在:所有数据都被整理成“先看 2D,再看 3D,从近到远”的标准对话。
  • 比喻: 就像把一堆杂乱的乐高积木,按照说明书重新分类打包,让 AI 学习时能顺着逻辑一步步搭建,而不是面对一堆乱砖头。

5. 成果如何?

  • 全能冠军: 在著名的 Omni3D 测试中,它的表现大幅超越了之前的所有记录,甚至比那些“作弊”(直接告诉它 2D 框位置)的模型还要强。
  • 举一反三: 它不仅能识别训练过的物体(如车、椅子),还能零样本(Zero-shot)识别它从未见过的物体(比如一个奇怪的雕塑),只要你能用文字描述出来。
  • 通用接口: 它不需要专门的 3D 模块,只需要一个通用的“语言 + 视觉”接口。你可以用文字问它,也可以直接画个框让它猜,它都能懂。

总结

LocateAnything3D 就像是一个**“懂透视的超级画家”**。它不再死记硬背复杂的几何公式,而是学会了像人类一样思考:先看清眼前的东西(2D),再结合经验推断它在空间中的样子(3D),并且按照“由近及远、由易到难”的顺序一步步推理。

这项技术让 AI 真正拥有了**“空间感”**,为未来的机器人、自动驾驶和元宇宙应用打下了坚实的基础——因为它们终于能像我们一样,真正“看懂”并“理解”这个三维世界了。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →