FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

本文提出了 FindAnything 框架,通过基于 eSAM 分割的物体级特征聚合,将视觉语言信息高效融入致密体素子地图,从而在显著降低计算与存储开销的同时,实现了适用于大型未知环境及资源受限设备(如微型飞行器)的实时开放词汇与物体中心建图。

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你派出一架微型无人机(就像一只机器蜂鸟)去执行一项紧急任务:在一栋陌生的大楼里寻找“灭火器”或者最近的“安全出口”。

传统的机器人地图就像是一张只有黑白线条的建筑蓝图。它知道哪里是墙,哪里是路,能帮机器人不撞墙。但是,如果你问机器人:“灭火器在哪?”它只能一脸茫然,因为它只认得几何形状,认不出“红色的圆柱体”就是灭火器。

这篇论文介绍了一个名为 FindAnything(万物寻踪) 的新系统,它给机器人装上了一双“懂人类语言的眼睛”和一个“超级大脑”。

1. 核心概念:从“死记硬背”到“举一反三”

  • 旧方法(死记硬背): 以前的机器人地图只能识别预先设定好的东西,比如“这是椅子”、“那是桌子”。如果机器人遇到一个没见过的东西,或者你问它“哪里有红色的东西?”,它就傻了。
  • FindAnything(举一反三): 这个新系统利用了像 CLIP 这样的人工智能大模型。这些模型就像读过全人类所有书和看过所有图片的超级图书管理员。它不需要你提前告诉它什么是“灭火器”,你只需要用自然语言问它,它就能在地图里把符合“灭火器”特征的地方找出来,哪怕它以前从未见过这个具体的灭火器。

2. 它是如何工作的?(三个关键步骤)

为了在资源有限的无人机上实现这个功能,作者设计了一套非常聪明的策略:

第一步:把大地图切成“小拼图”(分块存储)

想象你要画一张整个城市的地图,如果画在一张巨大的纸上,电脑会卡死。
FindAnything 把世界切成了很多小的“子地图”(Submaps),就像把大拼图拆成了很多小块。

  • 好处: 无人机飞到哪里,就只加载和更新那一小块拼图。这样既省内存,又跑得快,哪怕是在巨大的商场或森林里也能轻松应对。

第二步:给物体贴上“标签”而不是“像素”(以物体为中心)

这是最精彩的部分。

  • 笨办法: 传统的做法是把每一个像素点都贴上标签。想象一下,给一张照片里的每一粒灰尘都贴上“这是桌子”的标签,数据量会爆炸,无人机根本带不动。
  • FindAnything 的聪明办法: 它先让 AI 把图片里的物体“圈”出来(比如圈出整个杯子),然后只给这个贴上标签。
    • 比喻: 就像整理衣柜。笨办法是把每件衣服上的每一根线头都分类;FindAnything 是把整件衣服叠好,然后给这件衣服贴个标签叫“衬衫”。
    • 它利用一种叫 eSAM 的技术,快速把图片里的物体分割成小块,然后把这些小块的特征(比如颜色、纹理)汇聚起来,变成一个“物体特征包”。

第三步:把“语言”变成“地图坐标”(视觉 - 语言融合)

当你在无人机上输入“找灭火器”时:

  1. 系统把“灭火器”这三个字转换成 AI 能懂的数学向量(就像把文字变成了密码)。
  2. 系统拿着这个“密码”,去扫描地图里所有的“物体特征包”。
  3. 一旦发现有物体的特征和“灭火器”的密码很匹配,系统就会在 3D 地图上高亮显示那个位置。

3. 为什么它很厉害?(实际效果)

  • 快如闪电: 在普通的电脑上,处理这种复杂的语言搜索可能需要几分钟甚至几小时。但 FindAnything 优化得非常好,能在无人机飞行的同时实时完成搜索和建图。
  • 省内存: 它占用的内存只有同类顶尖技术的 40% 左右。这意味着它可以在像无人机这样电池小、算力弱的设备上运行。
  • 懂行: 在模拟的火灾救援实验中,当被要求寻找“灭火器”或“厨房”时,无人机不仅能飞过去,还能准确地画出这些物体的 3D 轮廓,甚至能区分“车轮”和“整辆车”(通过细分物体)。

4. 总结:它意味着什么?

FindAnything 就像是给机器人装上了人类的常识

以前,机器人是“盲人摸象”,只能摸到形状;现在,机器人变成了“有文化的探险家”,它能听懂你的指令,理解“我要找红色的、圆柱形的、能灭火的东西”,并在复杂的未知环境中,一边飞行、一边建图、一边寻找目标。

这对于未来的灾难救援(如地震、火灾)、家庭服务机器人(帮你找钥匙、找遥控器)以及自主探索(去人类去不了的地方探险)来说,是一个巨大的飞跃。它让机器人不再只是冷冰冰的机器,而是真正能听懂人话、理解环境的智能伙伴。