ActivePose: Active 6D Object Pose Estimation and Tracking for Robotic Manipulation

本文提出了一种名为 ActivePose 的主动 6D 物体位姿估计与跟踪框架,通过结合视觉语言模型与“机器人想象”机制动态识别并解决位姿歧义,并利用扩散策略生成主动相机轨迹以维持目标可见性,从而显著提升了机器人操作中的位姿估计精度与鲁棒性。

Sheng Liu, Zhe Li, Weiheng Wang, Han Sun, Heng Zhang, Hongpeng Chen, Yusen Qin, Arash Ajoudani, Yizhao Wang

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ActivePose 的机器人系统。简单来说,它解决了一个让机器人非常头疼的问题:“我到底抓的是个什么东西?它现在是什么姿势?”

想象一下,你正在玩一个盲盒游戏,或者在黑暗中摸索一个形状奇怪的金属零件。如果只看一眼,你根本分不清它是正着放还是倒着放,甚至分不清哪边是头哪边是尾。这就是机器人面临的"6D 位姿估计”难题。

ActivePose 就像给机器人装上了一双**“会思考的眼睛”“会主动调整位置的脑袋”**。它不再被动地等待指令,而是主动去“看”清楚物体。

我们可以把 ActivePose 的工作流程比作一个**“侦探破案”**的过程,分为两个阶段:

第一阶段:主动破案(消除疑惑)

场景:机器人第一次看到桌上的一个金属零件(比如一个对称的螺母)。
问题:因为零件长得太对称,或者表面没有纹理,机器人看一眼(比如从正上方看)会非常困惑:“这到底是正着放还是倒着放?我有 50% 的把握是 A,50% 的把握是 B。”这就叫**“位姿模糊”**。

ActivePose 怎么做?

  1. 大脑预演(机器人想象力)
    在机器人还没动之前,它的“大脑”里已经存了这个零件的 3D 模型(CAD 图纸)。它会先在脑子里模拟:“如果我走到左边看,会是什么样?如果走到右边看,又会是什么样?”

    • 比喻:就像侦探在脑子里预演:“如果我从窗户看进去,能看清凶手吗?如果我从门缝看,能看清吗?”
  2. 请教“超级顾问”(VLM 大模型)
    机器人把当前的模糊画面,以及它预演的几种“最佳视角”的模拟图,发给一个视觉语言大模型(VLM)(比如类似 ChatGPT 的视觉版)。

    • 比喻:机器人问顾问:“你看这张图,能确定物体姿势吗?”顾问回答:“不能,太模糊了。但如果你走到那个角落(下一个最佳视角),就能看清了。”
  3. 主动移动(寻找最佳视角)
    一旦确认当前视角看不清,机器人就会控制它的“感知手臂”(带着摄像头的手臂),移动到顾问推荐的那个**“最佳视角”**去重新拍摄。

    • 比喻:就像你看不清文件上的小字,不会死盯着看,而是会站起来换个角度,或者拿手电筒照一下,直到看清为止。

结果:通过这一套“预演 - 咨询 - 移动”的循环,机器人能迅速消除疑惑,精准地知道物体在哪里、怎么摆放。


第二阶段:主动跟踪(防止跟丢)

场景:机器人开始干活了,比如要把零件插进孔里(装配任务)。在这个过程中,零件可能会动,或者被机器人的手臂挡住(遮挡)。
问题:传统的机器人摄像头是固定的,一旦零件被挡住,或者跑出了视野,机器人就“瞎”了,任务就会失败。

ActivePose 怎么做?

  1. 像跟拍摄影师一样
    它训练了一个基于**“扩散模型”(一种生成式 AI)的跟踪策略。这个策略不像死板的程序,而像是一个经验丰富的跟拍摄影师**。

    • 比喻:普通的摄像头是“定焦镜头”,物体一动就拍不到了。ActivePose 的摄像头是“手持稳定器 + 跟拍摄影师”,它会预判物体的运动轨迹。
  2. 提前预判,主动跟随
    当机器人手臂去抓零件时,ActivePose 会预测:“哎呀,手臂马上要挡住零件了!”于是,它会在遮挡发生之前,就主动调整摄像头的位置,绕到侧面去,确保零件始终在镜头里。

    • 比喻:就像足球比赛的跟拍摄影师,球员跑向哪里,摄影师就提前滑步到哪里,保证球员永远在画面中心,不会跑丢。

结果:即使零件在动,或者被挡住了一瞬间,机器人也能迅速“找回”目标,不会像传统机器人那样一旦跟丢就彻底瘫痪。


总结:为什么它很厉害?

  • 传统机器人:像个**“呆板的保安”**。站在原地死盯着看,看不清就瞎猜,一旦目标被挡住就报警(任务失败)。
  • ActivePose:像个**“机灵的侦探 + 专业摄影师”**。
    • 看不清?它主动换个角度,甚至在大脑里预演,直到看清为止。
    • 目标动了?它主动调整位置,死死咬住目标,绝不跟丢。

实际效果
论文在仿真环境和真实的机器人双臂上做了测试(比如把钉子插进孔里的工业任务)。结果显示,ActivePose 的成功率远高于传统方法。特别是在那些长得像、没纹理、容易让人(和机器人)看晕的金属零件上,它的表现简直是“降维打击”。

一句话总结
ActivePose 让机器人学会了**“不懂就问(问 AI),看不清就动(主动换视角),跟丢了就追(主动跟拍)”**,从而能更聪明、更可靠地完成复杂的抓取和装配工作。