ActivePose: Active 6D Object Pose Estimation and Tracking for Robotic Manipulation

本文提出了一种名为 ActivePose 的主动 6D 物体位姿估计与跟踪框架,通过结合视觉语言模型与“机器人想象”机制动态识别并解决位姿歧义,并利用扩散策略生成主动相机轨迹以维持目标可见性,从而显著提升了机器人操作中的位姿估计精度与鲁棒性。

Sheng Liu, Zhe Li, Weiheng Wang, Han Sun, Heng Zhang, Hongpeng Chen, Yusen Qin, Arash Ajoudani, Yizhao Wang2026-03-10💻 cs

GeoAware-VLA: Implicit Geometry Aware Vision-Language-Action Model

本文提出了 GeoAware-VLA,一种通过集成预训练几何视觉模型的特征来增强视点不变性的视觉 - 语言 - 动作模型,该方法在无需重新训练视觉编码器或依赖显式 3D 数据的情况下,显著提升了机器人在未见视角下的零样本泛化能力,并在仿真与真实物理环境中均取得了优异表现。

Ali Abouzeid, Malak Mansour, Qinbo Sun, Zezhou Sun, Dezhen Song2026-03-10💻 cs