ActivePose: Active 6D Object Pose Estimation and Tracking for Robotic Manipulation

本文提出了一种名为 ActivePose 的主动 6D 物体位姿估计与跟踪框架,通过结合视觉语言模型与“机器人想象”机制动态识别并解决位姿歧义,并利用扩散策略生成主动相机轨迹以维持目标可见性,从而显著提升了机器人操作中的位姿估计精度与鲁棒性。

Sheng Liu, Zhe Li, Weiheng Wang, Han Sun, Heng Zhang, Hongpeng Chen, Yusen Qin, Arash Ajoudani, Yizhao Wang2026-03-10💻 cs

GeoAware-VLA: Implicit Geometry Aware Vision-Language-Action Model

本文提出了 GeoAware-VLA,一种通过集成预训练几何视觉模型的特征来增强视点不变性的视觉 - 语言 - 动作模型,该方法在无需重新训练视觉编码器或依赖显式 3D 数据的情况下,显著提升了机器人在未见视角下的零样本泛化能力,并在仿真与真实物理环境中均取得了优异表现。

Ali Abouzeid, Malak Mansour, Qinbo Sun, Zezhou Sun, Dezhen Song2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

本文提出了首个针对视觉几何基础 Transformer(VGGT)的量化框架 QuantVGGT,通过引入双平滑细粒度量化与噪声过滤多样化采样技术,有效解决了特殊令牌导致的重尾分布及多视图数据校准不稳定问题,在实现显著内存缩减与加速的同时保持了极高的重建精度。

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs