Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

该论文针对连续环境视觉语言导航任务中监督信号稀疏及错误累积问题,提出了步感知的对比对齐(SACA)框架,通过基于感知的逐步审计机制从不完美的轨迹中提取密集监督信号,并结合场景条件分组策略实现动态优化,从而在基准测试中取得了最先进的性能。

Haoyuan Li, Rui Liu, Hehe Fan, Yi YangWed, 11 Ma💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

本文提出了首个面向 360°全景环境的整体 affordance 定位任务,通过构建 360-AGD 数据集及提出包含畸变感知谱调制器和全向球面致密化头的 PanoAffordanceNet 框架,有效解决了全景图像中的几何畸变与语义分散问题,显著提升了具身智能的场景级感知能力。

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun YangWed, 11 Ma⚡ eess

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

本文提出了名为 TIMID 的新架构,旨在通过结合视频与任务提示,利用弱监督学习检测机器人执行高难度任务时出现的复杂时间依赖性错误,并借助多机器人仿真数据集解决了错误执行数据稀缺及零样本仿真到现实评估的难题。

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)Wed, 11 Ma💻 cs

Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning

本文提出了一种动力学感知策略学习(DAPL)框架,通过显式建模接触诱导的物体动力学来指导强化学习,从而在无需人工接触启发式规则或复杂奖励设计的情况下,使机器人在杂乱场景中涌现出超越传统抓取、遥操作及现有方法的非抓取式灵巧操作能力。

Yixin Zheng, Jiangran Lyu, Yifan Zhang, Jiayi Chen, Mi Yan, Yuntian Deng, Xuesong Shi, Xiaoguang Zhao, Yizhou Wang, Zhizheng Zhang, He WangWed, 11 Ma🤖 cs.AI

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

本文通过在 ROS 中实现并对比五种协作定位算法(CCL、DCL、StCL、CI 和 Standard-CL)在弱数据关联与鲁棒检测条件下的蒙特卡洛仿真,揭示了各方法在精度与一致性之间的权衡,指出 CI 算法在保持竞争力的同时实现了最佳平衡,而 StCL 和 Standard-CL 虽精度最高但存在严重不一致性,DCL 则因隐式正则化机制在挑战性条件下表现出卓越的稳定性。

Nivand Khosravi, Meysam Basiri, Rodrigo VenturaWed, 11 Ma💻 cs

Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization

本文提出了名为 KDMR 的框架,通过将人形机器人运动重定向建模为多接触全身轨迹优化问题,并显式结合刚体动力学与地面反作用力数据,有效解决了传统纯运动学方法导致的物理不一致性问题,从而生成了动力学可行且平滑的参考轨迹,显著提升了下游模仿学习策略的训练效率与 locomotion 稳定性。

Xiaoyu Zhang, Steven Haener, Varun Madabushi, Maegan TuckerWed, 11 Ma💻 cs

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

本文提出了 TiPToP,一种结合预训练视觉基础模型与任务运动规划器(TAMP)的模块化开放词汇系统,仅需 RGB 图像和自然语言指令即可在零机器人数据的情况下解决多步操作任务,并在仿真与真实世界中展现出优于基于 350 小时演示微调的 VLA 模型的性能。

William Shen, Nishanth Kumar, Sahit Chintalapudi, Jie Wang, Christopher Watson, Edward Hu, Jing Cao, Dinesh Jayaraman, Leslie Pack Kaelbling, Tomás Lozano-PérezWed, 11 Ma💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

该论文提出了一种利用预训练视觉 - 语言模型(VLM)从少量演示中学习抽象符号世界模型的方法,通过自动构建和筛选谓词,使机器人能够在未见过的复杂场景中实现零样本泛化,从而解决长视野的决策规划问题。

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack KaelblingTue, 10 Ma🤖 cs.LG