cs.RO 篇论文 | Gist.Science

$M^2$ -Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

本文提出了 $M^2$ -Occ 框架，通过多视角掩码重建模块和特征记忆模块，有效解决了多相机输入不完整场景下的 3D 语义占据预测问题，显著提升了自动驾驶系统在相机缺失情况下的几何结构与语义一致性。

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun YangWed, 11 Ma⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

该论文针对连续环境视觉语言导航任务中监督信号稀疏及错误累积问题，提出了步感知的对比对齐（SACA）框架，通过基于感知的逐步审计机制从不完美的轨迹中提取密集监督信号，并结合场景条件分组策略实现动态优化，从而在基准测试中取得了最先进的性能。

Haoyuan Li, Rui Liu, Hehe Fan, Yi YangWed, 11 Ma💻 cs

Caterpillar-Inspired Spring-Based Compressive Continuum Robot for Bristle-based Exploration

本文提出了一种受毛毛虫启发的弹簧基压缩连续体机器人，该机器人通过腱驱动实现弯曲与轴向伸缩的耦合运动，并集成人工刚毛接触传感器，从而为商业机械臂提供了一种低成本、高适应性的受限空间探索与表面感知解决方案。

Zhixian Hu, Yu She, Juan WachsWed, 11 Ma💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

本文提出了首个面向 360°全景环境的整体 affordance 定位任务，通过构建 360-AGD 数据集及提出包含畸变感知谱调制器和全向球面致密化头的 PanoAffordanceNet 框架，有效解决了全景图像中的几何畸变与语义分散问题，显著提升了具身智能的场景级感知能力。

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun YangWed, 11 Ma⚡ eess

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

本文提出了 MuxGel，一种通过棋盘格涂层实现空间复用并结合基于 U-Net 的深度学习重建框架，从而在单一 GelSight 风格传感器中同时获取高分辨率外部视觉与接触触觉信息的双模态感知系统。

Zhixian Hu, Zhengtong Xu, Sheeraz Athar, Juan Wachs, Yu SheWed, 11 Ma💻 cs

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

本文提出了名为 TIMID 的新架构，旨在通过结合视频与任务提示，利用弱监督学习检测机器人执行高难度任务时出现的复杂时间依赖性错误，并借助多机器人仿真数据集解决了错误执行数据稀缺及零样本仿真到现实评估的难题。

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)Wed, 11 Ma💻 cs

Lightweight 3D LiDAR-Based UAV Tracking: An Adaptive Extended Kalman Filtering Approach

本文提出了一种基于自适应扩展卡尔曼滤波的轻量级 3D LiDAR 无人机跟踪系统，通过动态调整噪声协方差矩阵和引入恢复机制，有效解决了稀疏点云数据下的跟踪难题，在 GPS 拒止环境中实现了高精度且鲁棒的相对定位。

Nivand Khosravi, Meysam Basiri, Rodrigo VenturaWed, 11 Ma⚡ eess

Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning

本文提出了一种动力学感知策略学习（DAPL）框架，通过显式建模接触诱导的物体动力学来指导强化学习，从而在无需人工接触启发式规则或复杂奖励设计的情况下，使机器人在杂乱场景中涌现出超越传统抓取、遥操作及现有方法的非抓取式灵巧操作能力。

Yixin Zheng, Jiangran Lyu, Yifan Zhang, Jiayi Chen, Mi Yan, Yuntian Deng, Xuesong Shi, Xiaoguang Zhao, Yizhou Wang, Zhizheng Zhang, He WangWed, 11 Ma🤖 cs.AI

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

本文通过在 ROS 中实现并对比五种协作定位算法（CCL、DCL、StCL、CI 和 Standard-CL）在弱数据关联与鲁棒检测条件下的蒙特卡洛仿真，揭示了各方法在精度与一致性之间的权衡，指出 CI 算法在保持竞争力的同时实现了最佳平衡，而 StCL 和 Standard-CL 虽精度最高但存在严重不一致性，DCL 则因隐式正则化机制在挑战性条件下表现出卓越的稳定性。

Nivand Khosravi, Meysam Basiri, Rodrigo VenturaWed, 11 Ma💻 cs

NanoBench: A Multi-Task Benchmark Dataset for Nano-Quadrotor System Identification, Control, and State Estimation

本文介绍了 NanoBench，这是一个基于 Crazyflie 2.1 微型四旋翼飞行器采集的开源多任务基准数据集，通过提供包含执行器指令、控制器内部状态及估计器输出的高精度同步数据，填补了现有基准在纳米级飞行器系统辨识、控制与状态估计研究中的空白。

Syed Izzat Ullah, Jose BacaWed, 11 Ma⚡ eess

Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization

本文提出了名为 KDMR 的框架，通过将人形机器人运动重定向建模为多接触全身轨迹优化问题，并显式结合刚体动力学与地面反作用力数据，有效解决了传统纯运动学方法导致的物理不一致性问题，从而生成了动力学可行且平滑的参考轨迹，显著提升了下游模仿学习策略的训练效率与 locomotion 稳定性。

Xiaoyu Zhang, Steven Haener, Varun Madabushi, Maegan TuckerWed, 11 Ma💻 cs

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

本文提出了 BEACON 方法，通过结合多视角 RGB-D 观测与视觉语言模型，在包含遮挡区域的局部鸟瞰图空间中预测语言条件导航的可行度热力图，从而显著提升了机器人在遮挡场景下的目标定位精度。

Xinyu Gao, Gang Chen, Javier Alonso-MoraWed, 11 Ma🤖 cs.AI

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

本文提出了 TiPToP，一种结合预训练视觉基础模型与任务运动规划器（TAMP）的模块化开放词汇系统，仅需 RGB 图像和自然语言指令即可在零机器人数据的情况下解决多步操作任务，并在仿真与真实世界中展现出优于基于 350 小时演示微调的 VLA 模型的性能。

William Shen, Nishanth Kumar, Sahit Chintalapudi, Jie Wang, Christopher Watson, Edward Hu, Jing Cao, Dinesh Jayaraman, Leslie Pack Kaelbling, Tomás Lozano-PérezWed, 11 Ma💻 cs

Utility Theory based Cognitive Modeling in the Application of Robotics: A Survey

本文综述了基于效用理论的认知建模在机器人领域的应用，探讨了从行为基机器人到价值系统的演进、其在单/多智能体及人机交互中的作用，并提出了未来的研究方向与开放性问题。

Qin YangTue, 10 Ma💻 cs

Influence-Based Reward Modulation for Implicit Communication in Human-Robot Interaction

本文提出了一种基于转移熵的奖励调制方法，通过在部分可观测马尔可夫决策过程中动态调节智能体间的相互影响力，在不显式建模人类意图或依赖先验知识的情况下，有效促进了人机协作中的隐式沟通并提升了交互性能。

Haoyang Jiang, Elizabeth A. Croft, Michael G. BurkeTue, 10 Ma💻 cs

Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space

该论文提出了一种新的耦合振荡器网络（CON）模型，通过赋予其拉格朗日系统结构、证明全局输入 - 状态稳定性并建立输入与潜在空间力的可逆映射，实现了基于原始像素反馈的机械系统高效潜在空间闭环控制。

Maximilian Stölzle, Cosimo Della SantinaTue, 10 Ma🤖 cs.LG

xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing

本文提出了 xTED 框架，利用专门设计的扩散模型在数据层面直接对源域轨迹进行编辑以弥合跨域差距，从而在无需复杂模型架构的情况下显著提升目标域策略学习的性能。

Haoyi Niu, Qimao Chen, Tenglong Liu, Jianxiong Li, Guyue Zhou, Yi Zhang, Jianming Hu, Xianyuan ZhanTue, 10 Ma🤖 cs.LG

Variational approach to nonholonomic and inequality-constrained mechanics

本文受 Schwinger-Keldysh 作用量形式启发，构建了一个显式且通用的作用量，成功通过标量作用量的极值化恢复了非完整及不等式约束系统的正确动力学，并验证了直接数值优化的可行性。

A. Rothkopf, W. A. HorowitzTue, 10 Ma🔢 math

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

该论文提出了一种利用预训练视觉 - 语言模型（VLM）从少量演示中学习抽象符号世界模型的方法，通过自动构建和筛选谓词，使机器人能够在未见过的复杂场景中实现零样本泛化，从而解决长视野的决策规划问题。

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack KaelblingTue, 10 Ma🤖 cs.LG

Strengthening Generative Robot Policies through Predictive World Modeling

本文提出了一种名为生成预测控制（GPC）的框架，该框架通过结合专家演示克隆的生成策略、基于探索数据训练的预测世界模型以及利用模型进行前瞻优化的在线规划器，在多种仿真与真实世界的机器人操作任务中显著超越了传统的行为克隆方法。

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng YangTue, 10 Ma🤖 cs.LG

cs.RO

M2M^2M2-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs