cs.RO 篇论文 | Gist.Science

Fine-Tuning Robot Policies While Maintaining User Privacy

本文提出了名为 PRoP 的模型无关框架，通过利用用户密钥对机器人策略权重进行数学变换，实现在保护用户偏好隐私的同时，使通用机器人能够安全地个性化适应不同用户的特定需求。

Benjamin A. Christie, Sagar Parekh, Dylan P. Losey2026-03-05💻 cs

Category-Level Object Shape and Pose Estimation in Less Than a Millisecond

本文提出了一种基于类别先验和主动形状模型的快速局部求解器，利用自洽场迭代在亚毫秒级时间内同时估计物体的形状与姿态，并提供了全局最优性证明。

Lorenzo Shaikewitz, Tim Nguyen, Luca Carlone2026-03-05💻 cs

RehearseVLA: Simulated Post-Training for VLAs with Physically-Consistent World Model

RehearseVLA 提出了一种基于物理一致世界模型的强化学习后训练框架，通过虚拟仿真替代高风险的实体交互，有效解决了视觉 - 语言 - 动作（VLA）模型在数据稀缺场景下的性能退化、任务终止检测缺失及执行效率低下等问题，仅需少量专家演示即可实现显著的性能提升。

Junjin Xiao, Yandan Yang, Xinyuan Chang + 5 more2026-03-05💻 cs

ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL Problems

本文提出了 ELMUR（具有更新/重写功能的外部层记忆），这是一种带有结构化外部记忆的 Transformer 架构，通过每层维护记忆嵌入并结合 LRU 机制进行更新，有效解决了长时程部分可观测强化学习中的依赖保持难题，在合成迷宫、POPGym 及 MIKASA-Robo 机器人操作等任务中显著超越了现有基线方法。

Egor Cherepanov, Alexey K. Kovalev, Aleksandr I. Panov2026-03-05🤖 cs.AI

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

本文提出了 TIGeR 框架，通过让视觉语言模型调用外部工具执行精确几何计算而非依赖内部感知，结合自研数据集与两阶段训练策略，成功实现了机器人任务中所需的厘米级几何推理精度。

Yi Han, Enshen Zhou, Shanyu Rong + 6 more2026-03-05🤖 cs.AI

LaViRA: Language-Vision-Robot Actions Translation for Zero-Shot Vision Language Navigation in Continuous Environments

LaViRA 提出了一种将动作分解为语言规划、视觉定位和机器人控制三个层级的零样本框架，通过协同利用不同规模多模态大模型的优势，显著提升了连续环境视觉语言导航任务在未见场景中的泛化能力与执行效率。

Hongyu Ding, Ziming Xu, Yudong Fang + 6 more2026-03-05💻 cs

SoraNav: Adaptive UAV Task-Centric Navigation via Zeroshot VLM Reasoning

本文提出了 SoraNav 框架，通过引入多模态视觉标注（MVA）将 3D 几何先验融入零样本视觉语言模型，并结合自适应决策（ADM）策略验证指令可行性，从而显著提升了无人机在复杂 3D 环境下的自然语言导航成功率与效率。

Hongyu Song, Rishabh Dev Yadav, Cheng Guo + 1 more2026-03-05💻 cs

Dynamic-ICP: Doppler-Aware Iterative Closest Point Registration for Dynamic Scenes

本文提出了 Dynamic-ICP，一种专为高动态场景设计的多普勒感知迭代最近点配准框架，它利用 FMCW 激光雷达的测速信息动态预测并补偿运动物体，从而在无外部传感器辅助的情况下显著提升了旋转稳定性和平移精度。

Dong Wang, Daniel Casado Herraez, Stefan May + 1 more2026-03-05💻 cs

Metric, inertially aligned monocular state estimation via kinetodynamic priors

该论文提出了一种结合基于 MLP 学习的变形 - 力模型与连续时间 B 样条运动学模型的单目状态估计方法，通过应用牛顿第二定律将视觉加速度与变形加速度关联，从而在柔性机器人系统中实现了鲁棒的位姿估计，并成功解决了单目视觉里程计中尺度与重力恢复的病态问题。

Jiaxin Liu, Min Li, Wanting Xu + 3 more2026-03-05💻 cs

CERNet: Class-Embedding Predictive-Coding RNN for Unified Robot Motion, Recognition, and Confidence Estimation

本文提出了一种名为 CERNet 的统一分层预测编码循环神经网络模型，通过动态更新的类嵌入向量，在单一框架内实现了机器人运动生成、实时意图识别及基于预测误差的内在置信度估计，并在人形机器人实验中显著降低了轨迹重演误差并验证了其在线识别与抗干扰能力。

Hiroki Sawada, Alexandre Pitti, Mathias Quoy2026-03-05💻 cs

Agile Flight Emerges from Multi-Agent Competitive Racing

该论文提出了一种通过多智能体竞争和稀疏的高层获胜目标来训练强化学习智能体的方法，证明了这种方法不仅能涌现出敏捷飞行和策略行为，而且在环境复杂度增加时比传统的单智能体训练范式表现更优，并实现了更可靠的仿真到现实迁移以及对未见对手的泛化能力。

Vineet Pasumarti, Lorenzo Bianchi, Antonio Loquercio2026-03-05🤖 cs.AI

TOLEBI: Learning Fault-Tolerant Bipedal Locomotion via Online Status Estimation and Fallibility Rewards

本文提出了名为 TOLEBI 的故障容错学习框架，通过在线状态估计模块和故障奖励机制，使双足机器人能够在仿真中应对关节锁死、断电及外部干扰等故障，并成功将策略迁移至真实机器人 TOCABI 上实现容错行走。

Hokyun Lee, Woo-Jeong Baek, Junhyeok Cha + 1 more2026-03-05💻 cs

Aerial Manipulation with Contact-Aware Onboard Perception and Hybrid Control

本文提出了一种完全基于机载感知的空中操作框架，通过融合接触一致性增强的视觉惯性里程计、图像视觉伺服及混合力位控制，实现了无需外部动捕系统的精准接触操作与稳定力控。

Yuanzhu Zhan, Yufei Jiang, Muqing Cao + 1 more2026-03-05💻 cs

H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model

本文提出了一种名为 H-WM 的分层世界模型，该模型通过统一框架联合预测逻辑与视觉状态转换，将符号推理的长程鲁棒性与视觉感知相结合，从而有效缓解长程任务中的误差累积并提升机器人执行能力。

Jinbang Huang, Wenyuan Chen, Zhiyuan Li + 9 more2026-03-05💻 cs

Learning Physical Principles from Interaction: Self-Evolving Planning via Test-Time Memory

本文提出了 PhysMem 框架，使视觉语言模型机器人能够在测试阶段通过“先验证后应用”的机制从交互中自主学习物理原理，从而在不更新模型参数的情况下显著提升物体操作任务的成功率。

Haoyang Li, Yang You, Hao Su + 1 more2026-03-05🤖 cs.AI

FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation

本文提出了 FlowCorrect，一种模块化的交互式模仿学习方法，它利用稀疏的相对人类校正指令在部署阶段对生成式流匹配操作策略进行局部自适应调整，从而在不重新训练骨干网络的情况下，显著提升了机器人在分布偏移下的任务成功率并保留了原有性能。

Edgar Welte, Yitian Shi, Rosa Wolf + 2 more2026-03-05🤖 cs.LG

LiteVLA-Edge: Quantized On-Device Multimodal Control for Embedded Robotics

本文提出了 LiteVLA-Edge，一种专为嵌入式机器人设计的量化多模态控制方案，通过结合监督微调、4 位 GGUF 量化及 GPU 加速推理，实现了在 Jetson Orin 硬件上完全离线的端到端实时控制（约 6.6 Hz），为资源受限设备上的 VLA 部署提供了实用的系统路径。

Justin Williams, Kishor Datta Gupta, Roy George + 1 more2026-03-05🤖 cs.AI

Multi-Agent-Based Simulation of Archaeological Mobility in Uneven Landscapes

本文提出了一种结合真实地形重建、异质智能体建模与强化学习自适应导航策略的多智能体模拟框架，用于在复杂起伏景观中高效模拟并分析考古学背景下人类群体及动物运输系统的移动行为与交互机制。

Chairi Kiourt, Vassilis Evangelidis, Dimitris Grigoropoulos2026-03-05🤖 cs.AI

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

本文提出了 Phys4D，一种通过三阶段训练范式（包括大规模伪监督预训练、基于仿真的监督微调及强化学习）将视频扩散模型转化为物理一致 4D 世界表示的方法，显著提升了生成内容在细粒度时空动态与物理合理性方面的表现。

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Real-time loosely coupled GNSS and IMU integration via Factor Graph Optimization

本文提出了一种基于因子图优化的实时松耦合 GNSS/IMU 融合架构，通过在城市峡谷等挑战性环境中的实验验证，分析了其在保证实时运行和服务可用性的同时，与批处理精度之间存在的权衡关系。

Radu-Andrei Cioaca, Cristian Rusu, Paul Irofti + 3 more2026-03-05🤖 cs.LG