cs.RO 篇论文 | Gist.Science

ICLR: In-Context Imitation Learning with Visual Reasoning

该论文提出了 ICLR 框架，通过在演示提示中引入结构化的视觉推理轨迹（即图像空间中的预期未来轨迹），并利用统一自回归 Transformer 联合生成推理过程与底层动作，从而显著提升了机器人在复杂模糊任务中的上下文模仿学习能力、成功率及泛化性。

Toan Nguyen, Weiduo Yuan, Songlin Wei, Hui Li, Daniel Seita, Yue Wang2026-03-10💻 cs

ACCURATE: Arbitrary-shaped Continuum Reconstruction Under Robust Adaptive Two-view Estimation

本文提出了名为 ACCURATE 的三维重建框架，通过结合图像分割神经网络与几何约束拓扑遍历及动态规划算法，实现了对导丝、导管等任意形状细长连续体在双视图 X 射线成像下的高精度、抗遮挡重建，在模拟与真实数据集上的平均绝对误差均低于 1.0 毫米。

Yaozhi Zhang, Shun Yu, Yugang Zhang, Yang Liu2026-03-10💻 cs

ReconDrive: Fast Feed-Forward 4D Gaussian Splatting for Autonomous Driving Scene Reconstruction

ReconDrive 提出了一种基于 VGGT 基础模型改进的快馈前向框架，通过混合高斯预测头和解耦静态动态 4D 组合策略，在 nuScenes 数据集上实现了兼具高保真度与实时性的自动驾驶场景 4D 高斯泼溅重建，有效解决了现有方法在可扩展性与图像质量之间的权衡难题。

Haibao Yu, Kuntao Xiao, Jiahang Wang, Ruiyang Hao, Yuxin Huang, Guoran Hu, Haifang Qin, Bowen Jing, Yuntian Bo, Ping Luo2026-03-10💻 cs

Approximate Imitation Learning for Event-based Quadrotor Flight in Cluttered Environments

本文提出了一种名为“近似模仿学习”的新框架，通过利用离线数据集学习任务表征并结合仅依赖轻量级状态信息的在线训练，解决了事件相机数据仿真成本高昂的难题，成功实现了 quadrotor 仅凭单目事件相机在杂乱环境中以高达 9.8 米/秒的速度进行鲁棒飞行。

Nico Messikommer, Jiaxu Xing, Leonard Bauersfeld, Marco Cannici, Elie Aljalbout, Davide Scaramuzza2026-03-10💻 cs

FeasibleCap: Real-Time Embodiment Constraint Guidance for In-the-Wild Robot Demonstration Collection

FeasibleCap 是一种无需机器人硬件或头戴设备的 gripper-in-hand 数据采集系统，它通过实时检查可达性、关节速度限制和碰撞约束，并利用设备端视觉与触觉反馈引导演示者修正动作，从而在采集阶段即确保轨迹对目标机器人的可执行性，显著提高了采集数据的有效性和跨平台迁移能力。

Zi Yin, Fanhong Li, Yun Gui, Jia Liu2026-03-10💻 cs

Model-Based and Neural-Aided Approaches for Dog Dead Reckoning

该论文提出了三种仅利用惯性传感器实现犬类（包括生物犬和机器犬）精准航位推算的算法，并通过自研的 DogMotion 设备采集的真实数据与机器犬数据集验证，证明其神经辅助方法在定位精度上优于传统模型，实现了误差低于 10% 的轻量级低成本解决方案。

Gal Versano. Itai Savin, Itzik Klein2026-03-10💻 cs

SMAT: Staged Multi-Agent Training for Co-Adaptive Exoskeleton Control

该论文提出了一种名为 SMAT 的四阶段多智能体训练课程，通过模拟人类自然适应过程来训练髋部外骨骼控制器，使其在无需针对特定用户重新训练的情况下，即可在物理实验中实现一致的辅助效果并显著降低肌肉激活度。

Yifei Yuan, Ghaith Androwis, Xianlian Zhou2026-03-10🤖 cs.LG

GeoLoco: Leveraging 3D Geometric Priors from Visual Foundation Model for Robust RGB-Only Humanoid Locomotion

GeoLoco 提出了一种纯视觉驱动的机器人运动框架，通过利用冻结的视觉基础模型中的几何先验，将单目 RGB 图像转化为高维 3D 潜在表示，并结合 proprioceptive-query 交叉注意力机制与双头辅助学习策略，实现了在 Unitree G1 人形机器人上针对复杂地形的鲁棒零样本 Sim-to-Real 迁移。

Yufei Liu, Xieyuanli Chen, Hainan Pan, Chenghao Shi, Yanjie Chen, Kaihong Huang, Zhiwen Zeng, Huimin Lu2026-03-10💻 cs

Exoskeleton Control through Learning to Reduce Biological Joint Moments in Simulations

本文提出了一种结合强化学习与数据驱动验证的框架，用于训练模拟环境下的外骨骼控制器以减小生物关节力矩，并通过公开步态数据集验证了其在不同速度与坡度下对关节力矩预测的高度一致性，同时揭示了从模拟到现实转移中存在的挑战。

Zihang You, Xianlian Zhou2026-03-10🤖 cs.LG

PanoDP: Learning Collision-Free Navigation with Panoramic Depth and Differentiable Physics

本文提出了 PanoDP 框架，通过结合四视角全景深度感知与基于可微物理的密集训练信号，实现了在部分可观测及动态障碍物环境下的无通信自主避障导航，并在多项基准测试中显著提升了碰撞避免率与任务完成率。

Hao Zhong, Pei Chi, Jiang Zhao, Shenghai Yuan, Xuyang Gao, Thien-Minh Nguyen, Lihua Xie2026-03-10💻 cs

TempoFit: Plug-and-Play Layer-Wise Temporal KV Memory for Long-Horizon Vision-Language-Action Manipulation

TempoFit 提出了一种无需训练的即插即用层间时序 KV 记忆机制，通过重用预训练 VLA 模型中的前缀注意力键值对并引入帧间隙时间偏置，在保持低延迟的同时显著提升了长程视觉语言动作操纵任务的成功率。

Jun Sun, Boyu Yang, Jiahao Zhang, Ning Ma, Chencheng Wu, Siqing Zhang, Yiou Huang, Qiufeng Wang, Shan Liang, Yaran Chen2026-03-10💻 cs

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

本文提出了名为 AtomicVLA 的统一规划与执行框架，通过技能引导的混合专家模型（SG-MoE）和灵活路由编码器构建可扩展的原子技能库，有效解决了现有视觉 - 语言 - 动作（VLA）模型在长程任务规划、多步问题解决及持续技能学习方面的局限性，并在仿真与真实世界实验中显著超越了现有基线模型。

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

Multi-Agent Off-World Exploration for Sparse Evidence Discovery via Gaussian Belief Mapping and Dual-Domain Coverage

该论文提出了一种基于高斯信念映射与双域覆盖的多智能体离地探索框架，通过联合建模兴趣与风险信念及轨迹意图，在稀疏证据发现任务中有效平衡了信息获取与操作安全，并在模拟月球环境中展现出优于现有方法的鲁棒性与探索效率。

Zhuoran Qiao, Tianxin Hu, Thien-Minh Nguyen, Shenghai Yuan2026-03-10💻 cs

DAISS: Phase-Aware Imitation Learning for Dual-Arm Robotic Ultrasound-Guided Interventions

本文提出了 DAISS 系统，通过基于 NDI 的遥操作平台采集高保真双臂演示数据，并结合融合实时超声反馈与外部视觉的相位感知模仿学习策略，实现了在超声引导下精准、协调的机器人双臂介入操作。

Feng Li, Pei Liu, Shiting Wang, Ning Wang, Zhongliang Jiang, Nassir Navab, Yuan Bi2026-03-10💻 cs

Low-Cost Teleoperation Extension for Mobile Manipulators

本文提出了一种基于智能手机、双臂和脚踏板的开源低成本遥操作框架，实现了移动双机械臂的直观全身控制，在无需昂贵 VR 设备的情况下显著提升了任务表现并降低了认知负荷。

Danil Belov, Artem Erkhov, Yaroslav Savotin, Tatiana Podladchikova, Pavel Osinenko2026-03-10💻 cs

UniUncer: Unified Dynamic Static Uncertainty for End to End Driving

UniUncer 提出了一种轻量级统一框架，通过联合估计静态地图与动态智能体的不确定性，并将其融入端到端驾驶规划器的查询与门控机制中，在几乎不增加计算开销的情况下显著提升了自动驾驶轨迹预测的精度与规划可靠性。

Yu Gao, Jijun Wang, Zongzheng Zhang, Anqing Jiang, Yiru Wang, Yuwen Heng, Shuo Wang, Hao Sun, Zhangfeng Hu, Hao Zhao2026-03-10💻 cs

RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation

本文提出了 RoboPCA 框架，通过自动从人类演示中构建姿态中心 affordance 标注的数据管道（Human2Afford），实现了对接触区域与姿态的联合预测，从而显著提升了机器人基于指令进行物体操作的能力与泛化性。

Zhanqi Xiao, Ruiping Wang, Xilin Chen2026-03-10💻 cs

C $^2$ -Explorer: Contiguity-Driven Task Allocation with Connectivity-Aware Task Representation for Decentralized Multi-UAV Exploration

本文提出了 C $^2$ -Explorer 框架，通过构建连通性图分解未知区域并引入基于图的邻域惩罚机制来优化任务分配，从而在通信受限的分布式多无人机探索中显著提升了任务分配的连续性与整体探索效率。

Xinlu Yan, Mingjie Zhang, Yuhao Fang, Yanke Sun, Jun Ma, Youmin Gong, Boyu Zhou, Jie Mei2026-03-10💻 cs

AeroPlace-Flow: Language-Grounded Object Placement for Aerial Manipulators via Visual Foresight and Object Flow

本文提出了 AeroPlace-Flow，一种无需训练的语言引导空中机械臂物体放置框架，它通过结合视觉预见、3D 几何推理与物体流，将自然语言指令转化为无需预定义位姿的碰撞感知放置轨迹，并在仿真与真实实验中实现了 75% 的平均成功率。

Sarthak Mishra, Rishabh Dev Yadav, Naveen Nair, Wei Pan, Spandan Roy2026-03-10💻 cs

Directing the Robot: Scaffolding Creative Human-AI-Robot Interaction

该论文提出将人机机器人交互重新框架为“支架”模式，即通过 AI 作为中介，让人类在创意、教育和公共环境中以“执行导演”的身份持续主导并塑造机器人行为，从而超越传统的效率导向，实现人类创造力与机器人执行力的深度协作。

Jordan Aiko Deja, Isidro Butaslac, Nicko Reginio Caluya, Maheshya Weerasinghe2026-03-10💻 cs

cs.RO