cs.RO 篇论文 | Gist.Science

Edged USLAM: Edge-Aware Event-Based SLAM with Learning-Based Depth Priors

本文提出了 Edged USLAM，一种结合边缘感知前端与轻量级深度先验的混合视觉惯性系统，旨在通过利用事件相机的高动态范围和时序优势，解决传统 SLAM 在快速运动、低光照及光照突变场景下的失效问题，从而在复杂航拍任务中实现比纯事件或纯学习方法更稳健的定位与建图。

Sebnem Sarıözkan, Hürkan Sahin, Olaya Álvarez-Tuñón, Erdal Kayacan2026-03-10💻 cs

Fusion-Poly: A Polyhedral Framework Based on Spatial-Temporal Fusion for 3D Multi-Object Tracking

本文提出了 Fusion-Poly，一种基于时空融合的多模态 3D 多目标跟踪框架，通过有效利用异步 LiDAR 与相机观测数据并引入频率感知匹配与轨迹估计模块，在 nuScenes 数据集上实现了 76.5% AMOTA 的当前最优性能。

Xian Wu, Yitao Wu, Xiaoyu Li, Zijia Li, Lijun Zhao, Lining Sun2026-03-10💻 cs

A General Lie-Group Framework for Continuum Soft Robot Modeling

该论文提出了一种基于 SE(3) 李群与 Cosserat 杆理论的通用建模框架，通过累积参数化方法克服了现有应变和构型方法的局限性，为各类连续体软机器人提供了统一的运动学、静力学及动力学解析表达与高效数值求解方案。

Lingxiao Xun, Benoît Rosa, Jérôme Szewczyk, Brahim Tamadazte2026-03-10💻 cs

FlowTouch: View-Invariant Visuo-Tactile Prediction

本文提出了 FlowTouch，一种利用物体局部 3D 网格编码信息并结合流匹配生成模型的新方法，旨在实现与视角无关的视触觉预测，从而有效弥合仿真与现实的差距并提升下游抓取稳定性预测能力。

Seongjin Bien, Carlo Kneissl, Tobias Jülg, Frank Fundel, Thomas Ressler-Antal, Florian Walter, Björn Ommer, Gitta Kutyniok, Wolfram Burgard2026-03-10🤖 cs.LG

Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation

Seed2Scale 提出了一种通过“小模型采集、大模型评估与目标模型学习”的异构协同机制，仅需少量种子演示即可构建自进化数据引擎，有效克服数据瓶颈并显著提升具身智能体的性能与扩展性。

Cong Tai, Zhaoyu Zheng, Haixu Long, Hansheng Wu, Zhengbin Long, Haodong Xiang, Rong Shi, Zhuo Cui, Shizhuang Zhang, Gang Qiu, He Wang, Ruifeng Li, Biao Liu, Zhenzhe Sun, Tao Shen2026-03-10💻 cs

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM

本文提出了 SAIL 框架，通过结合蒙特卡洛树搜索、自动化轨迹档案检索、视觉语言模型评分及步级反馈机制，将机器人模仿学习重构为可随测试时计算量扩展的迭代优化问题，从而在复杂任务中显著提升了泛化能力与成功率。

Makoto Sato, Yusuke Iwasawa, Yujin Tang, So Kuroki2026-03-10💻 cs

Less is More: Robust Zero-Communication 3D Pursuit-Evasion via Representational Parsimony

该论文提出了一种基于表征简约性的零通信三维追捕策略，通过精简观测接口和引入贡献门控信用分配机制，在复杂遮挡环境中实现了比全观测方法更鲁棒、抗干扰能力更强的多智能体协作追捕。

Jialin Ying, Zhihao Li, Zicheng Dong, Guohua Wu, Yihuan Liao2026-03-10💻 cs

EndoSERV: A Vision-based Endoluminal Robot Navigation System

本文提出了一种名为 EndoSERV 的新型视觉内窥镜机器人导航系统，该系统通过结合“段对结构”与“实对虚”映射技术，利用离线预训练和在线适应机制，有效解决了在组织变形、伪影及缺乏地标等挑战下内窥镜机器人的长程复杂路径定位难题，且无需真实位姿标签即可实现高精度导航。

Junyang Wu, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Hierarchical Multi-Modal Planning for Fixed-Altitude Sparse Target Search and Sampling

本文提出了一种名为 HIMoS 的分层多模态规划框架，通过结合全局路径优化与基于可微信念传播的局部轨迹生成，使自主水下机器人能够在固定高度下高效执行稀疏珊瑚的搜索与采样任务，从而克服了传统全覆盖策略能耗高及现有自适应方法依赖垂直机动成本高的问题。

Lingpeng Chen, Yuchen Zheng, Apple Pui-Yi Chui, Junfeng Wu, Ziyang Hong2026-03-10💻 cs

PhaForce: Phase-Scheduled Visual-Force Policy Learning with Slow Planning and Fast Correction for Contact-Rich Manipulation

PhaForce 提出了一种基于接触相位的视觉 - 力策略学习方法，通过结合慢速扩散规划器与快速残差校正器，有效协调了低频视觉语义规划与高频力反馈微调，从而在接触丰富的机器人操作任务中显著提升了成功率、接触质量及泛化能力。

Mingxin Wang, Zhirun Yue, Renhao Lu, Yizhe Li, Zihan Wang, Guoping Pan, Kangkang Dong, Jun Cheng, Yi Cheng, Houde Liu2026-03-10💻 cs

Perception-Aware Communication-Free Multi-UAV Coordination in the Wild

该论文提出了一种在无通信和 GNSS 信号遮挡的复杂环境（如茂密森林）中，利用机载各向异性 3D 激光雷达进行 SLAM 与感知，实现多无人机安全、可扩展且鲁棒的协同导航方法。

Manuel Boldrer, Michal Kamler, Afzal Ahmad, Martin Saska2026-03-10💻 cs

MoMaStage: Skill-State Graph Guided Planning and Closed-Loop Execution for Long-Horizon Indoor Mobile Manipulation

MoMaStage 提出了一种无需显式场景映射的结构化视觉语言框架，通过结合分层技能库与拓扑感知的技能状态图来指导任务规划，并利用闭环执行机制监测反馈以触发重规划，从而显著提升了长程室内移动操作任务的成功率与鲁棒性。

Chenxu Li, Zixuan Chen, Yetao Li, Jiapeng Xu, Hongyu Ding, Jieqi Shi, Jing Huo, Yang Gao2026-03-10💻 cs

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

本文提出了 StructBiHOI 框架，通过结合基于 Mamba 的状态空间扩散去噪器与分层变分自编码器，将长期关节规划与单帧操作细化解耦，从而实现了稳定且物理合理的双手长程手物交互生成。

Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang2026-03-10💻 cs

A Recipe for Stable Offline Multi-agent Reinforcement Learning

该论文针对离线多智能体强化学习中非线性价值分解导致的训练不稳定问题，提出了一种保持贝尔曼不动点的尺度不变价值归一化（SVN）方法，并结合对关键组件交互的分析，总结出一套能够充分释放离线多智能体强化学习潜力的实用方案。

Dongsu Lee, Daehee Lee, Amy Zhang2026-03-10🤖 cs.LG

Human-Aware Robot Behaviour in Self-Driving Labs

本文提出了一种基于分层人类意图预测的具身 AI 感知方法，使自驱动实验室中的移动机器人能够区分人类的准备动作与短暂交互，从而从被动等待转变为主动协作，显著提升了人机共享环境下的工作效率。

Satheeshkumar Veeramani, Anna Kisil, Abigail Bentley, Hatem Fakhruldeen, Gabriella Pizzuto, Andrew I. Cooper2026-03-10💻 cs

Tactile Recognition of Both Shapes and Materials with Automatic Feature Optimization-Enabled Meta Learning

该论文提出了一种自动特征优化启用的原型网络元学习框架（AFOP-ML），利用四通道触觉信号在数据稀缺场景下实现了对物体形状和材料的快速少样本识别，并在多类别基准测试及泛化实验中取得了优异性能。

Hongliang Zhao, Wenhui Yang, Yang Chen, Zhuorui Wang, Baiheng Liu, Longhui Qin2026-03-10💻 cs

FoMo: A Multi-Season Dataset for Robot Navigation in Forêt Montmorency

本文介绍了 FoMo 数据集，这是一个在北方森林中跨越一年采集的多季节机器人导航数据集，包含超过 64 公里的多样化轨迹及多传感器数据，旨在挑战并评估现有定位与建图算法在积雪、植被生长等显著季节性环境变化下的鲁棒性。

Matej Boxan, Gabriel Jeanson, Alexander Krawciw, Effie Daum, Xinyuan Qiao, Sven Lilge, Timothy D. Barfoot, François Pomerleau2026-03-10💻 cs

Adaptive Entropy-Driven Sensor Selection in a Camera-LiDAR Particle Filter for Single-Vessel Tracking

本文提出了一种基于自适应熵驱动的传感器选择策略的异构多传感器融合粒子滤波器，用于在固定沿海平台上实现单船跟踪，并通过在塞浦路斯阿依纳帕码头的实地部署验证了该方法能在不同距离和传感器可用性条件下，通过动态切换模态在跟踪精度与连续性之间取得最佳平衡。

Andrei Starodubov, Yaqub Aris Prabowo, Andreas Hadjipieris, Ioannis Kyriakides, Roberto Galeazzi2026-03-10🤖 cs.LG

R2F: Repurposing Ray Frontiers for LLM-free Object Navigation

该论文提出了一种名为 R2F 的无需大语言模型（LLM）的室内开放词汇物体导航框架，通过将射线前沿重新解释为方向条件语义假设并利用嵌入评分进行规划，在实现零-shot 竞争力的同时显著提升了推理速度（比基于 VLM 的方法快 6 倍）。

Francesco Argenziano, John Mark Alexis Marcelo, Michele Brienza, Abdel Hakim Drid, Emanuele Musumeci, Daniele Nardi, Domenico D. Bloisi, Vincenzo Suriani2026-03-10💻 cs

LAR-MoE: Latent-Aligned Routing for Mixture of Experts in Robotic Imitation Learning

本文提出了 LAR-MoE 框架，通过两阶段训练将无监督技能发现与策略学习解耦，利用潜在空间对齐路由机制在无需标注的情况下实现专家专业化，从而显著提升了机器人在异构任务中的模仿学习性能。

Ariel Rodriguez, Chenpan Li, Lorenzo Mazza, Rayan Younis, Ortrun Hellig, Sebastian Bodenstedt, Martin Wagner, Stefanie Speidel2026-03-10💻 cs