Interactive World Simulator for Robot Policy Training and Evaluation

本文提出了“交互式世界模拟器”(Interactive World Simulator)框架,利用一致性模型从中等规模数据集构建快速且物理一致的交互世界模型,不仅支持长达 10 分钟以上的稳定仿真,还证明了在此生成的数据训练出的机器人策略在真实世界中能达到与真实数据训练相当的性能,并实现了仿真与实机表现的高度相关性。

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

OA-Bug: An Olfactory-Auditory Augmented Bug Algorithm for Swarm Robots in a Denied Environment

本文提出了一种名为 OA-Bug 的嗅觉 - 听觉增强型 Bug 算法,旨在解决 denied 环境下群机器人无法依赖 GNSS、建图及数据共享的难题,通过模拟动物利用嗅觉和听觉信号进行协作,显著提升了搜索覆盖率并经由仿真与实物实验验证了其有效性。

Siqi Tan, Xiaoya Zhang, Jingyao Li, Ruitao Jing, Mufan Zhao, Yang Liu, Quan Quan2026-03-09💻 cs

RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model

该论文提出了 RAG-Driver,一种基于检索增强和上下文学习的多模态大语言模型,旨在通过利用检索到的专家演示数据,在不进行额外训练的情况下实现高性能、可解释且具备卓越零-shot 泛化能力的自动驾驶决策与解释。

Jianhao Yuan, Shuyang Sun, Daniel Omeiza, Bo Zhao, Paul Newman, Lars Kunze, Matthew Gadd2026-03-09🤖 cs.AI

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

本文提出了 FALCON,一种针对无人机视频动作识别的统一自监督预训练方法,通过结合物体感知掩码自编码与物体中心的双视野未来重建,有效解决了航拍画面中背景杂乱导致的空间不平衡问题,显著提升了识别精度并实现了比传统监督方法快 2 至 5 倍的推理速度。

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI

Integrated Hierarchical Decision-Making in Inverse Kinematic Planning and Control

该论文提出了一种新颖高效的稀疏分层非线性规划框架,通过利用 0\ell_0 范数和分层结构,将决策制定与逆运动学规划及控制紧密集成,从而解决了传统方法在计算效率或精度上的局限,实现了如从大量候选点中同步选择末端执行器位置等复杂非线性分层决策问题。

Kai Pfeiffer, Quan Zhang, Yuqing Chen, Gordon Boateng, Yuquan Wang, Vincent Bonnet, Aberrahmane Kheddar2026-03-09💻 cs

CAPS: Context-Aware Priority Sampling for Enhanced Imitation Learning in Autonomous Driving

本文提出了一种名为 CAPS 的上下文感知优先级采样方法,该方法利用 VQ-VAE 提取结构化特征并聚类数据以解决模仿学习中的样本不平衡问题,从而在 CARLA 仿真中显著提升了自动驾驶模型在 Bench2Drive 场景下的泛化能力、驾驶得分及成功率。

Hamidreza Mirkhani, Behzad Khamidehi, Ehsan Ahmadi, Mohammed Elmahgiubi, Weize Zhang, Fazel Arasteh, Umar Rajguru, Kasra Rezaee, Dongfeng Bai2026-03-09🤖 cs.LG

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

本文提出了 FindAnything 框架,通过基于 eSAM 分割的物体级特征聚合,将视觉语言信息高效融入致密体素子地图,从而在显著降低计算与存储开销的同时,实现了适用于大型未知环境及资源受限设备(如微型飞行器)的实时开放词汇与物体中心建图。

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI

Diverse and Adaptive Behavior Curriculum for Autonomous Driving: A Student-Teacher Framework with Multi-Agent RL

该论文提出了一种基于师生框架的自动课程学习新方法,利用图结构多智能体强化学习作为教师自适应生成涵盖从常规到关键场景的多样化交通行为,从而有效训练出在复杂真实交通环境中更具鲁棒性、平衡性和进取性的自动驾驶智能体。

Ahmed Abouelazm, Johannes Ratz, Philip Schörner, J. Marius Zöllner2026-03-09🤖 cs.LG

VEGA: Electric Vehicle Navigation Agent via Physics-Informed Neural Operator and Proximal Policy Optimization

本文提出了 VEGA,一种结合物理信息神经算子(PINO)进行车辆参数估计与近端策略优化(PPO)进行充电感知路径规划的电动汽车导航系统,该系统在跨大陆路线上实现了比传统启发式算法快 20 倍以上的推理速度,并展现出对法国和日本路网的零样本泛化能力。

Hansol Lim, Minhyeok Im, Jonathan Boyack, Jee Won Lee, Jongseong Brad Choi2026-03-09🤖 cs.LG