ReconDrive: Fast Feed-Forward 4D Gaussian Splatting for Autonomous Driving Scene Reconstruction

ReconDrive 提出了一种基于 VGGT 基础模型改进的快馈前向框架,通过混合高斯预测头和解耦静态动态 4D 组合策略,在 nuScenes 数据集上实现了兼具高保真度与实时性的自动驾驶场景 4D 高斯泼溅重建,有效解决了现有方法在可扩展性与图像质量之间的权衡难题。

Haibao Yu, Kuntao Xiao, Jiahang Wang, Ruiyang Hao, Yuxin Huang, Guoran Hu, Haifang Qin, Bowen Jing, Yuntian Bo, Ping Luo2026-03-10💻 cs

Approximate Imitation Learning for Event-based Quadrotor Flight in Cluttered Environments

本文提出了一种名为“近似模仿学习”的新框架,通过利用离线数据集学习任务表征并结合仅依赖轻量级状态信息的在线训练,解决了事件相机数据仿真成本高昂的难题,成功实现了 quadrotor 仅凭单目事件相机在杂乱环境中以高达 9.8 米/秒的速度进行鲁棒飞行。

Nico Messikommer, Jiaxu Xing, Leonard Bauersfeld, Marco Cannici, Elie Aljalbout, Davide Scaramuzza2026-03-10💻 cs

FeasibleCap: Real-Time Embodiment Constraint Guidance for In-the-Wild Robot Demonstration Collection

FeasibleCap 是一种无需机器人硬件或头戴设备的 gripper-in-hand 数据采集系统,它通过实时检查可达性、关节速度限制和碰撞约束,并利用设备端视觉与触觉反馈引导演示者修正动作,从而在采集阶段即确保轨迹对目标机器人的可执行性,显著提高了采集数据的有效性和跨平台迁移能力。

Zi Yin, Fanhong Li, Yun Gui, Jia Liu2026-03-10💻 cs

GeoLoco: Leveraging 3D Geometric Priors from Visual Foundation Model for Robust RGB-Only Humanoid Locomotion

GeoLoco 提出了一种纯视觉驱动的机器人运动框架,通过利用冻结的视觉基础模型中的几何先验,将单目 RGB 图像转化为高维 3D 潜在表示,并结合 proprioceptive-query 交叉注意力机制与双头辅助学习策略,实现了在 Unitree G1 人形机器人上针对复杂地形的鲁棒零样本 Sim-to-Real 迁移。

Yufei Liu, Xieyuanli Chen, Hainan Pan, Chenghao Shi, Yanjie Chen, Kaihong Huang, Zhiwen Zeng, Huimin Lu2026-03-10💻 cs

TempoFit: Plug-and-Play Layer-Wise Temporal KV Memory for Long-Horizon Vision-Language-Action Manipulation

TempoFit 提出了一种无需训练的即插即用层间时序 KV 记忆机制,通过重用预训练 VLA 模型中的前缀注意力键值对并引入帧间隙时间偏置,在保持低延迟的同时显著提升了长程视觉语言动作操纵任务的成功率。

Jun Sun, Boyu Yang, Jiahao Zhang, Ning Ma, Chencheng Wu, Siqing Zhang, Yiou Huang, Qiufeng Wang, Shan Liang, Yaran Chen2026-03-10💻 cs

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

本文提出了名为 AtomicVLA 的统一规划与执行框架,通过技能引导的混合专家模型(SG-MoE)和灵活路由编码器构建可扩展的原子技能库,有效解决了现有视觉 - 语言 - 动作(VLA)模型在长程任务规划、多步问题解决及持续技能学习方面的局限性,并在仿真与真实世界实验中显著超越了现有基线模型。

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

Multi-Agent Off-World Exploration for Sparse Evidence Discovery via Gaussian Belief Mapping and Dual-Domain Coverage

该论文提出了一种基于高斯信念映射与双域覆盖的多智能体离地探索框架,通过联合建模兴趣与风险信念及轨迹意图,在稀疏证据发现任务中有效平衡了信息获取与操作安全,并在模拟月球环境中展现出优于现有方法的鲁棒性与探索效率。

Zhuoran Qiao, Tianxin Hu, Thien-Minh Nguyen, Shenghai Yuan2026-03-10💻 cs

AeroPlace-Flow: Language-Grounded Object Placement for Aerial Manipulators via Visual Foresight and Object Flow

本文提出了 AeroPlace-Flow,一种无需训练的语言引导空中机械臂物体放置框架,它通过结合视觉预见、3D 几何推理与物体流,将自然语言指令转化为无需预定义位姿的碰撞感知放置轨迹,并在仿真与真实实验中实现了 75% 的平均成功率。

Sarthak Mishra, Rishabh Dev Yadav, Naveen Nair, Wei Pan, Spandan Roy2026-03-10💻 cs