LAP: Fast LAtent Diffusion Planner for Autonomous Driving
本文提出了 LAtent Planner (LAP),一种通过 VAE 潜在空间解耦高层意图与底层运动学、引入中间特征对齐机制并实现单步去噪生成的自动驾驶规划框架,在 nuPlan 基准测试中不仅取得了学习类规划方法的最优闭环性能,还将推理速度提升了至少 10 倍。
867 篇论文
本文提出了 LAtent Planner (LAP),一种通过 VAE 潜在空间解耦高层意图与底层运动学、引入中间特征对齐机制并实现单步去噪生成的自动驾驶规划框架,在 nuPlan 基准测试中不仅取得了学习类规划方法的最优闭环性能,还将推理速度提升了至少 10 倍。
本文提出了一种名为 GRAND 的混合调度算法,通过结合强化学习训练的策略网络进行全局引导、最小成本流进行区域重平衡以及局部任务分配,在满足实时计算约束的同时显著提升了大规模多智能体仓储物流系统的吞吐量。
本文介绍了 TEMPO-VINE 数据集,这是首个针对葡萄园环境设计的大规模多时相多模态公开数据集,通过整合异构激光雷达、AHRS、RTK-GPS 和相机数据,填补了农业领域缺乏真实复杂条件下自动驾驶基准的空白,旨在推动定位、建图及传感器融合技术的发展。
本文提出了模型无关的相位保持扩散(-PD)方法,通过在扩散过程中保留输入相位并仅随机化幅度,实现了无需额外参数即可保持几何结构一致性的可控图像与视频生成,显著提升了模拟到现实(Sim-to-Real)等任务的性能。
本文提出了一种基于磨光(mollification)技术的高效路径生成方法,该方法能够将非可微的规划路径转化为满足任意精度和曲率约束的可微平滑路径,其计算效率优于传统插值方法,适用于实时嵌入式控制。
本文提出了一种双向自适应框架,通过将移动平台从被动目标转变为主动倾斜以优化着陆姿态的协作方,从而打破传统的“先跟踪后下降”范式,实现了无人机在动态场景下的高效、敏捷且鲁棒的自主回收。
本文提出了 EmboTeam 框架,通过结合大语言模型的语义解析能力、PDDL 经典规划器的搜索能力以及行为树的反应式控制机制,实现了异构多机器人团队在复杂长程任务中的高效协作,并在 MACE-THOR 基准测试中显著提升了任务成功率与目标条件召回率。
本文提出了名为 MOSAIC 的模块化可扩展自主框架,通过基于兴趣点的统一任务抽象和多层级自主架构,实现了由单一操作员监督的异构机器人团队在复杂环境(如月球探测模拟)中的高效协同探索,并在单机器人故障的极端条件下仍保持了高任务完成率和低操作员负荷。
本文提出了名为 DDP-WM 的新型世界模型,通过解耦动力学预测将场景演化分解为稀疏的物理交互主动力学与背景更新,在显著降低计算开销的同时大幅提升了导航及操作等任务的规划效率与成功率。
该论文针对机器人操作中的视觉遮挡问题,提出了“探索与聚焦操作”(EFM)新范式,构建了包含 10 项任务的 EFM-10 基准数据集,并验证了利用双臂协同实现主动感知(BAP)策略在模仿学习中的有效性。
该论文提出了 MAE-Select 框架,利用预训练的多视角掩码自编码器表示,使单摄像头机器人能够动态选择最具信息量的视角,从而在无需标注视角数据的情况下显著提升模仿学习任务的适应性与性能,甚至在某些场景下超越多摄像头系统。
本文提出了一种基于神经算子的无限维闭环逆运动学方法,通过可微分神经算子学习致动到形状的映射并结合无限维链式法则,解决了欠驱动软体机器人因构型空间无限维而难以进行运动学逆解的难题。
本文提出了一种结合足式机器人“侦察”与轮式机器人“探测”的协作框架,通过利用足式机器人的本体感知实时构建地形强度地图并评估轮式机器人的通行风险,从而在类行星松软地形中实现安全导航并扩展科学探测范围。
本文提出了一种名为 LACE 的基于学习的框架,通过结合注意力机制与收缩稳定性理论,利用环境特征动态建模 GNSS 测量协方差的平滑演化,从而在高速自动驾驶赛车中实现了更精准且稳定的状态估计。
本文提出了一种结合 Apple Watch 惯性数据与定制手套电容信号的基于对数似然比融合的可解释多模态手势识别框架,并发布了包含 20 种手势的新数据集,该方案在保持与视觉基线相当性能的同时,显著降低了计算成本与模型规模,有效提升了无人机和移动机器人在危险环境下的遥操作鲁棒性。
本文提出了一种基于强化学习的覆盖路径规划方法,利用谐波 UV 映射和缩放分组卷积处理接触反馈,在仿真中训练智能体操纵变形物体以高效完成表面擦拭任务,并通过在 Kinova Gen3 机械臂上的实验验证了其可行性。
本文提出了一种结合数据驱动 Koopman 嵌入与 Safe Set 算法的框架,将非线性机器人系统转化为线性模型,从而通过单一二次规划实时实现全身安全控制与轨迹跟踪。
本文提出了一种面向混合交通瓶颈场景的双交互感知协同控制策略(DIACC),通过结合多智能体强化学习框架下的去中心化交互自适应决策、集中式交互增强评估器及软最小值奖励设计,有效提升了网联自动驾驶车辆在复杂人机混行环境下的交通效率与适应性。
本文提出了 GAIDE,一种基于图注意力掩码的神经引导采样器,通过融合任务空间结构与机器人本体特征,有效解决了传统采样规划算法在高维配置空间中样本效率低的问题,从而显著提升了运动规划的效率与成功率。
本文提出了“行动 - 观察 - 重写”(AOR)框架,使多模态大语言模型能够在无需梯度更新、演示或奖励工程的情况下,通过视觉观察和结构化结果诊断失败原因并直接重写底层 Python 控制代码,从而在机器人操作任务中实现高效的上下文策略学习。