Diffusion Policy through Conditional Proximal Policy Optimization
该论文提出了一种基于条件近端策略优化(CPPO)的高效扩散策略训练方法,通过将对齐策略迭代与扩散过程简化为高斯概率评估,克服了传统扩散模型在在线强化学习中计算对数似然困难的问题,并实现了多模态行为生成与熵正则化的自然融合,在多个基准任务中取得了优异性能。
867 篇论文
该论文提出了一种基于条件近端策略优化(CPPO)的高效扩散策略训练方法,通过将对齐策略迭代与扩散过程简化为高斯概率评估,克服了传统扩散模型在在线强化学习中计算对数似然困难的问题,并实现了多模态行为生成与熵正则化的自然融合,在多个基准任务中取得了优异性能。
本文通过在 Overcooked 合成环境中微调多模态基础模型,研究了开放集纠正性辅助任务中数据多样性对模型泛化能力的影响,并揭示了涵盖多模态 grounding、缺陷推断及多样化场景的辅助数据集对于实现开放集辅助智能的关键作用。
本文提出了一种名为 DRAIL 的区域感知增强框架,通过区分并分别处理任务相关与无关区域,有效解决了农业操作视觉模仿学习中因作物外观多样性和背景变化导致的泛化难题,显著提升了机器人在未见视觉条件下的操作成功率与鲁棒性。
本文提出了名为 HyperMVP 的自监督双曲多视图预训练框架,结合 GeoLink 编码器和大规模 3D 数据集 3D-MOV,利用双曲空间的几何特性学习结构化嵌入,从而在多种机器人操作任务及扰动场景下显著提升了策略的鲁棒性与泛化能力。
本文提出了 ReCouPLe 框架,通过利用自然语言推理作为引导投影轴来注入因果信号,从而解决基于偏好的奖励学习中因稀疏二元反馈导致的因果混淆问题,显著提升了奖励模型在分布偏移下的鲁棒性及在新任务中的泛化能力。
本文提出了 VPWEM,一种结合工作记忆与基于 Transformer 的压缩式情景记忆的非马尔可夫视觉运动策略,通过递归压缩历史观测为固定数量的记忆令牌,在保持恒定计算与内存开销的同时显著提升了机器人在长程记忆密集型任务中的表现。
本文提出了一种基于可微渲染的视点一致 3D 对抗纹理优化方法,通过结合期望变换、由粗到细的课程学习及显著性引导策略,有效克服了传统 2D 补丁在动态视角下的局限性,显著提升了针对机器人视觉运动策略的对抗攻击效果与泛化能力。
本文提出了一种名为 U-OBCA 的不确定性感知优化避障方法,通过利用 Wasserstein 分布鲁棒机会约束直接处理多边形机器人与障碍物的碰撞风险,在无需几何简化的前提下显著降低了轨迹规划的保守性并提升了狭窄环境下的导航效率。
本文提出了一种统一的数据驱动自适应方法,通过结合互测与里程计信息实现异构机器人间的成对相对定位,并在此基础上设计了分布式姿态耦合协同定位策略,从而在仅需弱连通有向测量拓扑的宽松条件下解决了异构测量群组的协同定位问题。
本文针对工业室内场景下吊装 LiDAR 视角的行人检测与跟踪难题,构建了专用数据集并评估了多种 3D 检测器与跟踪算法,实现了高精度实时检测并开源了相关资源以填补该领域的研究空白。
本文提出了一种基于微软 HoloLens 2 的增强现实遥操作界面,通过中央计算机结合传感器数据与物理模型对软体机器人进行状态估计,并在 PETER 气动机械臂上的验证表明该方案能将定位误差控制在机器人长度的 5% 左右,从而有效实现了软体机器人的增强现实交互与控制集成。
该论文提出了一种名为 DCT 的新型运动规划方法,通过结合视觉语言模型进行直接接触感知与引导导航,有效解决了机器人在充满可移动或可变形障碍物的杂乱环境中因依赖间接空间表示而导致的适应性不足问题,实现了更高效、鲁棒的接触容忍导航。
本文提出了 CoIn3D 框架,通过空间感知特征调制(SFM)和免训练动态新视图图像合成(CDA)技术,将焦距、地面深度等空间先验显式融入特征与观测,从而显著提升了多相机 3D 目标检测模型在不同相机配置下的泛化能力与跨配置迁移性能。
本文提出了名为 VinePT-Map 的语义建图框架,通过利用葡萄藤树干和支撑杆作为持久性结构路标,结合因子图优化与多传感器融合技术,实现了农业机器人在葡萄园复杂多变环境下的跨季节鲁棒定位与长时自主运行。
本文提出了 AIM-SLAM,一种利用 VGGT 基础模型生成稠密点图,并通过 SIGMA 模块自适应地选择多视图关键帧以进行联合 Sim(3) 优化的单目稠密 SLAM 框架,在真实数据集上实现了姿态估计与稠密重建的当前最先进水平。
GaussTwin 提出了一种结合基于位置的动力学、离散柯西杆模型与高斯泼溅技术的统一实时数字孪生系统,通过物理约束与视觉校正的协同机制,显著提升了机器人操作中的追踪精度、鲁棒性及闭环规划能力。
本文提出了名为 SPIRIT 的感知共享自主系统,通过利用深度学习的不确定性估计在感知自信时启用半自主操作、在不确定性增加时切换至遥操作,从而将不可解释的高性能深度学习感知安全地集成到机器人系统中,显著提升了复杂任务下的操作性能与系统可靠性。
该论文提出了一种两阶段奖励课程学习方法,通过将任务目标与行为辅助目标解耦并分阶段训练,有效解决了多目标机器人控制中奖励函数难以设计的难题,显著提升了训练效率与策略鲁棒性。
该论文提出了名为 SeedPolicy 的新型模仿学习方法,通过引入自演化门控注意力(SEGA)模块解决扩散策略在长时程任务中的性能退化问题,从而在显著降低参数量的同时实现了机器人操作任务中时程扩展的高效性与高性能。
本文提出了一种受人类认知启发的自适应推理框架,通过将视觉语言动作模型的骨干网络转化为复杂性检测工具,实现根据任务难度动态选择“执行”、“推理”或“中止”策略,从而在显著降低计算成本的同时有效避免灾难性失败。