Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards
该论文提出了 CoHet 算法,通过利用基于图神经网络(GNN)的新型内在动机机制,有效解决了部分可观测和奖励稀疏环境下异构多智能体在去中心化设置中的协作学习难题,并在多个基准测试中展现出优于现有最先进方法的性能。
673 篇论文
该论文提出了 CoHet 算法,通过利用基于图神经网络(GNN)的新型内在动机机制,有效解决了部分可观测和奖励稀疏环境下异构多智能体在去中心化设置中的协作学习难题,并在多个基准测试中展现出优于现有最先进方法的性能。
该论文提出了一种基于控制障碍函数和可微优化的数据驱动方法,通过量化智能体为安全交互而调整自身行为的意愿(即责任分配),从数据中学习并解释多智能体交互中的安全规范。
该论文提出了一种名为 OWL-TAMP 的新方法,通过利用视觉语言模型生成离散的行动排序约束和连续的代码化约束,成功将大模型的常识推理能力与任务运动规划系统相结合,从而实现了在开放世界中直接根据自然语言指令解决复杂的长程机器人操作任务。
该论文提出了一种利用先验任务信息和训练好的新视图合成模型,通过梯度下降优化潜在表示来生成可压缩差异的基于模型的图像压缩技术,旨在解决水下遥控机器人实时视觉反馈的带宽受限问题,并在人工海洋盆地数据集上验证了其优于现有方法的压缩率、图像质量及对场景中新物体的鲁棒性。
本文提出了一种名为 MS-HGNN 的形态对称等变异质图神经网络,通过将机器人运动学结构与形态对称性作为约束嵌入架构,实现了在多种多体动力学系统(包括四足机器人)中高效且泛化能力强的动力学学习。
该论文提出了一种基于可操作 3D 关系对象图的移动机器人探索系统,通过编码多样化的物体关系并实现主动交互,有效克服了现有方法在大规模移动探索空间中的局限性,并在泛化性和性能上超越了仅依赖视觉语言模型的方法。
该论文提出了一种名为 iMarkers 的创新型隐形基准标记,旨在解决传统可见标记破坏环境美观的问题,通过专为机器人和 AR 设备设计的硬件与开源算法,实现了在保持视觉隐蔽性的同时具备高灵活性、鲁棒性及广泛适用性的导航与识别功能。
本文提出了一种基于无似然推断的端到端 Real2Sim2Real 框架,通过利用视觉和本体感知数据估计可变形线性物体(DLO)物理参数的后验分布以进行域随机化训练,实现了无需微调即可将模拟中训练的策略零样本迁移至真实世界的 DLO 操控任务。
本文提出了 LLM-Advisor 框架,利用大语言模型作为后处理顾问来优化多地形路径规划的成本效率,并通过引入幻觉抑制策略和两个新数据集,显著提升了多种传统规划算法在复杂场景下的表现。
该论文提出了名为 iTuP 的逆工具使用规划框架及其核心网络 SDG-Net,通过基于刚体力学推导任务轨迹中的预测交互力矩并优化抓取选择,有效解决了传统视觉 - 语言系统在动态工具操作中因忽略惯性冲击和杠杆效应而导致的滑移与失稳问题,显著提升了真实世界中的任务成功率。
该论文提出了一种名为“潜在策略引导”(LPS)的方法,通过利用光流作为跨具身无关的动作表示来预训练世界模型,并结合目标具身的小规模演示数据进行微调与价值函数学习,从而在低数据场景下显著提升了机器人视觉运动策略的性能。
本文提出了YOPO,一种单阶段、基于查询的极简检测Transformer框架,仅需单目RGB图像和类别级标签即可实现端到端的9自由度多物体姿态估计,并在多个基准测试中刷新了仅用RGB数据的性能纪录。
该论文提出了一种基于分层策略和星座奖励机制的去中心化多足机器人协作搬运方法,使 N 台四足机器人在无通信、无刚性连接且仅靠物理接触的情况下,能够协同完成对不可抓取物体的夹取、提升与移动任务,并实现了从 2 到 10 台机器人的任意规模扩展及仿真到现实的迁移。
本文介绍了机器人控制堆栈(RCS),这是一个专为支持大规模通用策略(如 VLA)研究而设计的轻量级生态系统,它通过模块化分层架构统一了仿真与物理机器人接口,有效解决了传统框架在机器人学习工作流中的瓶颈问题,并验证了其在提升策略性能及促进虚实迁移方面的有效性。
本文提出了一种名为 CSLICS 的低成本模块化成像系统,利用人机协作训练的目标检测技术实现珊瑚产卵的自动化计数,在 Great Barrier Reef 的实验中不仅显著提升了不同发育阶段产卵检测的准确率(表面检测 F1 分数达 82.4%),还大幅减少了人工劳动时间,从而有效推动了珊瑚礁生态修复的规模化发展。
该论文提出了一种名为通用策略组合(GPC)的免训练方法,通过凸组合多个预训练扩散或流匹配策略的分布分数,在无需额外模型训练的情况下显著提升了机器人控制性能与适应性。
该论文提出了一种名为 MPC-CLF-CBF 的实时贝塞尔曲线约束运动规划算法,通过结合高阶控制障碍函数与控制李雅普诺夫函数,有效解决了多机器人集群在复杂障碍环境中维持连通性与导航成功率之间的矛盾,并实现了连接丢失后的自动恢复,且已在 8 架 Crazyflie 微型四旋翼飞行器的仿真与实物实验中得到验证。
本文提出了旨在评估导航智能体空间感知与推理能力的 NavSpace 基准及包含六个任务类别的 1,228 条轨迹 - 指令对,并通过该基准对 22 种现有模型进行了全面评估,同时推出了在 NavSpace 和真实机器人测试中均表现优异的新型空间智能导航模型 SNav。
该论文针对 LiDAR 语义分割中标签噪声与域泛化双重挑战,首次建立了相关基准并提出了名为 DuNe 的双视图一致性框架,在多个数据集的含噪标签域泛化任务中取得了最先进性能。
该论文提出了一种基于资产(Asset-Centric)的度量语义地图方法,利用四足机器人构建包含详细网格、类别和位姿的物体级场景表示,在精度上优于现有基础模型和机器人建图方案,并实现了与大型语言模型的无缝集成以支持复杂的场景理解与语义导航。