Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards
该论文提出了 CoHet 算法,通过利用基于图神经网络(GNN)的新型内在动机机制,有效解决了部分可观测和奖励稀疏环境下异构多智能体在去中心化设置中的协作学习难题,并在多个基准测试中展现出优于现有最先进方法的性能。
118 篇论文
该论文提出了 CoHet 算法,通过利用基于图神经网络(GNN)的新型内在动机机制,有效解决了部分可观测和奖励稀疏环境下异构多智能体在去中心化设置中的协作学习难题,并在多个基准测试中展现出优于现有最先进方法的性能。
该论文提出了一种基于控制障碍函数和可微优化的数据驱动方法,通过量化智能体为安全交互而调整自身行为的意愿(即责任分配),从数据中学习并解释多智能体交互中的安全规范。
该论文通过引入“偏好平等”等具有明确规范内涵的公理,证明了任何类型的投票规则属于基于多数边距的投票规则当且仅当满足这些公理,从而为这一数学性质赋予了规范性基础。
本文提出了 GateLens,一种通过引入关系代数作为自然语言与可执行代码间的形式化中间表示,以解决大型语言模型在复杂表格数据分析中推理与代码生成差距的架构,并在汽车软件发布分析场景中验证了其在准确性、速度及零样本适应性上优于传统链式思维方法的显著优势。
本文提出了名为 CORA 的基于合作博弈论核心分配的多智能体强化学习信用分配方法,通过评估联盟边际贡献并结合截断双 Q 学习来高效估算联盟优势,从而解决传统全局优势共享导致的优化不足问题,在多个基准测试中显著提升了多智能体协作性能。
本文提出了 CMASE 框架,该框架通过将生成式智能体建模与虚拟民族志方法相结合,使研究者能够作为嵌入参与者实时干预虚拟社会环境,从而在保持实证准确性的同时,实现对复杂社会现象的机制性解释与因果预测。
该论文提出了一种名为 AffPCL 的新型个性化协同学习框架,通过精心设计的偏差校正与重要性校正机制,在无需预先知晓系统异质性水平的情况下,实现了从同质环境下的线性加速到异质环境下的独立学习基线之间的自适应平滑过渡,并揭示了即使在高度异质条件下协作仍能获得线性加速的新见解。
本文针对连通无标号多智能体路径规划(CUMAPF)问题,提出了一种名为 PULL 的轻量级多项式时间算法,该算法通过规则驱动的单步配置更新在保持连通性的同时高效生成路径,显著优于整数线性规划方法并适用于大规模智能体场景。
该论文提出了一种基于通信约束先验的通用多智能体强化学习框架,通过解耦丢包与无损消息的影响并将其量化至全局奖励,有效解决了复杂动态环境下多智能体协作通信受限的挑战。
该论文提出了一种元博弈设计框架,通过在测试时约束下结合预训练策略与自适应规则,评估了在不同成本设置下强化学习、UCB 及大语言模型策略在重复定价博弈中是否能在理性选择下自发形成算法共谋。
本文提出了协调玻尔兹曼 MCTS(CB-MCTS),通过引入随机玻尔兹曼策略和衰减熵奖励来解决去中心化多智能体规划在稀疏或偏斜奖励环境下的探索难题,并在模拟中证明了其优于传统 Dec-MCTS 的鲁棒性。
本文提出了 ChatNeuroSim,一种基于大语言模型智能体的框架,旨在通过自动化工作流和引入设计空间剪枝技术,解决传统存内计算(CIM)架构设计中依赖人工解读、迭代耗时及优化效率低下的问题,从而实现 DNN 加速器的快速部署与配置优化。
本文介绍了开源 Python 框架 `electoral_sim`,该框架通过在二维意识形态空间中模拟选民分布,比较了包括比例代表制在内的多种选举机制及一种基于玻尔兹曼软核的假设机制,以选举结果与选民几何中位数的欧几里得距离为指标评估其表现。
Scale-Plan 是一个可扩展的框架,它利用大语言模型从自然语言指令中提取紧凑的任务相关表示,通过构建动作图并引导结构化搜索来过滤无关信息,从而有效解决异构多机器人系统在复杂长时程任务规划中的可扩展性与可靠性问题,并在其提出的 MAT2-THOR 基准测试中显著优于现有方法。
本文提出了 LLM 委托协议(LDP),这是一种将模型身份、推理画像等属性作为核心原语的 AI 原生通信协议,并通过插件实现与评估证明了其在降低延迟、减少 Token 消耗及提升系统可治理性方面的优势,同时也揭示了未经验证的置信度元数据可能带来的负面影响。
本文提出了一种统一的潜在空间框架,通过构建涵盖表征形式与结构先验的分类体系、明确五大核心内部机制并制定闭环评估方案,系统性地总结了潜在世界模型在自动驾驶中的进展,并指明了实现决策就绪、可验证且资源高效自动驾驶的未来研究方向。
该研究通过将多智能体大语言模型委员会建模为随机动力系统,发现即使在零温度()设定下,角色差异化与模型异质性仍会引发系统不稳定,从而论证了稳定性审计是构建多模型治理系统的核心设计需求。
本文提出了 AgenticCyOps 框架,通过系统性分解多智能体系统的攻击面、确立工具编排与内存管理为核心信任边界,并制定五项防御原则,为符合主流合规标准的 enterprise 级安全运营中心(SOC)工作流提供了纵深防御架构,显著降低了可被利用的信任边界。
本文提出了一种名为 RQRE-OVI 的乐观值迭代算法,用于在大规模或连续状态空间下通过线性函数近似计算风险敏感量化响应均衡(RQRE),该算法不仅具有理论上的收敛保证和样本复杂度分析,还通过引入理性与风险敏感参数在性能与鲁棒性之间建立了可调节的帕累托前沿,从而在跨博弈场景中展现出比传统纳什均衡方法更优越的稳定性与泛化能力。
本文提出了 ToolRosetta 框架,通过自动将开源代码库转换为可执行的 MCP 工具并集成安全检测,使大语言模型代理能够自主规划并调用现有工具以高效完成复杂任务,从而显著降低了代码复用与部署的人力成本。