Strategic Interactions in Multi-Level Stackelberg Games with Non-Follower Agents and Heterogeneous Leaders
本文提出了一种包含异质性领导者和非跟随者代理的三级斯塔克尔伯格博弈框架,以解决传统拥堵耦合市场模型忽视非直接竞争参与者对均衡预测产生系统性偏差的问题,并通过电动汽车充电基础设施案例展示了该模型如何更准确地刻画基础设施决策、市场竞争与均衡拥堵之间的双向耦合机制。
124 篇论文
本文提出了一种包含异质性领导者和非跟随者代理的三级斯塔克尔伯格博弈框架,以解决传统拥堵耦合市场模型忽视非直接竞争参与者对均衡预测产生系统性偏差的问题,并通过电动汽车充电基础设施案例展示了该模型如何更准确地刻画基础设施决策、市场竞争与均衡拥堵之间的双向耦合机制。
本文提出了 iAgentBench,一个基于真实热点话题的动态开放域问答基准,旨在通过构建需要跨多源证据整合与推理的复杂问题,评估生成式智能体在信息寻求中的高阶“意义构建”能力,而非仅测试单一信息检索。
本文提出“记忆即本体”范式,通过构建以治理为先、身份延续为核心的宪法记忆架构(CMA)及 Animesis 系统,重新定义了面向跨模型生命周期持久数字公民的记忆基础,从而超越了现有将记忆仅视为功能模块的技术局限。
本文提出了一种结合自组织算法与大语言模型(LLM)的探索方法,使多机器人团队能够在无中心控制的情况下自主动态编组并智能决策探索目标,从而在大规模仿真中验证了其提升集体观测范围与可靠性的有效性。
本文提出了 SCoUT 框架,通过引入基于 Gumbel-Softmax 的软智能体分组抽象和反事实通信优势计算,有效解决了多智能体强化学习中通信时机与对象选择的扩展性及信用分配难题,实现了高效的可扩展通信策略。
本文提出了一种多智能体强化学习框架,通过整合离散选择理论使乘客分配和竞争内生演化,利用真实城市数据证明了在自主出行服务(AMoD)市场中,竞争环境会促使运营商学习出更低的价格和独特的车队调度策略,且该学习方法在面对竞争不确定性时仍具有鲁棒性。
本文介绍了 RepoLaunch,这是首个能够自动解析依赖、编译代码并提取测试结果的智能体,它支持任意编程语言和操作系统,并通过仅需人工设计任务的自动化流程,实现了软件工程数据集的规模化构建,从而推动了编码智能体与大型语言模型的基准测试与训练。
本文提出了名为 Jagarin 的三层架构,通过结合设备端的任务感知唤醒网络(DAWN)、商业邮件身份代理(ARIA)以及面向机器的机构通信协议(ACE),在无需持续后台运行或牺牲隐私的前提下,解决了移动个人 AI 代理在电池续航与平台限制下难以兼顾持久待命与及时响应义务的矛盾。
本文提出了 MedCoRAG 框架,通过联合检索与修剪 UMLS 知识图谱及临床指南证据,并利用多智能体协作推理机制模拟多学科会诊,从而在 MIMIC-IV 数据集上实现了可解释且高性能的肝病诊断。
本文通过对比环形与立方体意见空间下的阿克塞尔罗德模型,发现引入有界信任和个体权重后,环形空间能维持更多稳态群体且对模型扩展更为敏感。
本文针对多智能体强化学习中线性或单调值分解方法因表示限制导致的相对过度泛化问题,提出了一种通过劣目标塑造和优经验回放将最优节点转化为唯一自转移节点,从而确保最优一致性的贪婪值表示(GVR)方法。
本文提出了名为-IPOMDP 的计算框架,通过结合反事实异常检测与离策略策略,使具备有限嵌套对手模型的智能体能够识别并威慑更深层递归能力的欺骗行为,从而在博弈中实现更公平的结局。
本文提出了 HAMLET 框架,这是一种基于大语言模型的分层自适应多智能体系统,能够根据简单主题自动生成剧本蓝图,并通过具备情感记忆与物理交互能力的智能体实现沉浸式、自主的实时互动戏剧表演,同时引入了专用评估模型 HAMLETJudge 以客观衡量演出质量。
本文提出了 SEVADE 框架,通过引入基于语言学理论的动态多智能体推理引擎与解耦的轻量级裁决器,有效缓解了大模型在讽刺检测中的幻觉问题并实现了显著的性能提升。
本文提出了 VideoChat-M1,一种基于多智能体强化学习的视频理解框架,通过创新的协作策略规划(CPP)机制,使多个智能体能够动态生成、执行并相互沟通优化工具调用策略,从而在多个基准测试中实现了超越现有最先进模型(如 Gemini 2.5 Pro 和 GPT-4o)的卓越性能。
该论文提出了一种通过多智能体竞争和稀疏的高层获胜目标来训练强化学习智能体的方法,证明了这种方法不仅能涌现出敏捷飞行和策略行为,而且在环境复杂度增加时比传统的单智能体训练范式表现更优,并实现了更可靠的仿真到现实迁移以及对未见对手的泛化能力。
本文提出了一种基于多智能体影响图的新颖框架,通过统一混合威胁建模方法并模拟网络攻击场景,系统评估了从增强韧性到威慑惩罚等多种反混合威胁措施在成本、威慑力及缓解效果方面的综合效能与参数敏感性。
本文通过名为 MoltBook 的大规模多智能体协调环境,首次观测并量化了 77 万余个自主 LLM 智能体在无人干预下涌现的群体动态,揭示了其呈现核心 - 边缘结构的角色分化、遵循幂律分布的信息传播机制,以及当前协作任务成功率极低且表现劣于单智能体基线的初步合作特征。
本文通过对比人类与五种多模态大语言模型在三十个文本及图像故事中的表现,评估了其在社会规范推理方面的能力,发现模型在文本场景下的表现优于图像场景,其中 GPT-4o 综合表现最佳,但所有模型在处理复杂规范时仍面临挑战。
本文通过引入信息结构视角,在去中心化部分可观测马尔可夫决策过程框架下形式化了学习通信问题,证明了非经典情形下的计算不可行性,并针对准经典情形提出了保持该结构的条件及具有准多项式复杂度的可证明规划与学习算法。