Learning Approximate Nash Equilibria in Cooperative Multi-Agent Reinforcement Learning via Mean-Field Subsampling

本文提出了一种名为 ALTERNATING-MARL 的交替学习框架,用于在通信受限的协作多智能体强化学习中,通过全局智能体对局部状态进行子采样均值场 Q 学习,证明了该方法能以 O~(1/k)\widetilde{O}(1/\sqrt{k}) 的近似度收敛至纳什均衡,并显著降低了样本复杂度。

Emile Anand, Ishani Karmarkar2026-03-05🤖 cs.AI