Learning Approximate Nash Equilibria in Cooperative Multi-Agent Reinforcement Learning via Mean-Field Subsampling
この論文は、通信制約下でグローバルエージェントが局所エージェントの部分的な状態のみを観測する協力型マルコフゲームにおいて、部分サンプリング平均場 Q 学習と局所エージェントの最適化を交互に行う「ALTERNATING-MARL」フレームワークを提案し、これが -近似ナッシュ均衡に収束することを実証的に示しています。