NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning
Este artigo propõe o NePPO, uma nova pipeline de otimização de políticas para aprendizado por reforço multiagente em jogos de soma geral que aprende uma função potencial independente dos jogadores para aproximar equilíbrios de Nash, demonstrando desempenho superior a métodos populares como MAPPO, IPPO e MADDPG.