NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning
Este artículo presenta NePPO, un nuevo pipeline de optimización de políticas para juegos de suma general que aprende una función de potencial independiente del jugador para aproximar equilibrios de Nash en entornos mixtos cooperativos-competitivos, demostrando un rendimiento superior frente a métodos baselines populares.