NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning
Dit paper introduceert NePPO, een nieuwe MARL-pijplijn die een speler-onafhankelijke potentiefunctie leert om bij benadering een Nash-evenwicht te vinden in algemene som-spellen, wat empirisch superieure prestaties laat zien ten opzichte van bestaande methoden zoals MAPPO en MADDPG.