Generalized Per-Agent Advantage Estimation for Multi-Agent Policy Optimization
Die vorgestellte Arbeit führt den Generalized Per-Agent Advantage Estimator (GPAE) ein, ein neuartiges Framework für das Multi-Agenten-Reinforcement-Learning, das durch eine per-Agenten-Wertiteration und ein doppeltes abgeschnittenes Importance-Sampling-Verfahren die Stichprobeneffizienz und Koordination in komplexen Szenarien verbessert, ohne direkte Q-Funktionsschätzungen zu benötigen.