The Coordination Gap: Alternation Metrics for Temporal Dynamics in Multi-Agent Battle of the Exes
Cet article introduit de nouvelles métriques d'alternation temporelles pour révéler que, dans le jeu de la Bataille des Exes multi-agents, les politiques apprises par Q-learning peuvent présenter des scores de justice élevés selon les mesures traditionnelles tout en échouant gravement à coordonner leurs actions dans le temps par rapport à des politiques aléatoires.