Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Cette présentation propose CORA, une méthode d'attribution de crédit pour l'apprentissage par renforcement multi-agent coopératif qui utilise l'allocation du noyau de la théorie des jeux coopératifs et l'échantillonnage aléatoire de coalitions pour optimiser l'apprentissage des politiques en attribuant les avantages globaux aux stratégies de coalition.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang LiWed, 11 Ma🤖 cs.AI

Electoral Systems Simulator: An Open Framework for Comparing Electoral Mechanisms Across Voter Distribution Scenarios

Cet article présente \texttt{electoral\_sim}, un cadre open-source en Python qui simule et compare la performance de divers systèmes électoraux, y compris un mécanisme hypothétique basé sur un noyau softmax de Boltzmann, en mesurant leur capacité à se rapprocher de la médiane géométrique des électeurs à travers des distributions de préférences variées.

Sumit MukherjeeWed, 11 Ma💻 cs

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

Cet article propose l'algorithme \texttt{RQRE-OVI}, une méthode d'apprentissage par renforcement multi-agent avec approximation linéaire qui calcule un équilibre de réponse quantale sensible au risque, offrant ainsi une solution unique, stable et robuste avec des garanties de convergence et un compromis contrôlé entre performance et résilience.

Jake Gonzales, Max Horwitz, Eric Mazumdar, Lillian J. RatliffWed, 11 Ma🤖 cs.LG

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

Cet article propose le cadre « Platooning as a Service » (PlaaS), modélisé comme un jeu de Stackelberg, pour optimiser la tarification et les contrats de services de pelotonnage de véhicules connectés et autonomes afin de réduire les émissions de carbone et d'améliorer l'efficacité du transport, tout en analysant l'impact des subventions gouvernementales et des paramètres opérationnels sur la durabilité.

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand AbrahambWed, 11 Ma💻 cs

The Illusion of Collusion

Cette étude démontre que des agents algorithmiques apprenant sans modèle préalable peuvent développer une « collusion naïve » dans des jeux répétés, un phénomène dont l'émergence dépend crucialement de la synchronisation des actions et du type de politique d'apprentissage utilisée, allant de l'absence totale de collusion avec des algorithmes persistamment aléatoires à une collusion systématique avec des algorithmes déterministes comme UCB.

Connor Douglas, Foster Provost, Arun SundararajanTue, 10 Ma💻 cs

Informal and Privatized Transit: Incentives, Efficiency and Coordination

Cet article propose un cadre théorique et des mécanismes d'intervention, tels que le routage de type Stackelberg et la subvention croisée, pour optimiser l'efficacité des systèmes de transit informels et privatisés en alignant les incitations des opérateurs privés sur les objectifs de mobilité publique, comme le démontrent des simulations basées sur un cas réel en Inde.

Devansh Jalota, Matthew TsaoTue, 10 Ma🔢 math

Randomise Alone, Reach as a Team

Cet article étudie les jeux graphiques concurrents où une équipe de joueurs coopère avec des sources de randomisation privées et indépendantes pour atteindre un état cible, démontrant que le problème de seuil se situe dans la théorie existentielle des réels et est NP-difficile, tandis que la quasi-certitude est NP-complète, et introduisant la logique IRATL pour formaliser ces scénarios.

Léonard Brice, Thomas A. Henzinger, Alipasha Montaseri, Ali Shafiee, K. S. ThejaswiniTue, 10 Ma💻 cs