Strategic Interactions in Multi-Level Stackelberg Games with Non-Follower Agents and Heterogeneous Leaders

Cet article propose un cadre de jeu de Stackelberg à trois niveaux intégrant des agents non-suiveurs et des leaders hétérogènes pour mieux modéliser les interactions stratégiques dans les systèmes congestionnés, en démontrant que négliger les agents non participants fausse les prédictions d'équilibre, comme illustré par le cas de l'infrastructure de recharge des véhicules électriques.

Niloofar Aminikalibar, Farzaneh Farhadi, Maria Chli2026-03-06💻 cs

SCoUT: Scalable Communication via Utility-Guided Temporal Grouping in Multi-Agent Reinforcement Learning

Le papier présente SCoUT, une méthode d'apprentissage par renforcement multi-agent qui améliore la coordination en utilisant un regroupement temporel et une abstraction d'agents guidés par l'utilité pour apprendre de manière différentiable quand et avec qui communiquer, tout en assurant une exécution décentralisée.

Manav Vora, Gokul Puthumanaillam, Hiroyasu Tsukamoto + 1 more2026-03-06🤖 cs.AI

Competitive Multi-Operator Reinforcement Learning for Joint Pricing and Fleet Rebalancing in AMoD Systems

Cet article propose un cadre d'apprentissage par renforcement multi-opérateurs intégrant la théorie du choix discret pour optimiser conjointement la tarification et le rééquilibrage des flottes dans des systèmes de mobilité autonome compétitifs, démontrant que la concurrence modifie fondamentalement les stratégies apprises tout en assurant la convergence vers des politiques efficaces.

Emil Kragh Toft, Carolin Schmidt, Daniele Gammelli + 1 more2026-03-06🤖 cs.LG

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

Le papier présente RepoLaunch, le premier agent capable d'automatiser entièrement la compilation, la gestion des dépendances et l'exécution des tests pour des dépôts de code sur n'importe quelle langue et plateforme, permettant ainsi la création d'ensembles de données pour l'ingénierie logicielle avec une intervention humaine minimale.

Kenan Li, Rongzhi Li, Linghao Zhang + 17 more2026-03-06🤖 cs.LG

Greedy-based Value Representation for Optimal Coordination in Multi-agent Reinforcement Learning

Cet article propose la représentation de valeur basée sur la gourmandise (GVR), une méthode qui garantit la cohérence optimale dans l'apprentissage par renforcement multi-agent en transformant le nœud optimal en un point d'auto-transition unique et en éliminant les nœuds sous-optimaux, surpassant ainsi les méthodes existantes sur divers benchmarks.

Lipeng Wan, Zeyang Liu, Xingyu Chen + 2 more2026-03-05💻 cs

\aleph-IPOMDP: Mitigating Deception in a Cognitive Hierarchy with Off-Policy Counterfactual Anomaly Detection

Le papier propose le cadre \aleph-IPOMDP, qui intègre une détection d'anomalies et une politique hors-belief aux agents d'apprentissage par renforcement pour leur permettre de détecter et de contrer la manipulation par des agents aux capacités de modélisation récursive supérieures, améliorant ainsi la sécurité et l'équité dans les interactions stratégiques.

Nitay Alon, Joseph M. Barnby, Stefan Sarkadi + 3 more2026-03-05💻 cs

VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

Le papier présente VideoChat-M1, un système multi-agents innovant qui améliore la compréhension vidéo grâce à une planification collaborative de politiques apprise par renforcement, permettant aux agents d'ajuster dynamiquement leurs stratégies d'invocation d'outils et d'interagir pour atteindre des performances de pointe sur plusieurs benchmarks.

Boyu Chen, Zikang Wang, Zhengrong Yue + 9 more2026-03-05💻 cs

Agile Flight Emerges from Multi-Agent Competitive Racing

En s'appuyant sur des simulations et des tests réels, cette étude démontre que l'entraînement par compétition multi-agents avec une récompense de tâche sparse (gagner la course) permet d'émerger un vol agile et des stratégies de course supérieures, offrant une meilleure transférabilité vers le monde réel et une plus grande généralisation que les méthodes traditionnelles d'apprentissage en isolation avec des récompenses prescriptives.

Vineet Pasumarti, Lorenzo Bianchi, Antonio Loquercio2026-03-05🤖 cs.AI

Molt Dynamics: Emergent Social Phenomena in Autonomous AI Agent Populations

Cette étude présente MoltBook, un environnement à grande échelle de plus de 770 000 agents autonomes, et y caractérise les dynamiques émergentes de coordination, notamment une spécialisation des rôles fortement asymétrique, une diffusion de l'information en cascade et une résolution coopérative de tâches encore naissante et moins efficace que les agents individuels.

Brandon Yee, Krishna Sharma2026-03-05🤖 cs.AI

Social Norm Reasoning in Multimodal Language Models: An Evaluation

Cette étude évalue la capacité de cinq modèles de langage multimodaux à raisonner sur les normes sociales à partir de scénarios textuels et visuels, révélant qu'ils surpassent les humains dans le texte mais peinent davantage avec les images, GPT-4o se distinguant comme le modèle le plus prometteur pour l'intégration dans des systèmes multi-agents malgré des difficultés persistantes face aux normes complexes.

Oishik Chowdhury, Anushka Debnath, Bastin Tony Roy Savarimuthu2026-03-05🤖 cs.AI