Boltzmann-based Exploration for Robust Decentralized Multi-Agent Planning (Extended Version)
Cet article présente le CB-MCTS, une méthode de recherche arborescente Monte Carlo décentralisée qui remplace la politique UCT déterministe par une politique stochastique de Boltzmann avec un bonus d'entropie décroissant, permettant ainsi une exploration plus robuste et performante dans des environnements multi-agents à récompenses clairsemées ou trompeuses.