Boltzmann-based Exploration for Robust Decentralized Multi-Agent Planning (Extended Version)
O artigo apresenta o CB-MCTS, um novo algoritmo de busca em árvore Monte Carlo descentralizada que utiliza uma política estocástica baseada em Boltzmann e um bônus de entropia decrescente para superar as limitações de exploração em ambientes de recompensa esparsa ou enganosa, superando o Dec-MCTS em cenários desafiadores.