Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning
Cet article propose deux nouveaux algorithmes d'apprentissage par renforcement sans modèle, Q-EarlySettled-LowCost et FedQ-EarlySettled-LowCost, qui réduisent simultanément les coûts d'initialisation, de commutation de politique et de communication tout en garantissant des regrets quasi-optimaux pour l'apprentissage par renforcement en agent unique et fédéré.