Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning
Die Autoren stellen zwei neue modellfreie Algorithmen für Single-Agent- und Federated-Reinforcement-Learning vor, die erstmals gleichzeitig nahezu optimale Regret, lineare Burn-in-Kosten in Bezug auf Zustands- und Aktionsraum sowie logarithmische Kosten für Politikwechsel oder Kommunikation erreichen.