Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning
Deze paper introduceert twee nieuwe modelvrije algoritmen, Q-EarlySettled-LowCost en FedQ-EarlySettled-LowCost, die voor het eerst tegelijkertijd bijna-optimale regret, lineaire opstartkosten en logaritmische schakel- of communicatiekosten bereiken in single-agent en federatief versterkend leren.