Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning
Este artigo propõe dois novos algoritmos de aprendizado por reforço livres de modelo, Q-EarlySettled-LowCost e FedQ-EarlySettled-LowCost, que são os primeiros a alcançar simultaneamente arrependimento quase ótimo, custo de inicialização linear e custos logarítmicos de troca de política ou comunicação em ambientes de agente único e federado.