Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning
Este artículo presenta dos nuevos algoritmos de aprendizaje por refuerzo sin modelo, Q-EarlySettled-LowCost y FedQ-EarlySettled-LowCost, que logran simultáneamente un arrepentimiento casi óptimo, costos de inicio lineales en el número de estados y acciones, y costos de cambio de política o comunicación logarítmicos para entornos de agente único y federados.