Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning
Questo lavoro propone due nuovi algoritmi di apprendimento per rinforzo privi di modello, Q-EarlySettled-LowCost e FedQ-EarlySettled-LowCost, che per la prima volta raggiungono simultaneamente un rimpianto quasi ottimale, costi di avvio lineari rispetto agli stati e alle azioni e costi di commutazione o comunicazione logaritmici, sia per agenti singoli che in contesti federati.