Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning
この論文は、単一エージェントおよび連合強化学習において、線形なバーンインコストと対数的なポリシー切り替え・通信コストを達成しつつ、既知のモデルフリー手法の中で最良に近い最適後悔を達成する、2 つの新しいモデルフリーアルゴリズム(Q-EarlySettled-LowCost および FedQ-EarlySettled-LowCost)を提案し、その理論的保証を示すものである。