Posterior Sampling Reinforcement Learning with Gaussian Processes for Continuous Control: Sublinear Regret Bounds for Unbounded State Spaces

该论文通过递归应用 Borell-Tsirelson-Ibragimov-Sudakov 不等式证明高斯过程后验采样强化学习(GP-PSRL)算法在连续控制中的访问状态有界,并利用链式方法推导出了针对无界状态空间的紧贝叶斯后悔界 O~(H3/2γT/HT)\widetilde{\mathcal{O}}(H^{3/2}\sqrt{\gamma_{T/H} T}),从而解决了现有理论在最大信息增益依赖性和状态空间无界性方面的局限。

Hamish Flynn, Joe Watson, Ingmar Posner, Jan PetersTue, 10 Ma🤖 cs.LG