EUBRL: Epistemic Uncertainty Directed Bayesian Reinforcement Learning
Il paper propone EUBRL, un algoritmo di apprendimento per rinforzo bayesiano che utilizza l'incertezza epistemica per guidare l'esplorazione, garantendo ottimalità teorica e prestazioni superiori in termini di efficienza dei campioni su MDP a orizzonte infinito con ricompense sparse.