Frozen Policy Iteration: Computationally Efficient RL under Linear Realizability for Deterministic Dynamics
Il paper propone "Frozen Policy Iteration", un algoritmo di apprendimento per rinforzo online computazionalmente efficiente che, sotto l'assunzione di realizzabilità lineare delle funzioni Q per dinamiche deterministiche, raggiunge un limite di rimpianto ottimale evitando la necessità di un simulatore attraverso l'uso strategico di dati ad alta confidenza e il congelamento delle policy per gli stati già esplorati.