A Covering Framework for Offline POMDPs Learning using Belief Space Metric
Questo articolo presenta un nuovo quadro di analisi per la valutazione fuori politica nei processi decisionali di Markov parzialmente osservabili (POMDP), che sfrutta la struttura metrica intrinseca dello spazio delle credenze per rilassare le ipotesi di copertura tradizionali e mitigare la maledizione dell'orizzonte e della memoria, ottenendo limiti di errore più stretti e una maggiore efficienza nel campionamento.