A Covering Framework for Offline POMDPs Learning using Belief Space Metric
Cet article propose un cadre d'analyse de couverture innovant pour l'évaluation hors politique des processus de décision markoviens partiellement observables (POMDP), qui exploite la structure métrique de l'espace des croyances pour assouplir les hypothèses de couverture traditionnelles et atténuer les explosions exponentielles liées à l'horizon et à la mémoire.