MDP Planning as Policy Inference
Questo lavoro riformula la pianificazione nei processi decisionali di Markov come inferenza bayesiana sulle politiche, adattando il metodo VSMC per approssimare la distribuzione a posteriori delle politiche ottimali e generando azioni tramite campionamento predittivo che incorpora l'incertezza a livello di politica, distinguendosi così dai metodi di regolarizzazione entropica come il Soft Actor-Critic.