MDP Planning as Policy Inference
Deze paper presenteert een nieuwe aanpak voor MDP-planning die het probleem omvormt tot Bayesiaanse inferentie over beleidsstrategieën, waarbij variational sequential Monte Carlo wordt gebruikt om een posterior-verdeling te benaderen die beleidsonzekerheid vastlegt en actie selectie via Thompson-sampling mogelijk maakt in plaats van entropieregulering.