Long-Run Conditional Value-at-Risk Reinforcement Learning
Dit paper presenteert een modelvrije versterkingsleer-algoritme dat, gebaseerd op een CVaR-specifieke Bellman-vergelijking, bijna zeker convergeert naar een optimale beleid voor langlopende Conditional Value-at-Risk-problemen met een convergentiesnelheid van O(1/n).