Boosting deep Reinforcement Learning using pretraining with Logical Options
Dit paper introduceert H²RL, een hybride twee-trapskader dat logische opties gebruikt voor pretraining om deep reinforcement learning-agenten te sturen naar doelgericht gedrag en zo de misalignering door kortetermijnbeloningen op te lossen.