Exploratory Optimal Stopping: A Singular Control Formulation
Dit artikel introduceert een geregeliseerd optimalisatieprobleem voor het stoppen van processen, geformuleerd als een singuliere stochastische controle met een entropiestrafsysteem om exploratie te bevorderen, en biedt zowel model-gebaseerde als model-vrije versterkende leeralgoritmen met gegarandeerde verbetering.