Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings
El artículo presenta HAPO, un nuevo método de optimización de políticas que utiliza un mecanismo de inyección de éxito retrospectivo y un umbral de muestreo de Thompson para superar los desafíos de las recompensas escasas en el aprendizaje por refuerzo, garantizando teóricamente la consistencia asintótica al permitir que la guía del maestro actúe como un andamio temporal que desaparece a medida que la política mejora.