Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings
Ce papier présente HAPO, une méthode d'optimisation de politique qui résout le dilemme des récompenses clairsemées en RLVR grâce à un mécanisme d'injection rétrospective de succès guidé par un échantillonnage de Thompson, garantissant une convergence asymptotique vers un gradient non biaisé tout en utilisant temporairement des démonstrations d'enseignant comme échafaudage.