Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings
O artigo apresenta a Hindsight-Anchored Policy Optimization (HAPO), um novo método que utiliza um mecanismo de injeção de sucesso sintético e um controle baseado em amostragem de Thompson para superar os desafios de recompensas esparsas e viés de distribuição no GRPO, garantindo convergência assintótica e permitindo que o modelo supere as limitações do ensino estático.