Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings
Die Arbeit stellt HAPO vor, eine Methode, die durch einen Thompson-Sampling-gesteuerten Mechanismus zur synthetischen Erfolgseinjizierung das Problem des Advantages-Collapses in sparse-Reward-Umgebungen löst und so eine asymptotische Konsistenz gewährleistet, bei der Lehrer-Demonstrationen als temporäres Gerüst dienen, das mit fortschreitender Verbesserung des Modells automatisch abklingt.