Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings
Dit paper introduceert Hindsight-Anchored Policy Optimization (HAPO), een methode die synthetische succesinjectie en Thompson-sampling-gating combineert om de bias en variantieproblemen van bestaande RL-methoden in settings met schaarse beloningen op te lossen en zo een zelfgestuurd curriculum mogelijk te maken dat de modelprestaties laat overstijgen van statische leerkrachten.