Active Advantage-Aligned Online Reinforcement Learning with Offline Data
Die Arbeit stellt A3RL vor, einen neuen Online-Reinforcement-Learning-Ansatz, der durch eine konfidenzbasierte, aktive Stichprobenstrategie (A3) Offline- und Online-Daten dynamisch kombiniert, um die Stichprobeneffizienz zu steigern und das Vergessen früherer Fähigkeiten zu vermeiden.