Active Advantage-Aligned Online Reinforcement Learning with Offline Data
Dit paper introduceert A3RL, een nieuwe methode die online en offline versterkingsleer combineert via een vertrouwensbewuste actieve voorkeurst-strategie om de sample-efficiëntie te maximaliseren en vergeten te voorkomen, wat resulteert in superieure prestaties vergeleken met bestaande technieken.