Active Advantage-Aligned Online Reinforcement Learning with Offline Data
Il paper introduce A3RL, un nuovo metodo di apprendimento per rinforzo che combina dati online e offline tramite una strategia di campionamento attiva e consapevole della fiducia per superare limiti come l'oblio catastrofico e migliorare l'efficienza dei campioni.