Active Advantage-Aligned Online Reinforcement Learning with Offline Data
O artigo apresenta o A3RL, um método que integra aprendizado por reforço online e offline através de uma estratégia de amostragem ativa consciente da confiança para priorizar dados alinhados às necessidades da política, superando desafios como esquecimento catastrófico e ineficiência de amostragem.