Active Advantage-Aligned Online Reinforcement Learning with Offline Data
Cet article présente A3RL, une méthode d'apprentissage par renforcement en ligne qui intègre des données hors ligne grâce à une stratégie d'échantillonnage active et consciente de la confiance, surmontant ainsi les défis de l'oubli catastrophique et de l'efficacité des échantillons pour surpasser les techniques existantes.