Active Advantage-Aligned Online Reinforcement Learning with Offline Data
El artículo presenta A3RL, un nuevo método de aprendizaje por refuerzo que combina datos en línea y fuera de línea mediante una estrategia de muestreo activa y consciente de la confianza para mejorar la eficiencia de las muestras y superar el olvido catastrófico, logrando un rendimiento superior frente a técnicas existentes.