Active Advantage-Aligned Online Reinforcement Learning with Offline Data
이 논문은 오프라인 데이터의 풍부함과 온라인 학습의 적응력을 결합하면서도 데이터 품질과 포용성 문제를 해결하기 위해, 정책의 진화적 필요에 따라 오프라인 및 온라인 데이터를 동적으로 우선순위화하는 '신뢰도 인식형 능동 우위 정렬 (A3)' 샘플링 전략을 도입한 A3RL 알고리즘을 제안하고, 이를 통해 기존 방법들보다 우수한 성능을 입증합니다.