Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking
이 논문은 비선형 시변 시스템의 제어에서 심층 강화학습 (DRL) 의 성능을 극대화하고 시간 변화에 대한 강인성을 확보하기 위해, DRL 과 경계 극값 탐색 (ES) 을 결합한 하이브리드 제어기 개발과 그 유효성을 수치 시뮬레이션 및 로스 알라모스 중성자 과학 센터의 입자가속기 빔 수송 시스템 자동 튜닝 사례를 통해 입증했습니다.