Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking
この論文は、時間変動する非線形システムの制御において、大量のデータから迅速な制御を学習する深層強化学習(DRL)と、モデル非依存かつロバストな有界極値探索(ES)を組み合わせることで、両者の長所を統合し、時間変動に対する耐性を大幅に向上させたハイブリッド制御手法を提案し、ロスアラモス国立研究所の線形加速器における低エネルギービーム輸送セクションの自動調整への適用事例を通じてその有効性を検証したものである。