Scalable Quantum Reinforcement Learning on NISQ Devices with Dynamic-Circuit Qubit Reuse and Grover Optimization
本論文は、中間測定とリセットによる動的回路の再利用とグローバー最適化を統合し、多ステップ量子マルコフ決定過程における物理量子ビット数を時間ステップ数に依存しない定数に削減しつつ、軌道忠実度を維持するスケーラブルでリソース効率の高い量子強化学習フレームワークを提案し、NISQデバイス上での実現可能性を実証したものである。