Scalable Quantum Reinforcement Learning on NISQ Devices with Dynamic-Circuit Qubit Reuse and Grover Optimization
이 논문은 동적 회로 기반의 큐비트 재사용과 그로버 최적화를 결합하여 NISQ 장치에서 다단계 양자 마르코프 결정 과정의 큐비트 복잡도를 시간 단계에 비례하는 O(T) 에서 상수 O(1) 으로 획기적으로 낮추면서도 경로 충실도를 유지하는 확장 가능한 양자 강화 학습 프레임워크를 제안합니다.