⚛️ quantum physics

Scalable Quantum Reinforcement Learning on NISQ Devices with Dynamic-Circuit Qubit Reuse and Grover Optimization

이 논문은 동적 회로 기반의 큐비트 재사용과 그로버 최적화를 결합하여 NISQ 장치에서 다단계 양자 마르코프 결정 과정의 큐비트 복잡도를 시간 단계에 비례하는 O(T) 에서 상수 O(1) 으로 획기적으로 낮추면서도 경로 충실도를 유지하는 확장 가능한 양자 강화 학습 프레임워크를 제안합니다.

원저자: Thet Htar Su, Shaswot Shresthamali, Masaaki Kondo

게시일 2026-04-23

📖 3 분 읽기🧠 심층 분석

CC BY 4.0

원저자: Thet Htar Su, Shaswot Shresthamali, Masaaki Kondo

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

이 논문은 **"작은 양자 컴퓨터로도 복잡한 문제를 해결할 수 있는 새로운 방법"**을 제시한 연구입니다.

기존의 양자 강화학습 (QRL) 은 마치 "매번 새로운 방을 지어서 문제를 풀어야 하는" 비효율적인 방식이었습니다. 하지만 이 연구는 "하나의 방을 여러 번 재사용하며 문제를 해결하는" 혁신적인 방법을 개발했습니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴겠습니다.

1. 문제 상황: "방이 너무 많이 필요해요!" (기존 방식의 한계)

상상해 보세요. 여러분이 미로 찾기 게임을 한다고 칩시다.

기존 방식 (Static QMDP): 미로의 각 단계 (1 단계, 2 단계, 3 단계...) 를 통과할 때마다, 새로운 방을 하나씩 지어서 그 단계의 상황을 기록했습니다.
- 1 단계 통과? → 방 1 번 사용.
- 2 단계 통과? → 방 2 번 사용.
- 100 단계 통과? → 방이 100 개 필요!
문제점: 현재 우리가 가진 양자 컴퓨터 (NISQ 장치) 는 자원이 매우 부족합니다. 방 (큐비트) 이 100 개나 필요하면, 컴퓨터가 감당하지 못해 게임 자체가 불가능해집니다. 마치 작은 아파트에서 100 개의 방을 동시에 짓는 것과 같습니다.

2. 해결책: "한 방을 재활용하는 마법" (동적 회로와 큐비트 재사용)

이 논문은 **"방을 지을 필요 없이, 한 방을 계속 쓰고 쓰면 되지 않나?"**라고 생각했습니다.

새로운 방식 (Dynamic Circuit):
1. 1 단계: 한 방 (큐비트) 에서 미로 1 단계를 해결합니다.
2. 결과 기록: "어디로 갔는지"를 메모장에 적어둡니다.
3. 방 청소 (Reset): 방을 깨끗이 비웁니다 (큐비트를 초기화).
4. 재사용: 같은 방에서 2 단계를 시작합니다.
5. 반복: 이 과정을 미로 끝날 때까지 반복합니다.
결과: 미로가 100 단계라도, 필요한 방은 항상 1 개뿐입니다!
- 기존 방식: 단계 수 (T) 에 비례해 자원이 늘어나는 O(T) (선형 증가).
- 새로운 방식: 단계 수와 상관없이 자원이 일정하게 유지되는 O(1) (상수).
- 효율: 이 연구에서는 3 단계 미로를 풀 때, 기존 21 개의 큐비트 대신 7 개만 써서 성공했습니다. (큐비트 사용량 66% 절감!)

3. 핵심 기술: "그로버의 초능력을 빌리다" (Grover Optimization)

미로를 다 통과한 후, "어떤 경로가 가장 점수가 높은가?"를 찾아야 합니다.

기존: 모든 경로를 하나하나 세어보느라 시간이 오래 걸립니다.
이 연구: **그로버 알고리즘 (Grover's Algorithm)**이라는 양자 마법을 사용합니다.
- 마치 "찾고 싶은 사람만 형광등이 켜져서 빛나는" 것과 같습니다.
- 수많은 미로 경로 중에서 점수가 가장 높은 '최고의 경로'만 양자 컴퓨터가 자동으로 찾아내어 확률을 높여줍니다.
- 이렇게 하면 최적의 해결책을 훨씬 빠르게 찾을 수 있습니다.

4. 실험 결과: "실제 양자 컴퓨터에서도 작동해요!"

이론만 좋은 게 아니라, 실제로 IBM 의 최신 양자 컴퓨터 (Heron 칩) 에서 실험해 보았습니다.

결과: 잡음 (노이즈) 이 많은 현실 환경에서도, 이 '방 재활용' 방식이 제대로 작동하여 올바른 미로 경로를 찾아냈습니다.
의미: 앞으로 더 복잡한 문제 (자율주행, 로봇 제어 등) 를 풀 때도, 작은 양자 컴퓨터로 충분히 도전할 수 있는 길이 열렸습니다.

📝 한 줄 요약

"기존에는 문제를 풀 때마다 새로운 양자 컴퓨터를 사야 했지만, 이 연구는 '한 대의 컴퓨터를 깨끗이 닦아서 계속 재사용'하는 방식으로, 적은 자원으로 복잡한 미로를 해결하고 최적의 답을 찾아내는 방법을 증명했습니다."

이 기술은 양자 컴퓨터가 가진 '작은 크기'라는 약점을, '지혜로운 재사용'이라는 강점으로 바꾸어, 가까운 장래에 실용적인 양자 인공지능 (AI) 을 가능하게 할 수 있는 중요한 발걸음입니다.

1. 문제 정의 (Problem Statement)

기존의 완전 양자 강화 학습 (Fully Quantum Reinforcement Learning, QRL) 은 확장성 (Scalability) 의 근본적인 한계에 직면해 있습니다.

선형 큐비트 스케일링 문제: 기존의 정적 (Static) 회로 설계 방식에서는 에이전트와 환경 간의 상호작용 단계 (Time Step, $T$ ) 가 증가함에 따라 필요한 물리적 큐비트 수가 선형적으로 증가 ( $O(T)$ ) 합니다. 예를 들어, 1 단계당 7 개의 큐비트가 필요하다면 $T$ 단계의 상호작용을 위해 $7 \times T$ 개의 큐비트가 필요합니다.
NISQ 장치의 제약: 현재의 잡음 중간 규모 양자 (NISQ) 장치는 큐비트 수가 제한적이고 결맞음 시간 (Coherence time) 이 짧아, 이러한 선형적인 리소스 요구사항을 충족시키기 어렵습니다. 이로 인해 복잡한 환경이나 긴 계획 구간 (Planning Horizon) 을 가진 QRL 문제를 실제 하드웨어에서 실행하는 것이 불가능했습니다.
기존 방법의 한계: 하이브리드 방식은 양자 - 고전 데이터 변환의 병목 현상을 유발하고, 기존 완전 양자 방식은 하드웨어 리소스 부족으로 인해 실용성이 떨어집니다.

2. 방법론 (Methodology)

이 논문은 동적 회로 (Dynamic Circuits) 기술을 활용하여 양자 마르코프 결정 과정 (QMDP) 의 실행 모델을 재설계함으로써 위 문제를 해결합니다.

A. 동적 회로 기반 큐비트 재사용 (Dynamic-Circuit Qubit Reuse)

핵심 아이디어: 각 상호작용 단계마다 별도의 큐비트 레지스터를 할당하는 대신, **중간 회로 측정 (Mid-circuit Measurement)**과 리셋 (Reset) 기능을 사용하여 동일한 물리적 큐비트들을 순차적으로 재사용합니다.
실행 프로세스:
1. 초기화: 상태 ( $s$ ), 행동 ( $a$ ), 다음 상태 ( $s'$ ), 보상 ( $r$ ) 을 인코딩하는 고정된 수의 큐비트 레지스터를 준비합니다.
2. 상호작용: 각 시간 단계 $t$ 에서 양자 회로를 통해 상태 - 행동 전이와 보상을 중첩 (Superposition) 상태로 계산합니다.
3. 측정 및 리셋: 해당 단계의 결과를 고전 레지스터에 기록한 후, 상태 큐비트만 다음 단계의 입력으로 전달 (CNOT 게이트 등을 통해) 하고, 나머지 큐비트들은 $|0\rangle$ 상태로 리셋하여 재사용합니다.
4. 결과: 전체 경로 (Trajectory) 는 고전 메모리에 축적된 측정 기록들을 통해 재구성되지만, 각 단계 내의 양자 병렬성은 유지됩니다.

B. 양자 네이티브 정책 최적화 (Quantum-Native Policy Optimization)

보상 누적: 각 단계에서 얻은 보상을 별도의 양자 레지스터 (Return Register) 에 양자 산술 연산을 통해 누적합니다.
그로버 알고리즘 (Grover's Algorithm): 누적된 보상 (Return) 이 최적값을 갖는 경로를 식별하기 위해 그로버의 진폭 증폭 (Amplitude Amplification) 기법을 적용합니다.
- Oracle: 최적의 누적 보상을 갖는 경로를 위상 반전 (Phase Flip) 으로 표시합니다.
- Diffusion: 표시된 경로의 확률 진폭을 증폭시킵니다.
장점: 경로 평가와 정책 식별을 고전적인 후처리 없이 단일 양자 프로세스 내에서 수행하여 양자 병렬성을 유지합니다.

3. 주요 기여 (Key Contributions)

리소스 스케일링 패러다임의 전환: 양자 MDP 구현에서 물리적 큐비트 수가 상호작용 깊이 ( $T$ ) 에 따라 선형적으로 증가한다는 것이 필연적인 것이 아니라 정적 회로 구성의 결과임을 증명했습니다. 이를 통해 **큐비트 복잡도를 $O(T)$ 에서 $O(1)$ (상수)**로 낮추는 아키텍처를 제시했습니다.
정확성 보존 큐비트 재사용: 동적 회로 실행이 정적 (Unrolled) QMDP 의 전체 경로 분포와 최적 정책 구조를 근사 없이 정확히 재현함을 이론적으로 및 실험적으로 입증했습니다. 이는 단순한 휴리스틱이 아닌 정확성을 보존하는 아키텍처 변환입니다.
NISQ 호환 아키텍처: 중간 회로 측정, 리셋, 그리고 그로버 최적화를 통합하여, 현재 사용 가능한 NISQ 하드웨어 (IBM Heron 클래스) 에서 확장 가능한 QRL 을 실현 가능한 경로로 제시했습니다.
고유한 통합 프레임워크: 에이전트, 환경, 학습 과정이 모두 양자 도메인에서 구현되며, 고전 - 양자 변환 없이 직접적인 양자 에이전트 - 환경 인터페이스를 제공합니다.

4. 실험 결과 (Results)

시뮬레이션 검증:
- 4 개 상태, 2 개 행동의 환경에서 3 단계 ( $T=3$ ) 상호작용을 시뮬레이션했습니다.
- 큐비트 효율성: 정적 방식은 21 개 ( $7 \times 3$ ) 의 큐비트가 필요했던 반면, 제안된 동적 방식은 7 개 큐비트로 동일한 결과를 도출했습니다. 이는 66% 의 큐비트 감소를 의미합니다.
- 정확성: 동적 방식이 생성한 경로 집합, 전이 확률, 보상 분포, 그리고 최적 정책이 정적 방식과 완전히 일치함을 확인했습니다.
실제 하드웨어 실행 (IBM Heron Processor):
- IBM 의 133 큐비트 'ibm torino' 프로세서에서 실제 실행을 수행했습니다.
- 측정 - 리셋 사이클 간의 타이밍 지연 (2000ns) 을 도입하여 하드웨어 안정성을 확보했습니다.
- 잡음 환경에서도 이론적으로 예측된 최적 경로 (최대 보상 $1000$) 를 성공적으로 샘플링하여, 제안된 프레임워크가 실제 NISQ 장치에서 작동 가능함을 입증했습니다.
- 그로버 알고리즘을 적용하여 최적 경로의 샘플링 확률을 높이는 데 성공했습니다.

5. 의의 및 결론 (Significance and Conclusion)

이 연구는 양자 강화 학습의 실용화를 위한 중요한 이정표입니다.

확장성 해결: NISQ 시대의 하드웨어 제약 (제한된 큐비트 수) 을 극복하고, 긴 계획 구간 (Long-horizon) 을 가진 복잡한 의사결정 문제를 양자 컴퓨터로 풀 수 있는 길을 열었습니다.
아키텍처 혁신: 알고리즘의 복잡도 증가 없이 실행 모델 (Execution Model) 의 최적화 (동적 회로) 만으로 자원의 효율성을 극대화할 수 있음을 보여주었습니다.
미래 전망: 오류 정정 기술이 발전하고 하드웨어 성능이 향상됨에 따라, 제안된 동적 회로 기반의 QRL 아키텍처는 대규모 양자 네이티브 강화 학습 시스템의 핵심 기반이 될 것으로 기대됩니다.

요약하자면, 이 논문은 동적 회로와 큐비트 재사용 기술을 결합하여 양자 강화 학습의 선형적 큐비트 스케일링 병목을 해결하고, 그로버 알고리즘을 통해 최적 정책을 효율적으로 탐색하는 확장 가능하고 NISQ 친화적인 프레임워크를 성공적으로 제안하고 검증한 연구입니다.