Graph Reinforcement Learning for Calibration-Aware Quantum Circuit Routing

원저자: Yash Vardhan Tomar, Dheeraj Peddireddy, Vaneet Aggarwal

게시일 2026-06-12

📖 3 분 읽기🧠 심층 분석

원저자: Yash Vardhan Tomar, Dheeraj Peddireddy, Vaneet Aggarwal

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 팀의 배송 기사들(양자 데이터)을 거대한, 혼란스러운 도시(양자 컴퓨터)를 통해 안내하여 패키지(계산)를 전달하려고 한다고 상상해 보십시오.

과거에 이 양자 도시를 위한 내비게이션 앱들은 오직 한 가지, 즉 거리에만 신경을 썼습니다. 그들은 기사들에게 "포트홀이 가득한 다리나 공사 구간을 지나더라도, 가장 짧은 경로로 가세요"라고 말하곤 했습니다. 논리는 간단했습니다: 주행 거리가 짧을수록 마모와 손상이 적다는 것이었습니다.

하지만 이 논문은 현실 세계의 양자 컴퓨터에서는 거리만이 전부가 아니다라고 주장합니다. 때로는 부서진 다리를 피하기 위해 약간 더 긴 경로를 택하는 것이 패키지를 목적지까지 훨씬 더 좋은 상태로 전달하는 데 더 나을 수 있기 때문입니다.

다음은 연구진이 수행한 내용을 쉬운 비유를 사용하여 정리한 것입니다:

문제점: "완벽한" 경로 vs "실제" 경로

양자 컴퓨터는 도로(컴퓨터의 구성 요소 간 연결)의 품질이 끊임없이 변하는 도시와 같습니다. 어떤 도로는 매끄럽고 빠르지만, 어떤 도로는 울퉁불퉁하고 고장 나기 쉽습니다. 이러한 품질을 "캘리브레이션(교정)"이라고 부릅니다.

기존의 내비게이션 시스템(논문에서 언급된 표준 SABRE 알고리즘)은 마치 지도만 보는 GPS 앱와 같습니다. 그들은 "이 길로 가세요, 5마일입니다"라고 말합니다. 하지만 그 길은 현재 침수되어 있고, 6마일짜리 길은 건조하다는 사실은 알지 못합니다.

해결책: "캘리브레이션 인지형" GPS

연구진은 **그래프 강화 학습(Graph Reinforcement Learning)**을 사용하여 더 똑똑한 새로운 내비게이션 시스템을 만들었습니다. 이것은 단순히 지도를 보는 것이 아니라, 결정을 내리기 전에 모든 도로에 대한 실시간 교통 보고서와 일기 예보를 확인하는 GPS라고 생각하면 됩니다.

"두뇌": 그들은 내비게이터 역할을 할 AI(근사 정책 최적화, PPO라는 방법 사용)를 훈련시켰습니다.
입력값: AI는 기사들에게 어디로 갈지 알려주기 전에 다음을 확인합니다:
1. 남은 배송 목록 (양자 회로).
2. 기사들이 현재 주차되어 있는 위치 (배치).
3. 모든 도로의 실시간 상태 보고서 (IBM의 Heron r2 칩에서 얻은 캘리브레이션 데이터).
전략: AI는 고장 나거나 노이즈가 심한 것으로 알려진 도로를 피하기 위해서라면, 약간 더 긴 경로(더 많은 "SWAP" 연산, 즉 우회로 추가)를 기꺼이 선택합니다.

실험: 기존 방식과의 경주

연구진은 자신들의 새로운 AI 내비게이터를 두 가지 확립된 "구식" GPS 시스템과 비교 테스트했습니다:

SABRE-best20: 거리 중심의 표준 내비게이터.
Target-aware SABRE: 지도는 알지만 실시간 교통 데이터를 효과적으로 사용하지 못하는 약간 더 똑똑한 버전.

그들은 IBM의 양자 하드웨어에서 추출한 실시간 데이터를 사용하여, 다양한 크기(5, 8, 10개의 정류장)의 9가지 서로 다른 "배송 경로"(양자 회로)에 대해 테스트를 진행했습니다.

결과: 양보다 질

결과는 명확한 AI의 승리였지만, 반전이 있었습니다:

큰 승리: 작거나 중간 규모의 경로(5개 및 8개 정류장)에서 AI의 경로는 훨씬 더 성공적이었습니다. "패키지"가 훨씬 더 좋은 상태로 도착했습니다.
- 점수: AI는 0.727의 "충실도(fidelity, 성공률)"를 달성한 반면, 기존 방식들은 약 0.440과 0.481을 기록했습니다. 이는 엄청난 품질의 도약입니다.
트레이드오프(절충): 이 높은 품질을 얻기 위해 AI는 더 많은 단계를 밟았습니다. AI는 약 8번의 추가 우회(2-큐비트 게이트)를 추가했고, 경로를 약간 더 깊게 만들었습니다.
- 교훈: 부서진 다리를 피하기 위해 몇 걸음을 더 걷는 것은 화물을 안전하게 구하는 데 가치가 있습니다.
한계: 가장 큰 경로(10개 정류장)에서는 AI가 기대만큼 잘하지 못했습니다. 왜일까요? 그들이 받은 "도시 지도"가 대체 경로가 매우 적은 경직된 트리(tree) 형태였기 때문입니다. 적절한 우회로가 없을 때, AI는 거리 중심의 구식 GPS를 능가할 수 없었습니다.

핵심 요약

이 논문은 양자 컴퓨터에 있어서 하드웨어의 현재 상태를 아는 것이 단순히 단계 수를 세는 것보다 더 중요하다는 것을 증명합니다.

AI에게 "실시간 교통 상황"(캘리브레이션 데이터)을 살피고, 비록 경로가 조금 더 길어지더라도 "부서진 다리"(노이즈가 심한 커플러)를 피하도록 가르침으로써, 우리는 훨씬 더 나은 결과를 얻을 수 있습니다. 이는 "가장 짧은 경로는 무엇인가?"라는 질문에서 "가장 안전한 경로는 무엇인가?"라는 질문으로의 전환입니다.

기술 요약: 보정 인지형 양자 회로 라우팅을 위한 그래프 강화 학습

문제 정의
양자 회로 라우팅은 노이즈가 있는 중간 규모 양자(NISQ) 장치에서 논리 회로를 희소한 연결성을 가진 물리적 하드웨어에 매핑해야 하는 중요한 컴파일 단계입니다. 전통적인 라우팅 전략은 SWAP 연산 최소화 또는 회로 깊이와 같은 표준 오버헤드 메트릭을 최적화하는 데 집중합니다. 그러나 저자들은 보정된 하드웨어에서 이러한 메트릭들이 불충분하다고 주장합니다. 유사한 오버헤드를 가진 두 경로라도 물리적 커플러의 에러율이 크게 다를 수 있으며, 이는 최종 상태 충실도(fidelity)의 상당한 차이로 이어질 수 있습니다. 더 많은 게이트를 포함하는 경로가 오히려 품질이 낮은 커플러를 피함으로써 이상적인 상태를 더 잘 보존할 수도 있습니다. 핵심 과제는 당일 보정 데이터(same-day calibration data)를 활용하여, 추가적인 2-큐비트 게이트 삽입을 감수하더라도 정확한 시뮬레이션 상태 충실도를 최대화하는 라우팅 정책을 개발하는 것입니다.

방법론
저자들은 근사 정책 최적화(PPO)를 사용하여 훈련된 보정 인지형 그래프 강화 학습(RL) 라우터를 제안합니다. 이 접근 방식은 보정된 백엔드 그래프 $G_B = (P, E, \kappa)$ 상에서의 순차적 의사결정 과정으로 라우팅을 모델링하며, 여기서 $P$ 는 물리적 큐비트, $E$ 는 실행 가능한 커플러, $\kappa$ 는 스냅샷 보정 데이터(읽기 에러, 1-큐비트 및 2-큐비트 에러, 결맞음 시간 포함)를 나타냅니다.

상태 표현: 관측 상태 $s_t$ 는 남은 논리 회로, 논리 큐비트의 현재 비항등(non-identity) 배치, 그리고 보정 스냅샷을 포함합니다. 이는 노드 특징이 읽기 에러, 결맞음, 인접 2-큐비트 에러 및 룩어헤드 요구 거리를 캡처하는 그래프로 인코딩됩니다. 엣지 속성은 보정된 2-큐비트 에러 확률과 법적 동작 마스크(legal-action mask)를 포함합니다.
정책 아키텍처: 정책은 노드 임베딩을 생성하기 위해 두 개의 메시지 패싱 레이어를 가진 그래프 신경망(GNN)을 활용합니다. 다층 퍼셉트론(MLP)은 이러한 임베딩과 엣지 속성을 기반으로 법적 SWAP 엣지의 점수를 계산하고, 마스크드 소프트맥스(masked softmax)를 통해 유효한 SWAP들에 대한 확률 분포를 출력합니다.
훈련 프로토콜: 에이전트는 9개의 MQT Bench 회로(5q, 8q, 10q 패밀리)와 함께 IBM Heron r2 보정 스냅샷(Fez, Kingston, Marrakesh)에서 훈련됩니다.
- 보상 함수: 훈련 중 발생하는 고비용의 정확한 밀도 행렬(density-matrix) 시뮬레이션을 피하기 위해, 저자들은 추정 성공 확률(ESP)에 기반한 저비용 프록시 보상을 사용합니다. 보상 함수는 최단 경로 거리 감소, 라우팅 진행도, 게이트 수, 그리고 잘못된 동작이나 타임아웃에 대한 페널티 항을 포함합니다. 터미널 보상은 에이전트의 프록시 충실도를 베이스라인(SABRE-best20)과 비교하며 과도한 비용에 대해 페널티를 부여합니다.
- 평가: 최종 평가는 노이즈 모델(탈분극 에러 및 열적 완화 포함)을 사용하는 정확한 밀도 행렬 시뮬레이션을 사용하여 실제 상태 충실도 $F = \langle \psi | \rho | \psi \rangle$ 를 계산합니다.
베이스라인: 제안된 방법은 재현 가능한 두 가지 베이스라인과 비교됩니다:
1. SABRE-best20: 2-큐비트 개수와 깊이의 비용 함수를 최소화하는 표준 휴리스틱입니다.
2. Target-aware SABRE: Qiskit의 타겟 정보와 ESP를 사용하여 선택을 수행하는 보정 인지형 휴리스틱입니다.

주요 결과
평가는 세 가지 보정 스냅샷과 아홉 가지 회로 패밀리에 걸쳐 총 1,500개의 쌍 에피소드(paired episodes)를 대상으로 수행되었습니다.

충실도 이득: 학습된 정책은 0.727의 통합 평균 정확 충실도를 달 achieved 했으며, 이는 SABRE-best20(0.440) 및 target-aware SABRE(0.481)를 크게 상회합니다. 이 개선은 통계적으로 유의미했습니다 ( $p < 1.5 \times 10^{-6}$ ).
오버헤드 트레이드오프: 충실도 이득은 오버헤드 증가를 대가로 얻었습니다. 학습된 경로는 SABRE-best20에 비해 평균 +8.63개의 2-큐비트 게이트와 +4.61의 깊이를 추가했습니다.
회로 크기 의존성: 성능 이득은 회로 크기와 액션 그래프의 유연성에 따라 크게 달라졌습니다:
- 5q 및 8q 패밀리: 라우터는 추가 게이트를 사용하여 회로를 신뢰할 수 없는 커플러로부터 성공적으로 유도하였고, 결과적으로 상당한 충실도 향상을 가져왔습니다.
- 10q 패밀리: 본 연구에서 사용된 고정 트리 액션 그래프 상에서, 10q 패밀리는 충실도 이득을 보이지 못했으며 오히려 SABRE-best20의 성능이 더 좋았습니다. 저자들은 이를 고정된 트리 토폴로지가 RL 에이전트가 보정 데이터를 효과적으로 활용할 수 있는 충분한 대안 경로를 제공하지 못했기 때문이라고 분석했습니다.

의의 및 주장
본 논문은 하드웨어 그래프가 충분한 대안 경로를 제공할 경우, 보정 인지형 학습 라우팅이 게이트 수 중심의 컴파일로 달성할 수 있는 수준 이상의 정확한 상태 충실도를 개선할 수 있다고 주장합니다. 본 연구는 다음을 입증합니다:

보정 데이터의 중요성: 당일 보정 데이터는 학습된 정책이 최소 게이트 수가 아닌 충실도를 우선시하는 라우팅 결정을 내릴 수 있게 합니다.
액션 공간 제약의 중요성: 보정 인지형 라우팅의 효용성은 액션 그래프가 유용한 대안을 제공하는지에 달려 있습니다. 제약이 있는 토폴로지(10q 회로에 사용된 고정 트리와 같은 경우)에서는 더 나은 커플러를 선택할 수 있는 능력이 제한되며, 이 경우 전통적인 휴리스틱이 여전히 우수할 수 있습니다.
메트릭의 한계: 보정된 하드웨어에서 게이트 수와 깊이는 충실도의 불완전한 프록시입니다. 더 높은 오버헤드를 가진 경로가 더 높은 충실도를 제공할 수 있습니다.

저자들은 자신들의 구체적인 구현이 유망함을 보여주지만, 접근 방식을 완전히 검증하기 위해서는 순환 서브그래프(cyclic subgraphs), 홀드아웃 회로(held-out circuits), 그리고 매칭된 학습된 라우터 베이스라인에 대한 추가 연구가 필요하다고 결론짓습니다. 또한 라우팅 비교 시에는 전통적인 오버헤드 메트릭과 함께 충실도 및 보정 컨텍스트를 함께 보고해야 함을 강조합니다.

문제점: "완벽한" 경로 vs "실제" 경로

해결책: "캘리브레이션 인지형" GPS

실험: 기존 방식과의 경주

결과: 양보다 질

핵심 요약

유사한 논문