원저자: Mohammad Abrarul Hasanat, Jason Ludmir, Tirthak Patel, Rohan Basu Roy

게시일 2026-05-13

📖 4 분 읽기🧠 심층 분석

원저자: Mohammad Abrarul Hasanat, Jason Ludmir, Tirthak Patel, Rohan Basu Roy

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

상상해 보세요. 매우 시끄럽고 울퉁불퉁한 도로를 통해 섬세하고 복잡한 메시지를 보내려 한다고 가정해 봅시다. 그 메시지는 양자 프로그램(양자 컴퓨터를 위한 일련의 지시사항)이고, 그 도로는 양자 하드웨어입니다.

문제는 도로가 구덩이 (오류) 로 가득 차 있으며, 메시지가 도착하는 데 시간이 오래 걸릴수록 메시지가 손상된다는 점입니다. 길고 구불구불한 경로를 택하면 메시지가 왜곡되어 도착할 수 있습니다. 빠른 경로를 택하더라도 구덩이를 너무 많이 만나면 역시 메시지가 왜곡되어 도착합니다.

현재 이 메시지들을 보내는 "운전자들"(컴파일러) 은 고정된 규칙집을 사용합니다. 메시지가 단순하든 복잡하든, 도로가 현재 건조하든 진흙투성이든 상관없이 모든 메시지에 동일한 경로를 취하도록 지시합니다. 때로는 이것이 작동하지만, 종종 비효율적이어서 배송이 지연되거나 메시지가 손상되는 결과를 초래합니다.

TuniQ는 규칙을 변경하는 새로운, 똑똑한 운전자입니다. 고정된 지도를 따르는 대신, 강화 학습(시행착오를 통해 학습하는 AI 의 한 유형) 을 사용하여 각각의 메시지에 대해 실시간으로 최상의 경로를 결정합니다.

TuniQ 가 작동하는 방식을 간단한 개념으로 나누어 설명해 보겠습니다.

1. "고정된 규칙집" 대 "똑똑한 운전자"

현재 시스템 (IBM Qiskit) 을 모든 차량이 특정 단축길이 존재함에도 불구하고 동일한 고속도로를 강제로 이용하도록 만드는 GPS 로 생각하세요. 이는 모든 양자 회로에 동일한 일련의 "최적화 패스"(교통 규칙) 를 적용합니다.

결함: 작은 차량에게는 시간을 절약해 주는 단축길은 대형 트럭에게는 교통 체증을 유발할 수 있습니다. 마찬가지로, 한 양자 프로그램을 돕는 컴파일러 설정이 다른 프로그램을 실제로 해칠 수도 있습니다.
TuniQ 의 해결책: TuniQ 는 특정 화물 (회로) 을 살펴보고, 현재 날씨와 도로 상태 (하드웨어의 노이즈 수준) 를 확인한 다음 다음과 같이 결정하는 운전자와 같습니다: "구덩이를 피하기 위해 경치 좋은 길을 가야 할까? 아니면 도로가 맑으니 속도를 내야 할까?" 이는 해당 특정 여정에서 어떤 "교통 규칙"을 적용하고 어떤 것을 건너뛸지 선택합니다.

2. "이중 인코더"(운전자의 두 가지 시선)

이러한 결정을 내리기 위해 TuniQ 는 여정의 다른 단계에서 세상을 다르게 바라봐야 합니다. 논문은 이중 인코더 시스템을 설명합니다:

도로 이전 (논리적 관점): 시작 단계에서 운전자는 여정의 계획을 봅니다. 아직 특정 구덩이에 대해 걱정하지 않고 승객들 (큐비트) 간의 논리적 연결을 봅니다. "이 사람들은 어떻게 함께 앉아야 할까?"라고 묻습니다.
도로 이후 (물리적 관점): 차량이 도로에 올라타면 운전자는 다른 시선으로 전환합니다. 이제 실제 차량과 실제 도로 상태를 봅니다. 어떤 타이어 (물리적 큐비트) 가 마모되고 도로의 어떤 부분이 울퉁불퉁한지 파악합니다.
중요성: 이를 통해 TuniQ 는 적응할 수 있습니다. 도로가 더 진흙투성이 (노이즈 증가) 가 되면, 재학습 없이도 즉시 더 안전하고 느린 경로로 전략을 전환할 수 있습니다.

3. "형상화된 보상"(여정에서의 학습)

과거 방식에서는 운전자가 마지막에만 피드백을 받았습니다: "메시지를 배달했습니까?" 메시지가 손상되었다면, 운전자는 어떤 회전에서 문제가 발생했는지 알 수 없었습니다.

TuniQ 의 접근법: TuniQ 는 여정 도중 작은 "점수"(보상) 를 받습니다.
- "저 구덩이를 피한 잘했어!" (중간 보상).
- "차량을 안정적으로 유지한 멋진 일이야!" (다른 중간 보상).
- "메시지를 완벽하게 배달했어!" (최종 보상).
  이것은 운전자가 여정 초기의 특정 회전이 전체 여정의 성공에 결정적이었음을 학습하도록 돕습니다. 비록 결과가 마지막까지 보이지 않았더라도 말입니다.

4. "동적 마스크"(안전 가드)

운전자에게 어떤 도로든 선택하도록 내버려 둘 수는 없습니다. 일부 도로는 막다른 길이거나 불법이기 때문입니다.

TuniQ 는 동적 행동 마스킹을 사용합니다. 이는 차량을 손상시키거나 교통 법규를 위반하는 방향으로 운전자가 회전하려는 시도를 즉시 차단하는 가드레일과 같습니다. AI 가 무엇을 결정하든 최종 결과는 항상 유효하고 주행 가능한 경로가 되도록 보장합니다.

결과: 더 빠르고 더 선명하게

논문은 IBM 의 실제 양자 컴퓨터에서 TuniQ 를 테스트했습니다. 다음과 같은 결과가 발생했습니다:

더 나은 품질: 메시지가 훨씬 더 선명하게 도착했습니다. 평균적으로 "신뢰도"(메시지가 원래 계획과 일치하는 정도) 가 20% 향상되었습니다.
더 빠른 배송: 경로를 계획하는 데 걸린 시간 (컴파일 시간) 이 34% 단축되었습니다. 많은 양자 알고리즘이 수천 번 연속으로 경로를 계획해야 하므로 이는 매우 중요합니다.
재학습 불필요: 운전자를 다른 도시 (다른 양자 컴퓨터) 로 이동하더라도 TuniQ 는 새로운 도시를 처음부터 학습할 필요 없이 즉시 작동합니다.
확장성: 메시지가 더 크고 복잡해질수록 (유틸리티 규모 회로), TuniQ 는 기존의 고정된 규칙집에 비해 더욱 우수해집니다.

요약

TuniQ 는 경직되고 일률적인 GPS 에서 똑똑하고 적응형인 조종사로 업그레이드하는 것과 같습니다. 이는 특정 화물을 살펴보고 실시간 도로 상태를 확인하며, 모든 여정에서 학습하여 속도와 안전의 완벽한 균형을 선택합니다. 이는 양자 컴퓨팅을 더 신뢰할 수 있고 빠르게 만들며, 특히 미래에 더 큰 문제들을 해결하려 할 때 그 효과가 두드러집니다.

기술 요약: TuniQ

문제 정의

양자 프로세서는 고성능 컴퓨팅 (HPC) 생태계에 보조 프로세서로 점점 더 통합되고 있으며, 여기서 양자 회로는 고전 노드에서 디스패치되는 커널로 기능합니다. 그러나 IBM 의 Qiskit 트랜스파일러와 같은 현재 양자 컴파일러는 모든 회로에 균일하게 적용되는 고정된 컴파일 패스 시퀀스에 의존합니다. 이러한 "일률적 접근법"은 다음 세 가지 중요한 변수를 고려하지 못합니다:

회로 구조: 서로 다른 알고리즘 (예: QPE, VQE, Grover) 은 서로 다른 최적화 전략의 이점을 얻는 고유한 토폴로지와 게이트 구성을 가집니다.
하드웨어 백엔드: 양자 장치는 결합 토폴로지, 네이티브 게이트 세트, 오류 프로파일이 다양합니다.
잡음 조건: 게이트 오류, 결맞음 시간 $T_1/T_2$ 와 같은 교정 데이터는 단일 장치에서 시간이 지남에 따라 변합니다.

고정된 패스 시퀀스는 종종 회로 깊이 또는 게이트 수를 증가시키는 불필요한 최적화를 적용하여 더 많은 잡음을 누적시키고 출력 충실도 (총 변동 거리, TVD 로 측정) 를 저하시킵니다. 반대로, 특정 회로 구조에 유익한 패스를 건너뛸 수도 있습니다. 또한, 수백만 가지 가능한 패스 조합에 대한 포괄적 탐색은 계산적으로 처리 불가능하며, 단계별 탐욕적 최적화는 초기 결정이 후속 단계를 제약하기 때문에 종종 전역적으로 비최적의 결과로 이어집니다.

방법론: TuniQ

TuniQ 는 트랜스파일링 파이프라인의 각 단계에서 컴파일 패스를 적응적으로 선택하도록 설계된 강화 학습 (RL) 기반 시스템입니다. 이는 패스 선택을 마르코프 의사결정 과정 (MDP) 으로 공식화하여, 에이전트가 컴파일 시간을 최소화하면서 회로 충실도를 극대화하도록 학습합니다.

핵심 구성 요소

이중 인코더 아키텍처:
- 레이아웃 전 인코더: 하드웨어 매핑 전에 논리적 회로 구조 (공간 - 시간 게이트 상호작용) 를 인코딩합니다.
- 레이아웃 후 인코더: 백엔드 교정에서 실시간 잡음 특성 (오류율, 결맞음 시간) 을 포함하여 물리적 하드웨어에 바인딩된 회로를 인코딩합니다.
- 이러한 분리는 에이전트가 논리적 구조에 기반한 레이아웃/라우팅 결정과 물리적 잡음 프로파일에 기반한 최적화 결정과 같이 단계별 전략을 학습할 수 있게 합니다.
상태 공간:
- 초기화 (Init), 레이아웃, 라우팅, 변환, 최적화, 정리 (Cleanup) 를 나타내는 원-핫 (one-hot) 단계 표시기를 포함합니다.
- 텐서로 표현된 회로 특성 (레이아웃 전 논리적 큐비트, 레이아웃 후 물리적 큐비트).
- 게이트 수, 깊이, 토폴로지 호환성 비율을 포함한 글로벌 특성.
행동 공간 및 동적 마스킹:
- 에이전트는 각 단계에서 특정 트랜스파일러 패스 또는 "건너뛰기" 행동을 선택합니다.
- 동적 행동 마스킹은 유효한 컴파일 시퀀스를 강제합니다. 레이아웃 전 라우팅 건너뛰기와 같은 유효하지 않은 전이를 방지하고 하드웨어 제약 조건이 충족되도록 하여, 완료된 모든 에피소드가 실행 가능한 회로를 생성하도록 보장합니다.
보상 구조:
- 형상화된 보상 (Shaped Rewards): 여러 단계에 걸친 크레딧 할당 문제를 해결하기 위해 TuniQ 는 트랜스파일링 품질 (TQ) 지표를 기반으로 한 중간 보상을 사용합니다. 이 지표는 게이트 오류율과 회로 깊이를 사용하여 성공 확률 (ESP) 을 추정하며, 회로가 논리적 표현에서 물리적 표현으로 이동함에 따라 적응합니다.
- 최종 보상: 완료 시, 에이전트는 게이트 수 및 깊이 감소에 대한 보조 항과 결합된 Qiskit Level 3(충실도 최적화) 기준선에 대한 달성된 ESP 의 로그 비율을 기반으로 보상을 받습니다.
학습 및 추론:
- 학습: 무작위 회로 및 변형된 백엔드 잡음 프로파일에 대한 Maskable PPO(근접 정책 최적화) 를 사용하여 견고성을 보장합니다.
- 추론: 정책은 고정됩니다. 시스템은 패스를 선택하기 위해 단일 순방향 전달을 수행하며, 무시할 수 있는 오버헤드 (전체 컴파일 시간의 1% 미만) 만 추가합니다. 추론 중에는 참조 컴파일이나 보상 계산이 수행되지 않습니다.

주요 기여

최초의 잡음 조건부 크로스-스테이지 선택기: TuniQ 는 실시간 잡음 프로파일에 조건부로 충실도와 컴파일 시간을 공동 최적화하는 통합된 크로스-스테이지 패스 선택 문제로 트랜스파일링을 공식화한 최초의 시스템입니다.
새로운 RL 확장: 이 논문은 단계 인식 표현을 위한 이중 인코더, 크로스-스테이지 크레딧 할당을 위한 형상화된 보상, 그리고 유효한 컴파일을 보장하기 위한 동적 행동 마스킹을 소개합니다.
확장성 및 일반화: 이 시스템은 작은 회로 인스턴스 (5~10 큐비트) 로 학습되지만, 재학습 없이 유틸리티 규모 회로 (최대 65 큐비트) 로 효과적으로 확장됩니다. 제로샷 방식으로 다양한 IBM Quantum 백엔드 (Torino, Fez, Kingston, Pittsburgh) 간에 일반화됩니다.
오픈 소스: 커뮤니티 채택을 촉진하기 위해 프레임워크 및 구현이 오픈 소스로 공개되었습니다.

실험 결과

여러 IBM Quantum 클라우드 프로세서에 걸쳐 다양한 워크로드 (MQTBench, QASMBench) 에서 평가됨:

충실도 향상: TuniQ 는 최첨단 Qiskit(충실도 최적화) 트랜스파일러에 비해 출력 충실도 (TVD 감소) 를 평균 20% 향상시킵니다. QPE 와 같은 특정 벤치마크의 경우, TVD 가 0.76 에서 0.50 으로 감소하여 알고리즘적 성공을 크게 개선했습니다.
컴파일 시간: TuniQ 는 컴파일 시간을 평균 34% 단축합니다. 이는 수천 번의 회로를 재컴파일하는 변분 알고리즘 (예: VQE, QAOA) 에 매우 중요합니다.
확장: 회로 크기가 증가함에 따라 (최대 65 큐비트까지) TuniQ 의 이점은 커져, 기준선 대비 게이트 수가 40% 적고 깊이가 50% 낮은 회로를 생성합니다.
견고성: 이 시스템은 오류율을 스케일링하여 시뮬레이션된 다양한 잡음 수준과 다른 하드웨어 세대 (Heron R1–R3) 에서 효과를 유지하며, 교정 드리프트에 대한 복원력을 입증했습니다.

중요성 및 주장

이 논문은 TuniQ 가 정적 고정 패스 시퀀스에 대한 의존성이라는 현재 양자 컴파일의 근본적인 한계를 해결한다고 주장합니다. 적응형 학습 방식으로 전환함으로써 TuniQ 는 최적의 패스 선택이 회로, 하드웨어, 잡음 환경에 따라 매우 문맥 의존적임을 보여줍니다.

저자들은 TuniQ 가 단순히 단일 지표를 개선하는 것이 아니라 더 나은 품질 - 시간 트레이드오프를 제공한다고 강조합니다. 진화 알고리즘과 같은 검색 기반 방법은 회로당 높은 오버헤드를 발생시키는 반면, TuniQ 는 학습 중에 검색 비용을 분산시켜 처리량이 필수적인 HPC 워크플로우에 적합합니다. 이 연구는 양자 하드웨어가 오류 수정을 향해 진화함에 따라 적응형 컴파일이 주요 성능 레버로 남을 것이며, TuniQ 가 이러한 잠재력을 실현하기 위한 확장 가능한 프레임워크를 제공한다고 시사합니다.

TuniQ: Autotuning Compilation Passes for Quantum Workloads at Scale for Effectiveness and Efficiency