원저자: Richie Yeung, Aleks Kissinger, Rob Cornish

게시일 2026-05-12

📖 4 분 읽기🧠 심층 분석

원저자: Richie Yeung, Aleks Kissinger, Rob Cornish

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

거대한 복잡한 퍼즐을 풀려고 한다고 상상해 보세요. 양자 컴퓨팅 세계에서는 이 퍼즐을 **클리포드 회로 (Clifford circuit)**라고 부릅니다. 양자 회로를 양자 컴퓨터를 위한 레시피로 생각하세요. 이는 컴퓨터가 작업을 수행하기 위해 양자 비트 (qubit) 라고 불리는 작은 입자들을 어떻게 조작할지 알려주는 일련의 구체적인 지시 (게이트) 입니다.

하지만 케이크를 만드는 동일한 레시피를 천 가지 다른 방식으로 작성할 수 있듯이, 동일한 작업을 수행하기 위해 양자 회로를 작성하는 수백만 가지 다른 방법이 종종 존재합니다. 문제는 이러한 "레시피" 중 일부가 너무 많은 비싼 재료를 사용하여 놀라울 정도로 길고 지저분하다는 점입니다. 양자 컴퓨팅에서 가장 비싸고 오류가 발생하기 쉬운 재료는 2-큐비트 게이트(두 입자가 상호작용하도록 하는 게이트) 입니다. 이 논문의 목표는 가능한 가장 짧고 깔끔한 레시피를 찾는 것입니다.

문제: 최단 경로 찾기

저자들은 복잡한 양자 지시를 다시 가장 간단한 형태로 변환하는 방법이라는 특정 유형의 퍼즐을 풀려고 합니다.

전통적으로 이를 수행하는 두 가지 방법이 있었습니다:

빠르지만 지저분한 방법: 매우 빠르게 작동하는 오래된 수학적 단축키들이 있지만, 종종 (너트 하나를 깨기 위해 쇠망치를 사용하는 것처럼) 필요한 것보다 훨씬 긴 회로로 이어집니다.
완벽하지만 느린 방법: 절대적으로 가장 짧고 완벽한 회로를 찾는 방법들이 있지만, 가장 작은 퍼즐이 아닌 이상 쓸모없을 정도로 많은 컴퓨팅 파워와 시간이 소요됩니다.

저자들은 "골디락스" 해결책을 찾고자 했습니다. 유용할 정도로 빠르지만, 거의 완벽한 레시피를 찾을 만큼 똑똑한 무언가 말입니다.

해결책: 똑똑한 AI 에이전트

이 팀은 이 문제를 비디오 게임처럼 취급했습니다. 그들은 양자 회로를 단순화하는 것을 목표로 하는 게임을 플레이하도록 학습하는 AI 에이전트(컴퓨터 프로그램) 를 구축했습니다.

게임 보드: "보드"는 양자 회로의 현재 상태를 나타내는 숫자의 거대한 격자 (심플렉틱 행렬이라고 함) 입니다.
목표: 에이전트는 이 지저분한 숫자 격자를 빈, 비어 있는 격자 ("항등" 행렬) 로 바꾸고자 합니다.
이동: 에이전트는 간단한 양자 게이트를 적용하여 이동할 수 있습니다 (스위치를 전환하거나 두 점을 연결하는 것과 같음).
보상: 에이전트가 이동할 때마다 점수를 얻습니다. 비싼 2-큐비트 게이트를 사용하면 점수가 차감되고, 보드를 성공적으로 비우면 엄청난 보너스를 받습니다.

AI 는 시행착오를 통해 학습하며, 최선의 전략을 찾아내기 위해 수백만 번의 게임을 플레이합니다.

비밀 소스: "대칭성"과 "크기 무관성"

이 논문의 진정한 마법은 AI 의 뇌 (신경망) 를 구축한 방식에 있습니다.

1. 게임의 규칙 존중 (공변성, Equivariance)
6 개의 조각으로 된 퍼즐이 있다고 상상해 보세요. 조각의 라벨을 바꾸면 (조각 "A"를 "B"로, 반대로 "B"를 "A"로 부르는 경우), 퍼즐은 여전히 같은 퍼즐입니다. 단지 이에 맞게 이동을 조정하면 됩니다.
저자들은 AI 가 이 규칙을 자연스럽게 이해하도록 설계했습니다. 큐비트의 이름을 바꾸면 AI 가 자동으로 전략을 조정하도록 만든 것입니다. 이를 **공변성 (equivariance)**이라고 합니다. 이는 "Spot" 대신 "Fido"라고 부른다고 해서 "개"가 여전히 "개"라는 것을 아이에게 가르치는 것과 같습니다. 이는 AI 가 이름이 바뀔 때마다 규칙을 다시 배울 필요가 없기 때문에 훨씬 더 똑똑해지고 학습 속도가 빨라집니다.

2. 모든 크기를 위한 하나의 뇌 (크기 무관성, Size-Agnostic)
일반적으로 6 조각 퍼즐을 풀도록 AI 를 훈련시키면, 10 조각 퍼즐을 풀기 위해 완전히 새로운 AI 를 구축해야 합니다.
이 팀은 크기 무관성 (size-agnostic) AI 를 구축했습니다. 이를 범용 번역기나 블록 세트로 생각하세요. 그들은 6-큐비트 회로로 AI 를 훈련시킨 후, 단 한 줄의 코드도 변경하거나 처음부터 다시 훈련하지 않고 10-큐비트, 20-큐비트, 심지어 30-큐비트 회로도 시도하도록 했습니다. AI 는 스스로 확장하는 방법을 터득했습니다.

결과: 전문가들을 능가하다

이 팀은 기존에 사용 가능한 가장 어려운 벤치마크 (정답이 이미 알려진 6-큐비트 회로) 에서 그들의 AI 를 테스트했습니다.

속도: AI 는 밀리초 내에 거의 완벽한 솔루션을 찾았습니다.
정확도: 수학적으로 완벽한 솔루션을 **99.2%**의 경우에서 찾았습니다.
비교: 주요 양자 컴퓨팅 라이브러리인 Qiskit 의 현재 최우수 소프트웨어 도구들보다 훨씬 적은 수의 비싼 2-큐비트 게이트를 사용하여 상당한 차이를 보이며 이겼습니다.

더 놀라운 점은, 이전에 본 적이 없는 더 큰 회로 (최대 30 큐비트) 에서 테스트했을 때도 여전히 표준 도구들을 능가하여 더 짧고 깔끔한 회로를 생성했다는 것입니다.

요약

간단히 말해, 저자들은 양자 레시피를 위한 마스터 편집자처럼 작동하는 똑똑하고 적응력 있는 AI를 만들었습니다. 이 AI 는 지저분하고 복잡한 양자 지시를 보고 즉시 가능한 가장 짧고 효율적인 버전으로 즉시 다시 작성할 수 있습니다. AI 에게 문제의 근본적인 "대칭성"을 이해하도록 가르침으로써, 그들은 빠르고 잘 작동하며 재구축 없이 어떤 크기의 퍼즐도 처리할 수 있는 도구를 만들었습니다. 이는 양자 컴퓨터를 더 효율적으로 만들고 오류 발생 가능성을 줄이는 데 도움이 됩니다.

기술 요약: 클리포드 양자 회로 합성을 위한 등변 강화 학습

문제 정의

본 논문은 모든-대-모든 (all-to-all) 큐비트 연결성을 가진 양자 장치를 위한 클리포드 회로 합성 문제를 다룹니다. 일반적인 양자 회로 합성은 계산적으로 다루기 어렵지만, 클리포드 회로 (하드마드, 위상, 제어-Z 게이트로 생성됨) 는 안정자 태블로 (stabilizer tableaus) 를 통해 $2n \times 2n$ 이진 심플렉틱 행렬로 간결하게 표현될 수 있습니다.

핵심 과제는 목표 클리포드 연산 (심플렉틱 행렬 $M_{target}$ 으로 표현됨) 을 기본 생성자 ( $H_i, S_i, CZ_{i,j}$ ) 의 시퀀스로 분해하여, 전체 2 큐비트 얽힘 게이트 (특히 $CZ$) 의 수를 최소화하는 것입니다. 이는 물리적 하드웨어에서 2 큐비트 게이트가 단일 큐비트 게이트보다 훨씬 오류가 발생하기 쉽고 비용이 많이 들기 때문에 중요합니다.

기존 방법들은 다음과 같은 트레이드오프에 직면해 있습니다:

다항 시간 알고리즘 (예: Aaronson-Gottesman) 은 빠르지만 종종 필요한 것보다 훨씬 많은 얽힘 게이트를 포함하는 회로를 생성합니다.
정확한 합성 및 검색 집약적 최적화 (예: 템플릿 기반 또는 SAT 기반 방법) 는 거의 최적의 회로를 생성하지만 지수적인 계산 비용으로 인해 적용 가능한 큐비트 수 (일반적으로 $\le 6$ 큐비트) 가 제한됩니다.

방법론

저자들은 속도와 해의 품질 사이의 간극을 메우기 위해 재사용 가능한 신경 휴리스틱을 학습하는 강화 학습 (RL) 접근법을 제안합니다.

1. 역-감소 (Reverse-Reduction) 공식화

$M_{target} = G_1 \dots G_k$ 가 되도록 시퀀스 $G_1 \dots G_k$ 를 찾는 대신, 문제를 "역-감소" 작업으로 재구성합니다. 클리포드 생성자는 자기 역원 ( $G^{-1} = G$ ) 이므로, 에이전트는 다음을 만족하는 시퀀스를 찾습니다:
$M_{target} G_1 \dots G_k = I_{2n}$
단위 행렬에 도달하면, 해는 게이트 시퀀스를 역순으로 배열한 것입니다. 이 공식화는 모든 에피소드에서 일관된 목표 상태 ( $I_{2n}$ ) 를 허용합니다.

2. 커리큘럼 학습

큰 상태 공간에서의 희소한 보상을 해결하기 위해 저자들은 단위 행렬로부터의 무작위 보행에 기반한 커리큘럼을 사용합니다.

에피소드는 짧은 무작위 보행 (쉬운 목표) 으로 시작하여 에이전트의 성공률이 향상됨에 따라 보행 길이 (난이도) 를 점진적으로 증가시킵니다.
이를 통해 에이전트는 복잡하고 깊은 회로를 다루기 전에 심플렉틱 군의 구조를 학습할 수 있습니다.

3. 등변 신경 네트워크 아키텍처

핵심 기여는 **큐비트 재레이블링에 대해 등변 (equivariant)**이고 **크기 무관 (size-agnostic)**하도록 설계된 새로운 신경 네트워크 아키텍처입니다.

대칭성: 문제는 큐비트 순열에 대해 불변입니다. 입력 태블로에서 큐비트를 재레이블하면 최적의 액션 시퀀스도 이에 상응하여 재레이블되어야 합니다.
아키텍처: 네트워크는 태블로를 큐비트의 그래프로 간주합니다.
- 임베딩: $2n \times 2n$ 태블로는 큐비트 쌍 간의 상호작용을 나타내는 $n \times n$ 그리드의 엣지 특성으로 재구성됩니다.
- 메시지 전달: 그래프 신경 네트워크 (GNN) 가 큐비트 토큰 간에 메시지 전달을 수행하여 엣지 특성과 로컬 순위 기반 카운트 특성을 기반으로 표현을 업데이트합니다.
- 리드아웃: 네트워크는 등변 방식으로 단일 큐비트 게이트 ( $H, S$ ) 와 2 큐비트 게이트 ( $CZ_{i,j}$ ) 에 대한 액션 로짓을 출력하며, 입력 큐비트를 순열하면 출력 액션 확률도 이에 상응하여 순열되도록 보장합니다.
크기 무관성: 학습된 가중치는 큐비트 수 $n$ 에 관계없이 동일하게 적용됩니다. 이는 훈련 중 관찰된 것보다 큰 큐비트 수에 대한 제로샷 전이 (zero-shot transfer) 를 가능하게 합니다.

4. 보상 함수

보상 함수는 2 큐비트 게이트를 최소화하면서 단위 행렬로의 진행을 장려하도록 설계되었습니다:

페널티: 단일 큐비트 게이트에는 작은 페널티, 2 큐비트 게이트 ($CZ$) 에는 더 큰 페널티를 부과합니다.
성공 보너스: 단위 행렬에 도달하면 큰 보상을 부여합니다.
진전 형성: 에이전트를 에피소드 전반에 걸쳐 안내하기 위해 단위 행렬과의 해밍 거리에 기반한 밀집 보상 (dense reward) 을 사용합니다.

주요 결과

1. 6 큐비트 벤치마크 (최적 영역)

저자들은 Bravyi 등 데이터베이스의 1,003 개의 최적 6 큐비트 클리포드 회로 (알려진 정확한 참조가 있는 가장 큰 영역) 에 대해 정책의 성능을 평가했습니다.

성능: 에이전트는 1,003 개 모든 인스턴스에서 최적값으로부터 2 큐비트 게이트 1 개 이내의 회로를 찾았습니다.
최적성: 확장된 정책 유도 검색을 통해 1,003 개 인스턴스 중 99.2% (995/1,003) 에서 정확한 최적값과 일치했습니다.
효율성: 전체 세트를 21 초에 달성하여, 98.2% 의 최적값을 회복하는 데 217 시간이 소요되었고 나머지 최적값을 찾지 못했음에도 불구하고 576 시간 추가 후에도 실패한 이전 최첨단 방법 (Bravyi 등) 을 크게 능가했습니다.

2. 더 큰 규모로의 일반화

모델은 6 큐비트 및 10 큐비트 인스턴스로 훈련된 후 30 큐비트까지의 보지 못한 (unseen) 목표에 대해 테스트되었습니다.

확장성: 크기 무관 정책은 재훈련이나 네트워크 재파라미터화 없이 30 큐비트 시스템에 대한 회로를 성공적으로 합성했습니다.
비교: 1,024 개의 초기 게이트를 가진 30 큐비트 목표에서, 학습된 합성기는 평균 323.3 개의 CZ 게이트를 사용했습니다. 이는 Qiskit 의 Bravyi 등 탐욕적 합성기보다 124.2 개 적고, Aaronson-Gottesman 알고리즘보다 460.1 개 적습니다.
신뢰성 vs 품질 트레이드오프: 6 큐비트만으로 훈련된 모델은 매우 신뢰할 수 있었음 (모든 목표 해결) 에도 불구하고 깊은 목표에서 더 긴 회로를 생성했습니다. 10 큐비트로 미세 조정된 모델은 더 짧은 회로를 생성했으나 매우 크고 완전히 무작위인 목표에서는 신뢰성이 감소했습니다 (30 큐비트에서 해결률이 59% 로 하락).

3. 아키텍처 애블레이션

애블레이션 연구는 메시지 전달 메커니즘과 큐비트 등변성이 결정적임을 확인했습니다. 큐비트 간 통신이 없는 모델 (MLP, FlatMLP) 이나 표준 어텐션 (Transformer) 을 가진 모델은 제안된 등변 아키텍처에 비해 CZ 수 측면에서 훨씬 더 나쁜 성능을 보였습니다.

중요성과 주장

본 논문은 6 큐비트 벤치마크에서 거의 최적의 결과를 달성하고 30 큐비트까지의 훨씬 더 크고 보지 못한 회로 크기로 성공적으로 전이되는 완전 연결 클리포드 회로를 합성하는 첫 번째 강화 학습 방법이라고 주장합니다.

주요 기여는 다음과 같습니다:

우수한 해의 품질: 이 방법은 표준 다항 시간 기준 (Qiskit 의 Aaronson-Gottesman 및 탐욕적 방법) 보다 훨씬 적은 얽힘 게이트를 포함하는 회로를 생성합니다.
효율성: 정확한 검색 방법보다 수 orders of magnitude 빠르게 이러한 결과를 달성합니다.
일반화: 크기 무관적이고 등변적인 아키텍처는 단일 정책이 다양한 큐비트 수를 처리할 수 있게 하여, 장치별 재훈련이나 회로 연결의 필요성을 극복합니다.
접근성: 이 접근법은 표준 RL 및 대칭성 원리를 통해 합성 문제를 프레임함으로써, 깊은 양자 컴퓨팅 배경이 없는 머신러닝 연구자들에게 접근 가능하도록 설계되었습니다.

저자들은 이 방법이 강력하지만, 추론 비용이 액션 공간 크기로 인해 $O(n^2)$ 로 확장된다고 지적하며, 향후 작업은 확장성을 더 개선하기 위해 인수분해된 액션 공간이나 계층적 계획을 탐구할 수 있다고 제안합니다.

Equivariant Reinforcement Learning for Clifford Quantum Circuit Synthesis