Towards Real-time Control of a CartPole System on a Quantum Computer

원저자: Nguyen Truong Thu Ngo, Väinö Mehtola, Jérome Lenssen, Peiyong Wang, Francesco Cosco, Tien-Fu Lu, James Q. Quach

게시일 2026-05-05

📖 4 분 읽기🧠 심층 분석

원저자: Nguyen Truong Thu Ngo, Väinö Mehtola, Jérome Lenssen, Peiyong Wang, Francesco Cosco, Tien-Fu Lu, James Q. Quach

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

로봇이 손으로 빗자루를 세우는 법을 가르치려 한다고 상상해 보세요. 이는 '카트폴 (CartPole)'이라고 불리는 로봇공학의 고전적인 도전 과제입니다. 보통 우리는 노트북에 있는 것과 같은 고전 컴퓨터를 이용해 로봇을 가르칩니다. 하지만 양자 컴퓨터를 사용해 가르친다면 어떨까요?

이 논문은 바로 그 실험에 대한 성적표입니다. 연구자들은 세 가지 큰 질문을 던졌습니다:

작은 양자 컴퓨터가 일반 컴퓨터보다 빗자루를 세우는 법을 더 빨리 배울 수 있을까요?
한 속도로 훈련시켰다가 다른 속도로 작동하도록 요구하면 로봇이 혼란을 겪을까요?
양자 컴퓨터를 실시간으로 로봇을 제어할 만큼 빠르게 만들 수 있을까요, 아니면 너무 느릴까요?

다음은 그들의 발견을 간단한 비유로 풀어낸 내용입니다.

1. "작은 뇌" 대 "큰 뇌"

배경:
연구자들은 '하이브리드' 로봇 뇌를 만들었습니다. 이는 대부분 일반 컴퓨터로 구성되지만, 한 개의 작은 양자 부분 (양자 동전처럼 앞면, 뒷면, 혹은 둘 다일 수 있는 단일 '큐비트') 을 포함하고 있습니다. 이를 표준 컴퓨터 부품만으로 구성된 완전한 '큰 뇌' (심층 신경망) 와 비교했습니다.

결과:
작은 양자 뇌는 속도 마왕이었습니다.

비유: 두 명의 학생이 시험을 본다고 상상해 보세요. '큰 뇌' 학생은 A 학점을 받기 위해 교과서를 430 번 읽어야 합니다. 반면 '작은 양자 뇌' 학생은 같은 A 학점을 받기 위해 단 160 번만 읽으면 됩니다.
주의점: 이 속도 향상은 양자 뇌가 정답을 완벽히 아는 대신 동전을 여러 번 뒤집어 답을 추측하는 ('파라미터 시프트'라고 불리는 방법) 상황에서도 발생했습니다. 이는 매우 작은 양자 모델조차 학습에 놀라울 정도로 효율적일 수 있음을 증명했습니다.

2. "속도 방벽" 문제 (훈련 대 주행)

배경:
실제 세계에서는 로봇이 매우 빠르게 (초당 50 회 정도) 결정을 내려야 합니다. 하지만 양자 컴퓨터는 노이즈가 많고 느립니다. 양자 동전으로부터 명확한 답을 얻으려면 동전을 여러 번 뒤집어야 합니다 (이를 '샷'이라고 합니다).

절충: 동전을 너무 적게 뒤집으면 답이 노이즈로 가득 차게 됩니다 (폭풍 속에서 속삭임을 듣는 것과 같습니다). 반대로 너무 많이 뒤집으면 시간이 너무 오래 걸려 로봇이 반응하기 전에 넘어집니다.

실험:
연구자들은 로봇을 다양한 속도로 훈련시킨 후, 다른 속도로 테스트하여 혼란을 겪는지 확인했습니다. 그들은 다양한 조건에서 로봇이 얼마나 잘 균형을 잡는지 보여주는 거대한 '히트맵' (날씨 지도와 유사) 을 생성했습니다.

결과:

'추론' 속도가 가장 중요합니다: 로봇이 훈련된 속도는 중요하지 않았습니다. 중요한 것은 로봇이 주행 (추론) 하는 속도였습니다. 로봇이 빠르게 결정을 내릴 수 있도록 허용되었을 때 (고주파수) 는 잘 균형을 잡았습니다. 반면, 느리게 주행하도록 강요당하면 넘어졌습니다.
더 많은 뒤집기 = 더 큰 안정성: 로봇이 느리게 주행해야 한다면, 더 많은 '샷' (명확한 답을 얻기 위해 동전을 더 많이 뒤집는 것) 을 제공함으로써 이를 해결할 수 있었습니다.
적정선: 균형을 찾아야 합니다. 로봇이 빠르게 주행하면서도 명확한 양자 답을 얻을 만큼 충분한 시간을 가져야 합니다. 이 논문은 향후 로봇을 위한 이 완벽한 균형을 엔지니어들이 찾을 수 있도록 돕는 지도를 제공합니다.

3. "교통 체증" 대 "고속도로" (지연 시간)

배경:
이 부분이 가장 중요합니다. 양자 컴퓨터가 잘 학습하더라도 실시간으로 반응하기에 너무 느리면 쓸모가 없습니다.

문제: 보통 클라우드에서 양자 컴퓨터를 사용할 때는 요청을 많은 '관료주의' (소프트웨어 계층, 컴파일러, 인터넷 지연 등) 를 거쳐야 합니다. 이는 정지 표지판, 신호등, 공사 구역이 있는 도시를 통해 경주용 자동차를 운전하려는 것과 같습니다.
옛 방식: 표준 소프트웨어를 사용하면 로봇은 초당 약 0.14 회만 결정을 내릴 수 있었습니다. 이는 사실상 잠든 상태였습니다.

혁신:
연구자들은 '관료주의'를 우회하기로 결정했습니다. 경주용 운전자가 사설 고속도로를 통해 지름길을 가는 것처럼, 양자 컴퓨터의 하드웨어를 직접 프로그래밍했습니다.

결과: 중개자를 제거함으로써 로봇의 속도를 40 배 높였습니다. 이제 로봇은 초당 6.2 회 결정을 내릴 수 있게 되었습니다.
한계: 초당 6.2 회는 엄청난 개선이지만, 초당 50 회 균형을 잡아야 하는 빗자루를 제어하기에는 여전히 빠르지 않습니다. 그러나 이는 양자 물리학 자체가 아니라 '교통 체증'이 주요 문제였음을 증명합니다.

결론

이 논문은 다음과 같은 '개념 증명'입니다:

네, 작은 양자 뇌는 큰 고전 뇌보다 균형 잡기 과제를 더 빨리 배울 수 있습니다.
네, 로봇이 넘어지지 않도록 양자 컴퓨터가 얼마나 빠르고 정밀해야 하는지 정확히 매핑할 수 있습니다.
네, 느린 표준 소프트웨어를 사용하지 않고 하드웨어와 직접 대화한다면 양자 컴퓨터를 제어에 유용할 만큼 빠르게 만들 수 있습니다.

연구자들은 아직 자율주행차나 의료 로봇을 만들지는 않았습니다. 그들은 단지 엔진(양자 학습) 이 작동한다는 것을 증명했을 뿐이며, 결국 더 빠르게 주행할 수 있도록 교통 체증(지연 시간) 을 제거하는 방법을 찾아냈습니다.

기술 요약: 양자 컴퓨터에서의 CartPole 시스템 실시간 제어 toward

문제 제기
양자 강화 학습 (QRL) 을 실시간 제어 시스템에 적용하는 것은 하드웨어 지연, 잡음 민감성, 학습 수렴과 관련된 상당한 장애물에 직면해 있습니다. 이론적 양자 머신러닝 연구는 샘플 효율성과 고차원 표현에서 잠재적 이점을 시사하지만, 잡음이 있는 중규모 양자 (NISQ) 장치에서의 실제 배포는 여전히 제한적입니다. 기존 연구들은 종종 이상화된 시뮬레이션에 의존하거나, 표준 클라우드 기반 양자 실행의 결정적인 지연 병목 현상을 다루지 못해 지연에 민감한 폐루프 제어 작업에는 적합하지 않습니다. 본 연구에서 다루는 구체적인 과제는 시뮬레이션 전용 평가와 물리적 초전도 양자 처리 장치 (QPU) 에서 실시간 제약 하에 하이브리드 양자 - 고전 에이전트를 실행하는 것 사이의 간극입니다.

방법론
저자들은 CartPole 벤치마크에 적용된 최소 하이브리드 양자 - 고전 에이전트의 엔드 - 투 - 엔드 조사를 제시합니다.

환경 및 상태 인코딩: 이 작업은 카트 위의 역진자 (inverted pendulum) 를 안정화하는 것을 포함합니다. 에이전트는 단일 큐비트 아키텍처의 제약에 기인하여 전체 4 차원 상태 대신 축소된 3 차원 특징 벡터 (카트 속도, 막대 각도, 막대 각속도) 를 활용합니다.
에이전트 아키텍처:
- 하이브리드 모델: 에이전트는 고전적 완전 연결 레이어에 연결된 단일 큐비트 변분 양자 회로 (VQC) 를 사용합니다. VQC 는 상태를 블로흐 구 (Bloch sphere) 로 인코딩하기 위해 Hadamard 게이트 다음에 3 회전 시퀀스 ( $R_z-R_y-R_z$ ) 를 사용하고, 학습 가능한 $R_x$ 회전을 적용합니다. Pauli-Z 측정의 기대값은 각각 32 개의 은닉 뉴런을 가진 고전적 액터 및 크리티크 네트워크로 입력됩니다.
- 고전적 베이스라인: 동일한 은닉 레이어 구조 (128 및 256 유닛) 를 가진 완전 고전적 액터 - 크리티크 네트워크가 베이스라인으로 사용됩니다.
- 학습: 두 모델 모두 정책 경사 (Policy Gradients) 를 사용한 액터 - 크리티크 방법을 사용합니다. 하이브리드 에이전트는 샷 기반 백엔드에서 그래디언트 추정을 위해 파라미터 시프트 규칙으로 학습되며, 비교를 위해 분석적 그래디언트도 사용됩니다.
실험 범주:
1. 무잡음 벤치마크: Qiskit BasicSimulator 를 사용하여 고전적 및 하이브리드 에이전트 간의 수렴 속도 비교.
2. 학습 - 추론 호환성: 제어 루프 속도 (추론 빈도) 와 측정 샷 예산 간의 트레이드오프를 매핑하는 체계적 연구. 다양한 빈도 (20–100 Hz) 에서 학습된 에이전트들을 잡음 모방 백엔드 (FakeAdonis) 에서 다양한 추론 빈도와 샷 수 (128–1024) 로 평가했습니다.
3. 저지연 하드웨어 실행: 훈련된 정책을 VTT Q5(5 큐비트 초전도 QPU) 에 배포했습니다. 핵심적으로, 저자들은 표준 고수준 Qiskit/IQM 소프트웨어 스택을 우회했습니다. 대신 명령 테이블 (CT) 을 통해 Zurich Instruments 판독 전자 장치 (HDAWG 및 UHFQA) 를 직접 프로그래밍하여 매 파라미터 변경마다 코드 재컴파일 및 파형 업로드의 오버헤드를 제거했습니다.

주요 기여

최소 하이브리드 에이전트의 샘플 효율성: 본 연구는 단일 큐비트 하이브리드 에이전트가 유한 샷 평가를 위한 파라미터 시프트 규칙으로 학습되었음에도 불구하고, 비교 가능한 고전적 액터 - 크리티크 네트워크 (약 429 에피소드) 보다 훨씬 적은 에피소드 (약 162 에피소드) 에서 CartPole 환경을 해결할 수 있음을 보여줍니다.
추론 시간 트레이드오프 분석: 저자들은 추론 제어 빈도와 샷 수 간의 관계를 정량화하는 성능 행렬을 제공합니다. 결과는 더 높은 추론 빈도가 일관되게 균형 안정성을 개선함을 나타냅니다. 또한 샷 예산을 늘리면 근접 최대 균형을 달성하는 데 필요한 최소 추론 빈도를 낮추어, 이 두 제약 조건 사이의 최적 중간점을 찾아야 할 필요성을 강조합니다.
저수준 제어를 통한 지연 감소: 표준 소프트웨어 스택을 우회하고 제어 전자 장치에서 직접 명령 테이블 프로그래밍을 활용함으로써, 저자들은 실행 속도를 한 자릿수 개량 (order-of-magnitude) 개선했습니다. VTT Q5 프로세서에서 128 샷의 경우 반복률이 표준 스택의 약 0.14 Hz 에서 저수준 경로의 6.2 Hz 이상으로 증가하여 40 배 이상의 속도 향상을 보였습니다.

결과

학습 역학: 무잡음 시뮬레이션에서 하이브리드 에이전트는 고전적 베이스라인보다 훨씬 빠르게 수렴했습니다. 파라미터 시프트 그래디언트 사용은 분석적 그래디언트보다 약간 느린 수렴을 보였으나 고전적 모델에 비해 명확한 우위를 유지했습니다.
배포 제약: 호환성 연구는 훈련 빈도보다는 추론 시간 제약 (빈도 및 샷 수) 이 안정성의 주요 결정 요인임을 밝혔습니다. 훈련 및 추론 빈도 간의 불일치는 샷 수 및 추론 빈도에 비해 2 차적 영향을 미쳤습니다.
하드웨어 성능: VTT Q5 에서 저수준 실행 경로는 128 샷의 경우 6.23 Hz 에서 1024 샷의 경우 2.71 Hz 까지의 반복률을 가능하게 했습니다. 판독 오류 완화 부재 및 비이상적 추론 조건으로 인해 하드웨어에서의 절대 에피소드 점수는 보수적이었으나, 시스템은 성공적으로 폐루프 제어를 시연했습니다. 결과는 충분한 샷 예산 (예: 1024 샷) 이 있다면 하드웨어 잡음에도 불구하고 시스템이 거의 완벽한 균형 점수 (500) 를 달성할 수 있음을 보여주었습니다.

의의 및 주장
본 논문은 양자 하드웨어에서 실시간 폐루프 제어 피드백을 달성하기 위한 기초적인 단계를 제공한다고 주장합니다. CartPole 의 저차원 특성으로 인해 복잡성 이론적 의미에서의 이론적 양자 속도 향상은 주장하지 않습니다. 대신 그 의의는 다음과 같습니다:

경계 정량화: 이 작업은 샷 수, 제어 빈도, 지연 간의 트레이드오프를 구체적으로 정량화하여 양자 지원 제어의 현재 경계를 규명합니다.
실용적 로드맵: 실시간 피드백에 필요한 수십 Hz 의 처리량을 달성하기 위해 표준 소프트웨어 스택을 우회하는 것이 필요함을 시연함으로써 실시간 시연에 대한 실용적인 경로를 제시합니다.
최소 모델의 실현 가능성: 적절한 인코딩과 경량 고전적 후처리가 결합될 때, 최소 단일 큐비트 모델이 현실적인 잡음 및 유한 샷 제약 하에서도 RL 루프에서 효과적인 학습 에이전트로 작용할 수 있음을 검증합니다.

저자들은 현재 NISQ 하드웨어의 반복률 (수 Hz) 이 아직 견고한 실시간 제어에 필요한 수십 Hz 영역을 완전히 달성하지는 못했지만, 시연된 저지연 파이프라인이 향후 반복에서 그러한 처리량을 달성하기 위한 실현 가능한 시작점을 제공한다고 결론지었습니다.

1. "작은 뇌" 대 "큰 뇌"

2. "속도 방벽" 문제 (훈련 대 주행)

3. "교통 체증" 대 "고속도로" (지연 시간)

결론

기술 요약: 양자 컴퓨터에서의 CartPole 시스템 실시간 제어 toward

유사한 논문