원저자: Kuo-Chung Peng, Samuel Yen-Chi Chen, Jiun-Cheng Jiang, Chen-Yu Liu, En-Jui Kuo, Yun-Yuan Wang, Prayag Tiwari, Andrea Ceschini, Chi-Sheng Chen, Yu-Chao Hsu, Chun-Hua Lin, Tai-Yue Li, Antonello Rosato

게시일 2026-05-11

📖 4 분 읽기☕ 가벼운 읽기

CC BY 4.0

원저자: Kuo-Chung Peng, Samuel Yen-Chi Chen, Jiun-Cheng Jiang, Chen-Yu Liu, En-Jui Kuo, Yun-Yuan Wang, Prayag Tiwari, Andrea Ceschini, Chi-Sheng Chen, Yu-Chao Hsu, Chun-Hua Lin, Tai-Yue Li, Antonello Rosato, Massimo Panella, Simon See, Saif Al-Kuwari, Kuan-Cheng Chen, Nan-Yow Chen, Hsi-Sheng Goan

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

"가문 QKAN-FWP: 확장 가능한 양자 영감 시퀀스 학습"이라는 논문에 대한 설명을 일상적인 언어와 창의적인 비유로 번역한 것입니다.

큰 그림: 과거를 기억하는 새로운 방식

방금 읽은 긴 이야기를 바탕으로 미래를 예측하려 한다고 상상해 보세요. 대부분의 컴퓨터 모델 (일반 AI 와 같은) 은 새로운 문장마다 업데이트되는 "심리적 메모" (은닉 상태) 를 유지함으로써 이야기를 기억하려 합니다. 하지만 이야기가 길어질수록 이러한 메모는 지저분해지고 업데이트하기 어려워지며, 컴퓨터는 모든 것을 추적하려다 지쳐버립니다.

이 논문은 가문 QKAN-FWP라는 새로운 방법을 소개합니다. 이 방법은 지저분한 심리적 메모를 유지하는 대신, 컴퓨터가 이야기를 읽는 방식의 규칙 자체를 실시간으로 변경합니다. 마치 머릿속에 요약을 붙잡고 있는 대신, 현재 문장에 따라 페이지의 잉크가 즉시 다시 쓰여지는 책을 가진 것과 같습니다.

세 가지 핵심 재료

1. "패스트 가중치" 아이디어: 메모리가 아닌 규칙을 다시 쓰기

표준 AI 를 공책에 메모를 하는 학생이라고 생각해 보세요. 새로운 사실을 들을 때마다 새로운 줄에 적어냅니다. 전체 이야기를 이해하려면 이전 모든 줄을 다시 읽어야 합니다.

저자들은 **패스트 가중치 프로그래밍 (FWP)**이라는 기법을 사용합니다. 공책 대신 학생이 마법 화이트보드를 가지고 있다고 상상해 보세요.

슬로우 프로그래머: 이는 선생님입니다. 현재 문장을 보고 "좋아, 이 문장에 대해서는 화이트보드 공식을 바꿔보자"라고 말합니다.
패스트 프로그래머: 이는 화이트보드 자체입니다. 선생님의 지시에 따라 즉시 자신의 규칙을 업데이트합니다.
결과: 모델은 과거를 기억할 필요가 없습니다. 현재를 이해하는 규칙 자체가 이미 과거의 기억을 포함하고 있기 때문입니다. 마치 화이트보드 자체가 현재 상황에 완벽하게 맞도록 자신의 지시를 다시 쓰는 것과 같습니다.

2. "양자 영감"의 불꽃: 단일 큐비트 트릭

보통 사람들이 AI 에 "양자" 아이디어를 적용하려 할 때, 완벽하게 동기화되어야 하는 거대한 오케스트라처럼 많은 얽힌 부분으로 구성된 거대하고 복잡한 기계를 만들려고 합니다. 이는 구축하기 어렵고 일반 컴퓨터에서 시뮬레이션하기는 더 어렵습니다.

저자들은 다른 접근법을 취합니다. **양자 영감 콜모고로프 - 아르노드 네트워크 (QKAN)**를 사용합니다.

비유: 거대한 오케스트라 대신, 매우 다재다능한 솔로 바이올리니스트를 상상해 보세요. 이 바이올리니스트 (단일 큐비트 회로) 는 활을 잡는 방식을 변경 (데이터 재업로드) 함으로써 어떤 멜로디 (비선형 함수) 라도 연주할 수 있습니다.
중요성: 그들은 오직 이 "솔로" 접근법만 사용하기 때문에 시스템은 경량화되어 일반 컴퓨터에서 쉽게 시뮬레이션할 수 있으며, 놀라울 정도로 강력합니다. 거대하고 잡음이 많은 양자 컴퓨터가 필요 없이 복잡한 패턴을 포착합니다.

3. "게이트": 기억을 위한 볼륨 노브

이전 "패스트 가중치" 모델에는 문제가 있었습니다. 새로운 규칙을 오래된 규칙 위에 영원히 계속 추가했다는 점입니다. 결국 화이트보드는 서로 충돌하는 지시사항으로 뒤죽박죽된 낙서로 변해버렸습니다.

저자들은 스칼라 게이트를 추가했습니다.

비유: 화이트보드에 볼륨 노브 (게이트) 가 있다고 상상해 보세요.
- 노브를 높게 (1 에 가깝게) 돌리면, 모델은 "오래된 규칙을 유지하자. 아직 좋으니까"라고 말합니다.
- 노브를 낮게 (0 에 가깝게) 돌리면, 모델은 "오래된 규칙은 잊자. 새로운 것을 시도해보자"라고 말합니다.
이익: 이는 모델이 너무 많은 과거 정보로 혼란을 겪는 것을 방지합니다. AI 가 과거 정보를 얼마나 유지하고 얼마나 잊을지 정확히 결정할 수 있게 하여 학습 과정을 훨씬 더 안정적으로 만듭니다.

실제로 무엇을 했는가? (결과)

팀은 이 새로운 "볼륨 노브가 달린 마법 화이트보드"를 세 가지 유형의 도전 과제에서 테스트했습니다.

수학 퍼즐 (시계열 벤치마크): 모델에게 감쇠 진자나 양자 물리 시뮬레이션과 같은 복잡한 수학 패턴을 예측하도록 요청했습니다.
- 결과: 새로운 모델은 특히 패턴이 길고 복잡할 때 이전 방법들보다 더 정확하고 안정적이었습니다.
비디오 게임 (강화 학습): 간단한 미로 게임 (MiniGrid) 에서 모델을 테스트했습니다.
- 결과: 모델은 훨씬 크고 무거운 모델만큼 미로를 해결하는 법을 학습했지만, 58% 적은 파라미터로 그렇게 했습니다 (훨씬 작고 효율적이었습니다).
태양 예측 (태양 주기 예측): 이것이 그들의 가장 큰 현실 세계 테스트였습니다. 태양의 행동이 혼돈스럽고 수십 년에 걸쳐 변하기 때문에 악명 높은 11 년 주기 흑점 주기를 예측해 보았습니다.
- 설정: 모델에 다음 11 년 (132 개월) 을 예측하기 위해 44 년치 데이터 (528 개월) 를 입력했습니다.
- 대결: 그들의 작은 모델 (12,500 개 파라미터) 은 거대한 고전 모델들 (일부는 최대 167,000 개 파라미터) 을 이겼습니다.
- 승리: 훨씬 작음에도 불구하고 흑점 활동이 가장 활발한 태양 주기 정점의 발생 시기와 강도를 더 정확하게 예측했습니다.
"실제 양자" 테스트: "양자 영감" 아이디어가 실제 하드웨어에서 작동함을 증명하기 위해 IonQ와 IBM의 실제 양자 컴퓨터에서 모델을 실행했습니다.
- 결과: 잡음이 많고 초기 단계인 이러한 양자 기계에서도 모델의 예측은 완벽한 컴퓨터 시뮬레이션과 거의 동일했습니다. 이는 그들의 방법이 현재 세대의 양자 하드웨어에 준비되어 있음을 증명합니다.

요약

이 논문은 AI 에게 긴 사건 시퀀스를 기억하도록 가르치는 교묘한 방법을 제시합니다. 무거운 메모리 뱅크를 채우는 대신, 경량화된 "양자 영감" 트릭을 사용하여 AI 가 실시간으로 자신의 규칙을 다시 쓰게 합니다. 과거 정보를 얼마나 유지할지 제어하는 "게이트"를 추가하여 혼란을 방지했습니다.

그 결과, 더 크고 무거운 경쟁자들보다 더 작고, 빠르고, 정확한 모델이 탄생했으며, 태양 주기 같은 복잡한 현실 세계 사건을 예측할 수 있으며, 오늘의 실험적 양자 컴퓨터에서 실행할 준비가 되었습니다.

기술 요약: 게이트형 QKAN-FWP: 확장 가능한 양자 영감 시퀀스 학습

문제 제기

장기적 시간 의존성 모델링은 시퀀스 학습에서 여전히 핵심적인 과제로 남아 있습니다. 양자 머신러닝 (QML) 의 맥락에서 이 과제는 잡음이 있는 중간 규모 양자 (NISQ) 하드웨어의 한계로 인해 더욱 심화됩니다. 기존 양자 순환 신경망 (QRNN) 과 양자 장기 단기 기억 (QLSTM) 변형들은 반복적인 회로 평가와 비용이 많이 드는 양자 기울기 추정을 수반하는 시간 역전파 (BPTT) 를 필요로 합니다. 시퀀스 길이가 증가함에 따라 학습 비용은 비현실적으로 커지며, 깊고 고도로 얽힌 양자 신경망은 신뢰성 있게 실행하거나 고전적으로 시뮬레이션하기 어렵습니다. 양자 패스트 가중 프로그래머 (QFWP) 는 숨겨진 상태 역학을 매개변수 역학으로 대체함으로써 패러다임 전환을 제시하지만, 기존 구현체들은 여전히 NISQ 장치에서 확장하기 어렵고 시뮬레이션 비용이 많이 드는 다중 큐비트 아키텍처에 의존하고 있습니다.

방법론

저자들은 **양자 영감 콜모고로프 - 아르노드 네트워크 (QKAN)**를 패스트 가중 프로그래밍 (FWP) 패러다임에 통합하는 게이트형 QKAN-FWP 프레임워크를 제안합니다. 이 아키텍처는 표현력을 유지하면서 다중 큐비트 얽힘 병목 현상을 우회하도록 설계되었습니다.

핵심 구성 요소

양자 영감 콜모고로프 - 아르노드 네트워크 (QKAN):
- 고정된 활성화 함수 대신 QKAN 은 **데이터 재업로드 활성화 (DARUAN)**로 구현된 학습 가능한 단변수 함수를 활용합니다.
- DARUAN 은 풍부한 푸리에 스펙트럼을 생성하기 위해 단일 큐비트 데이터 재업로드 회로를 사용하여, 적은 수의 매개변수로 매우 비선형적인 매핑을 가능하게 합니다.
- 이 단일 큐비트 접근법은 현재 NISQ 하드웨어 (단일 큐비트 오류율이 낮음) 와의 호환성을 보장하며 효율적인 고전 시뮬레이션을 가능하게 합니다.
패스트 가중 프로그래밍 (FWP) 프레임워크:
- 이 모델은 순환 숨겨진 상태의 진화를 매개변수 공간의 동적 진화로 대체합니다.
- "느린" 프로그래머 네트워크가 각 시간 단계에서 "빠른" 프로그래머에 대한 업데이트를 생성합니다.
- 빠른 매개변수는 현재 입력에 기반하여 진화하며, 순환 루프 내부에서 명시적인 양자 기울기 계산을 피합니다.
스칼라 게이트 업데이트 규칙:
- 새로운 기여는 스칼라 게이트형 패스트 가중 업데이트 규칙의 도입입니다.
- 각 시간 단계 $t$ 에서 느린 프로그래머는 업데이트 $\Delta W_t$ 와 스칼라 게이트 $g_t \in [0, 1]$ 를 출력합니다.
- 빠른 매개변수는 다음과 같이 진화합니다: $W_{t+1} = g_t W_t + (1 - g_t) \Delta W_t$ .
- 이 메커니즘은 이전 매개변수를 유지하는 것과 새로운 업데이트를 채택하는 것 사이를 보간하여 매개변수 진화를 안정화합니다.

이론적 분석

이 논문은 게이트형 업데이트에 대한 이론적 해석을 제공합니다:

적응형 메모리 커널: 재귀를 풀어서 보면 현재 매개변수가 모든 과거 업데이트의 가중치 집계임을 알 수 있으며, 여기서 가중치는 후속 게이트에 따라 감소합니다. 이는 입력 의존적 시간 커널을 생성합니다.
기하학적 유계성: 게이트형 업데이트는 초기화 및 과거 제안들의 볼록 껍질 내에서 빠른 매개변수가 유지되도록 하여, 게이트가 없는 변형에서 관찰되는 무제한 가법적 누적을 방지합니다.
병렬화 가능한 기울기 경로: 일반 RNN 이 체인 규칙을 통한 순차적 BPTT 를 필요로 하는 것과 달리, 게이트형 FWP 재귀는 매개변수 궤적을 병렬 접두어 스캔을 통해 해결할 수 있게 합니다. 이는 기울기 경로의 깊이를 $O(T)$ 에서 $O(\log T)$ 로 줄이고, 기울기가 밀집 행렬 곱셈이 아닌 스칼라 곱을 통해 전파되도록 하여 기울기 소실/폭발 문제를 완화합니다.

주요 기여

프레임워크 제안: 효율적인 시퀀스 모델링을 위해 QKAN 모듈과 패스트 가중 프로그래밍을 결합한 양자 영감 프레임워크인 게이트형 QKAN-FWP 의 도입.
게이트형 메커니즘: 메모리 유지와 업데이트 사이의 적응적 균형을 이루는 스칼라 게이트형 패스트 가중 메커니즘의 개발로, 기하학적 유계성과 병렬화 가능한 재귀에 대한 이론적 증명을 뒷받침함.
실증적 성능: 실제 세계의 다단계 태양 주기 예측에서 12,500 개 매개변수 모델이 최대 13 배 더 많은 매개변수를 가진 고전적 순환 베이스라인 (LSTM, WaveNet-LSTM, MESN) 보다 우수한 성능을 보임.
NISQ 검증: 훈련된 빠른 프로그래머를 실제 양자 하드웨어 (IonQ Forte-1 및 IBM ibm_aachen) 에 성공적으로 배포하여, 잡음이 없는 시뮬레이터 대비 상대 평균 제곱 오차 (MSE) $10^{-3}$ 이내의 예측 정확도를 회복함.

실험 결과

시계열 예측 벤치마크

이 모델은 합성 데이터셋 (감쇠 조화 진동자, 베셀 함수, NARMA5/10) 과 양자 역학 데이터셋 (지연 양자 제어, 제인스 - 커밍스) 에서 평가되었습니다.

강건성: 느린 및 빠른 프로그래머 모두에 HQKAN 을 사용한 GQKAN-QKANFWP 변형이 다양한 입력 윈도우 크기 ( $N=8$ 에서 $64$) 에서 가장 큰 강건성을 보였습니다.
안정성: 게이트가 없는 QFWP 변형은 윈도우 크기가 증가함에 따라 특히 NARMA 및 양자 역학 작업에서 성능이 크게 저하된 반면, 게이트형 HQKAN 기반 변형은 안정성을 유지했습니다.

실제 세계 태양 주기 예측

이 프레임워크는 1749 년부터 2026 년까지의 3,326 개 월별 흑점 기록을 사용하여 태양 주기를 예측하는 데 적용되었습니다.

설정: 약 4 주기에 해당하는 528 개월 입력 윈도우를 사용하여 1 주기 (132 개월) 에 해당하는 예측 범위를 설정했습니다.
성능: GQKAN-QKANFWP 모델 (12,474 개 매개변수) 은 다음 모델들보다 낮은 스케일된 MSE, 피크 진폭 오차 (PAE), 피크 타이밍 오차 (PTE) 를 달성했습니다:
- WaveNet-LSTM (167,000 개 매개변수)
- LSTM-L (89,000 개 매개변수)
- 수정된 에코 스테이트 네트워크 (MESN, 132,000 개 매개변수)
- 바닐라 RNN (11,500 개 매개변수)
시각화: 이 모델은 거시적 주기 구조와 피크 타이밍을 성공적으로 포착했으며, 예측 구간이 주기 전반에 걸쳐 실제 값을 포함했습니다.

강화 학습 (MiniGrid)

A3C 를 사용하여 MiniGrid-Empty 환경 (5x5 에서 16x16 격자) 에서 평가되었습니다.

게이트형 변형은 특히 격자 크기가 증가함에 따라 게이트가 없는 QFWP 보다 일관되게 우수한 성능을 보였습니다.
GQKAN-QKANFWP는 1,114 개 매개변수만으로 16x16 작업에서 경쟁력 있는 보상을 달성했으며, 이는 동등한 성능의 고전적 G-FWP 베이스라인 (2,665 개 매개변수) 대비 약 58% 감소한 수치입니다.

NISQ 하드웨어 실행

빠른 프로그래머는 IonQ Forte-1(36 큐비트) 및 IBM ibm_aachen(156 큐비트) 에서 실행되었습니다.
느린 프로그래머 및 게이팅 로직은 고전적으로 실행되었으며, DARUAN 모듈만 QPU 에서 실행되었습니다.
결과는 1,024 샷에서 잡음이 없는 시뮬레이터와 상대 MSE 약 0.1% 이내로 수렴했음을 보여주어, 단일 큐비트 설계의 NISQ 호환성을 확인했습니다.

중요성 및 주장

이 논문은 게이트형 QKAN-FWP를 확장 가능하고, 매개변수 효율적이며, NISQ 호환적인 양자 영감 시퀀스 모델링 접근법으로 제시합니다.

확장성: 단일 큐비트 회로 (DARUAN) 에만 의존하고 다중 큐비트 얽힘을 피함으로써, 기존 QRNN 들을 괴롭히는 하드웨어 제약과 시뮬레이션 비용을 우회합니다.
안정성: 스칼라 게이트형 업데이트 규칙은 장기 예측에서 매개변수 진화의 불안정성에 대한 이론적 및 실증적 해결책을 제공하며, 기하학적 유계성과 더 얕은 기울기 경로를 제공합니다.
실용성: 실제 양자 하드웨어에서의 성공적인 실행은 양자 영감 모델이 NISQ 한계에 의해 제약받던 이전에는 불가능했던 장기 예측과 같은 실제 작업에 현재 NISQ 장치에서 배포될 수 있음을 보여줍니다.
효율성: 이 모델은 고전적 순환 베이스라인보다 훨씬 적은 매개변수로 태양 주기 예측에서 최첨단 성능을 달성하여 QKAN 아키텍처의 매개변수 효율성을 강조합니다.

저자들은 원래 KAN 아키텍처가 초대규모 시나리오에서 최적화 도전에 직면하지만, 게이트형 QKAN-FWP 의 구조적 설계 (축소된 차원의 잠재 공간에서 자기회귀적으로 시퀀스를 처리) 가 이러한 부담을 완화하여 역학 최적화 및 추론을 넘어선 물리적 하드웨어 실행 확장을 위한 향후 연구의 길을 연다고 결론지었습니다.

Gated QKAN-FWP: Scalable Quantum-inspired Sequence Learning