Qiskit QuantumKatas: Adapting Microsoft's Quantum Computing exercises for LLM evaluation
본 논문은 양자 컴퓨팅 작업에 대한 대규모 언어 모델 (LLM) 평가를 위한 포괄적인 벤치마크로서 마이크로소프트의 QuantumKatas 를 Qiskit 기반으로 적응시킨 것을 소개하며, 기존 알고리즘 구현에서는 모델이 뛰어나지만 문제 인코딩에서는 어려움을 겪으며 체인 오브 씽킹 프롬프팅은 다양한 모델 아키텍처에서 혼합된 결과를 낳는다는 점을 밝힙니다.
350 개의 퍼즐로 구성된 거대한 도서관을 상상해 보세요. 이 퍼즐들은 양자 컴퓨터를 프로그래밍하는 데 사용되는 낯선 새로운 언어인'양자 (Quantum)'를 가르치기 위해 고안된 것입니다. 수년 동안 이 퍼즐들은 Q#(마이크로소프트의 방언) 이라는 언어로 작성되었습니다.
이 논문은 두 가지 주요 사항을 다룹니다:
도서관 번역: 저자들은 그 350 개의 퍼즐을 가져와 오늘날 양자 프로그래머들이 가장 많이 사용하는'방언'(프레임워크) 인 Qiskit으로 번역했습니다.
학생 평가: 그들은 이 번역된 도서관을 거대한 시험으로 활용하여 16 개의 서로 다른 인공지능 (AI) 모델이 이러한 양자 퍼즐을 해결하는 데 얼마나 능숙한지 테스트했습니다.
다음은 간단한 비유를 사용하여 그들이 발견한 내용을 요약한 것입니다:
1. 시험: "QuantumKatas"
QuantumKatas를'튜토리얼'(매우 쉬움) 에서'보스 배틀'(매우 어려움) 에 이르는 26 개의 서로 다른 레벨을 가진 비디오 게임이라고 생각하세요.
레벨: 일부 레벨은 AI 에게 동전 뒤집기 (기본 게이트) 와 같은 간단한 트릭을 수행하도록 요구합니다. 다른 레벨은 AI 에게 특정 알고리즘 (그로버 검색) 을 사용하여 건초더미 속에 숨겨진 바늘을 찾거나, 고장 난 기계를 수리 (오류 수정) 하는 것과 같은 복잡한 퍼즐을 해결하도록 요구합니다.
번역: 저자들은 새로운 퍼즐을 발명하지 않았습니다. 단지 기존 퍼즐들을 마이크로소프트의 Q# 언어에서 IBM 의 Qiskit 언어로 번역했을 뿐입니다. 이로써 난이도가 공정하게 유지되고 개념이 동일하게 유지됩니다.
채점: 그들은 AI 에게 코드 작성을 요청하는 데 그치지 않았습니다. 대신 시뮬레이터 (가상 양자 컴퓨터) 에서 코드를 실행하여 실제로 작동하는지 확인했습니다. 수학이 맞지 않으면 AI 는 실패한 것입니다.
2. 학생들: 16 개의 AI 모델
그들은 16 개의 서로 다른 AI'학생'을 테스트했습니다.
엘리트 학생들 (최첨단 모델): 이들은 GPT-5.5, Claude Opus, Gemini 3.1 과 같은 크고 비싼 독점 모델들입니다.
오픈 학생들 (오픈소스 모델): 이들은 Llama, Mistral, Gemma 와 같이 누구나 다운로드할 수 있는 무료 모델들입니다.
결과:
격차: 엘리트 학생들은 오픈 학생들보다 훨씬 높은 점수를 받았습니다. 평균적으로 엘리트 학생들은 퍼즐의 약 **75%**를 정답으로 맞힌 반면, 오픈 학생들은 약 **49%**만 맞혔습니다. 이는 우등생과 합격생 사이의 차이와 같습니다.
크기가 항상 승리를 보장하지는 않음: 흥미롭게도'더 큰 두뇌'(더 많은 파라미터) 를 가지고 있다고 해서 더 좋은 점수를 보장하는 것은 아닙니다. 일부 더 작고 스마트하게 튜닝된 모델이 거대한 모델들을 능가했습니다. 두뇌의 크기가 중요한 것이 아니라 어떻게 훈련되었는지가 중요합니다.
3. 공부 팁 (프롬프트 전략)
연구자들은 AI 의 성능을 향상시킬 수 있는지 확인하기 위해 질문을 하는 다양한 방법을 시도했습니다.
"보여주기"방법 (Few-Shot): 새로운 퍼즐을 풀도록 요청하기 전에 AI 에게 해결된 퍼즐 몇 가지를 보여주었습니다. 이는 거의 모든 이들에게 가장 신뢰할 수 있는방법이었습니다. 시험을 치르기 전에 학생에게 해결된 수학 문제를 보여주는 것과 같습니다.
"생각하기"방법 (Chain-of-Thought): AI 에게 코드를 작성하기 전에 단계별로 추론 과정을 설명하도록 요청했습니다.
반전: 이는'추론 튜닝'모델 (특히 깊이 생각하도록 훈련된 모델) 에게 매우 잘 작동하여 점수를 높였습니다.
단점: 대부분의 다른 모델들에게는 소리 내어 생각하기가 실제로 성능을 떨어뜨렸습니다. 퍼즐의 모든 단계를 말하며 설명하도록 학생에게 요청하면, 말하기에만 집중하다 보니 정답을 잊어버리는 것과 같습니다.
"그냥 하라"방법 (Zero-Shot): 예시 없이 질문만 던지는 것입니다. 이는 예시 없이도 도움이 필요 없는 절대적으로 가장 똑똑한 모델들 (GPT-5.5 등) 에게 가장 잘 작동했습니다.
4. 어디에서 어려움을 겪었나요?
AI 학생들은 어떤 것에는 능숙했지만 다른 것에는 형편없었습니다:
강점: 그들은 알려진 알고리즘을 암기하는 것에 탁월했습니다. 퍼즐이"시몬 알고리즘의 코드를 작성하라"고 요청하면, 82% 의 확률로 정답을 맞혔습니다. 이는 레시피를 외워서 완벽하게 요리하는 것과 같습니다.
약점: 그들은 문제 인코딩에 어려움을 겪었습니다. 퍼즐이"이 복잡한 현실 세계의 문제 (예: 논리 퍼즐) 를 양자 레시피로 변환하라"고 말하면, 그들은 자주 실패했습니다 (성공률 34% 만). 이는 레시피를 따르는 데는 뛰어나지만 제로에서 새로운 요리를 발명하는 데는 형편없는 것과 같습니다.
"측정"함정: 그들은 또한'측정'(양자 상태의 결과 확인) 과 관련된 작업에서도 어려움을 겪었습니다. 이는 현재 AI 에게 특정한 맹점으로 보입니다.
5. 결론
AI 는 나아지고 있지만 완벽하지는 않음: 최고의 AI 는 이러한 양자 퍼즐의 약 83% 를 해결할 수 있습니다. 이는 매우 어려운 주제에 대해 인상적인 성과이지만, 아직 완벽하지는 않습니다.
"번역"문제: AI 는 알려진 패턴을 복사하는 데는 능숙하지만, 새로운 복잡한 문제를 양자 코드로 번역하는 데는 더 약합니다.
한 가지 크기가 모두에게 맞지 않음: 모든 AI 에 대해 동일한'공부 팁'(프롬프트) 을 사용해서는 안 됩니다. 어떤 이는 예시가 필요하고, 어떤 이는 소리 내어 생각해야 하며, 어떤 이는 그냥 내버려 두는 것이 좋습니다.
간단히 말해: 저자들은 가장 인기 있는 언어로 표준화된'양자 운전 면허 시험'을 만들었습니다. 그들은 AI 가 알려진 도로 (표준 알고리즘) 를 운전하는 데는 매우 능숙해졌지만, 지도가 없을 때 (새로운 문제 해결) 길을 찾는 데는 여전히 어려움을 겪고 있음을 발견했습니다. 현재'엘리트'AI 모델들이 최고의 운전사이지만, 그들과'오픈'모델들 사이의 격차는 상당합니다.
기술 요약: LLM 평가를 위한 Qiskit QuantumKatas
문제 제기
대형 언어 모델 (LLM) 은 일반 프로그래밍 및 데이터 과학 분야에서 강력한 코드 생성 능력을 입증해 왔으나, 양자 컴퓨팅과 같은 특수 과학 컴퓨팅 분야에서의 숙련도는 아직 충분히 탐구되지 않았습니다. 양자 컴퓨팅은 중첩, 얽힘, 측정에 대한 이해를 요구하는 비고전적 계산 패러다임으로 인해 고유한 도전을 제시합니다. 기존 양자 작업용 벤치마크는 규모가 제한적이거나, 교육적 구조가 부재하거나, 코드 생성보다는 객관식 지식에 초점을 맞추는 경향이 있습니다. 따라서 가장 널리 채택된 프레임워크인 Qiskit 내에서 LLM 이 기능적인 양자 코드를 생성하는 능력을 세밀하게 분석할 수 있는 대규모 구조화된 벤치마크가 필요합니다.
방법론
저자들은 Microsoft 의 확립된 Q# 기반 QuantumKatas 커리큘럼을 Qiskit 으로 적응시킨 Qiskit QuantumKatas라는 벤치마크를 소개합니다. 방법론은 다음과 같습니다:
데이터셋 구축:
번역: 기본 게이트부터 고급 알고리즘까지의 원래 교육적 진행 과정을 유지하면서 350 개의 고유한 프로그래밍 작업을 Q# 에서 Qiskit 으로 번역했습니다.
검증: 고전 회로 시뮬레이션 (Qiskit 의 AerSimulator 및 Statevector) 을 사용하여 결정론적 평가 파이프라인을 구축했습니다. 각 작업에는 자연어 프롬프트, 표준 해답, 그리고 상태 벡터 비교 또는 측정 결과 분석을 통해 정확성을 검증하는 테스트 함수가 포함됩니다.
분류: 작업은 26 개 카테고리 (예: BasicGates, Grover 알고리즘, 양자 오류 정정) 와 세 가지 교육적 단계 (초급 95 개 작업, 중급 132 개 작업, 고급 123 개 작업) 로 구성되었습니다.
평가 프레임워크:
모델: 6 개의 최첨단 (독점) 모델 (예: GPT-5.5, Claude Opus 4.7) 과 8B 에서 675B 파라미터에 이르는 10 개의 오픈소스 모델을 포함하여 총 16 개의 LLM 을 평가했습니다.
프롬프팅 구성: 각 모델은 7 가지 프롬프팅 전략으로 테스트되었습니다. 세 가지 제로샷 변형 (기본, 최소, 상세), 세 가지 퓨샷 변형 (초급 카테고리 예제를 사용한 1 샷, 3 샷, 5 샷), 그리고 하나의 체인 오브 씽킹 (CoT) 구성입니다.
실행: 연구는 39,200 회의 모델 실행을 포함했습니다. 솔루션은 구문 분석되고, 구문 검사되었으며, 30 초 타임아웃이 적용된 격리된 하위 프로세스에서 실행되었습니다. 재현성을 보장하기 위해 온도 0 에서 Pass@1(단일 시도) 결과를 보고했습니다.
주요 기여
벤치마크 적응: 350 개 작업으로 구성된 QuantumKatas 커리큘럼을 Q# 에서 Qiskit 으로 완전히 번역하여, 지배적인 양자 프레임워크를 평가할 수 있는 검증된 교육 자원을 접근 가능하게 만들었습니다.
평가 인프라: 검증을 위한 고전 시뮬레이션, 다중 공급업체 지원, 구성 가능한 프롬프팅 전략을 특징으로 하는 견고하고 결정론적인 평가 파이프라인을 구축했습니다.
실증 분석: 양자 코드 생성에 대한 LLM 의 가장 대규모 체계적 평가를 수행하여 기준선 결과, 오류 분류, 그리고 26 개 카테고리에 걸친 세밀한 성능 프로파일링을 제공했습니다.
오픈 릴리스: 재현 가능한 연구를 지원하기 위해 데이터셋, 평가 프레임워크, 그리고 기준선 결과를 공개했습니다.
결과
평가 결과 양자 컴퓨팅 분야에서 LLM 의 능력과 관련하여 몇 가지 중요한 발견이 도출되었습니다:
모델 성능 격차:
최적 구성의 통과율은 32.3% (Granite 4.1 8B) 에서 83.1% (GPT-5.5) 까지 다양했습니다.
최첨단 모델 (평균 75.3%) 과 오픈소스 모델 (평균 49.3%) 사이에는 26.1% 포인트의 지속적인 격차가 존재합니다.
모델 규모는 성능을 완벽하게 예측하지 못합니다. 예를 들어, 675B 파라미터 Mistral Large 3(48.6%) 은 31B 파라미터 Gemma 4(68.0%) 보다 낮은 성능을 보였습니다.
프롬프팅 전략 효과:
퓨샷 프롬프팅(특히 5 샷) 은 평균적으로 가장 신뢰할 수 있는 전략 (평균 57.8%) 으로, 제로샷 및 체인 오브 씽킹을 능가했습니다.
체인 오브 씽킹 (CoT) 은 이중 모드 효과를 보였습니다: 세 가지 모델 (두 개는 명시적으로 추론 튜닝된 GPT-5.3-Codex 및 Gemini 3.1 Pro) 에게는 최상의 전략이었으나, 대부분의 다른 모델에서는 성능이 저하되었습니다 (예: Claude Sonnet 4.6 의 경우 11.1% 포인트 하락). 이는 CoT 가 양자 코드 생성에 보편적으로 유익하지 않음을 시사합니다.
작업 난이도와 능력:
알고리즘 구현 대 문제 인코딩: 모델들은 알려진 알고리즘을 구현하는 데는 잘 수행하지만 (예: Simon 알고리즘: 82.1%, BasicGates: 81.6%), 고전적 문제를 양자 원시 연산으로 인코딩하는 데는 크게 어려움을 겪습니다 (예: SolveSATWithGrover: 34.4%, DistinguishUnitaries: 40.0%).
오류 분석: 지배적인 실패 양상은 논리 오류(43.0%, 주로 AssertionError) 로, 코드는 실행되지만 잘못된 양자 상태를 생성합니다. 이는 구문이나 API 사용이 아닌 양자 추론이 주요 병목 현상임을 나타냅니다.
측정 추론: 측정 결과와 기저 선택과 관련된 카테고리 (예: Measurements, Teleportation) 는 일관되게 낮은 통과율을 보이며, 고전 - 양자 인터페이스에 대한 추론에서의 특정 약점을 강조합니다.
의의
본 논문은 Qiskit QuantumKatas 벤치마크가 특수 과학 분야에서 LLM 을 평가하기 위한 엄격하고 교육적으로 구조화된 도구를 제공한다고 주장합니다. 그 의의는 다음과 같습니다:
차별화: 이 벤치마크는 넓은 성능 스펙트럼에 걸쳐 모델 능력을 효과적으로 차별화하여 천장 효과나 바닥 효과를 방지합니다.
세분화: 26 개 카테고리 구조는 세밀한 분석을 가능하게 하여, LLM 이 문서화된 알고리즘 구조를 코드로 번역하는 능력은 고전적 문제에 대한 새로운 양자 솔루션을 구상하는 능력보다 더 우세함을 드러냅니다.
교육 및 개발적 유용성: 결과는 최첨단 모델이 초급 양자 주제에 대한 자동화된 튜터링 및 코드 완성을 위해 점점 더 실현 가능해지고 있지만, 고급 문제 구상이나 복잡한 산술에는 아직 신뢰할 수 없음을 시사합니다.
미래 방향: 이 연구는 규모 확장만으로는 특수 분야의 격차를 해소할 수 없음을 강조하며, 문제 인코딩 및 측정 추론의 특정 과제를 해결하기 위해서는 표적 훈련과 향상된 추론 능력이 필요할 것으로 보입니다.
저자들은 이 벤치마크가 노이즈 인식 작업, 연구 수준의 알고리즘, 그리고 최첨단 모델과 오픈소스 모델 간의 성능 격차를 해소하기 위한 도메인별 훈련 데이터 개발을 포함한 향후 연구의 기초 역할을 한다고 강조합니다.