QASM-Eval: A Dataset to Train and Evaluate LLMs on OpenQASM-3 Beyond Quantum Circuits

이 논문은 클래식 피드백 및 펄스 제어와 같은 OpenQASM-3의 고급 하드웨어 대응 기능을 대상으로 대규모 언어 모델을 학습시키고 평가하기 위해 설계된 최초의 포괄적인 데이터셋이자 벤치마크인 QASM-Eval을 소개하며, 표적 미세 조정이 이러한 중요한 NISQ 시대 프로그래밍 작업에서 모델 성능을 유의미하게 향상시킨다는 것을 입증한다.

원저자: Zhenxiao Fu, Lei Jiang, Fan Chen

게시일 2026-06-01
📖 3 분 읽기☕ 가벼운 읽기

원저자: Zhenxiao Fu, Lei Jiang, Fan Chen

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 아주 정교하고 첨단 기술이 집약된 기계, 즉 양자 컴퓨터를 만드는 법을 배우고 있는 아주 똑똑하지만 경험이 부족한 도제(apprentice)에게 가르치고 있다고 상상해 보십시오.

오랫동안 우리가 이 도제에게 주었던 지침은 단순한 레시피와 같았습니다: "재료를 섞고, 10분 동안 굽는다." 기본적인 작업에는 이것으로 충분했습니다. 하지만 이제 이 기계는 매우 시끄럽고 까다로운 단계(이를 NISQ 시대라고 부릅니다)에 진입하고 있습니다. 이 기계를 안정적으로 작동시키려면 지침이 훨씬 더 구체적이어야 합니다. 이제 도제는 정확히 언제 온도를 확인해야 하는지, 굽는 도중에 어떻게 오븐 문을 조절해야 하는지, 심지어 열파(heat waves)의 모양 자체를 어떻게 미세하게 조정해야 하는지까지 알아야 합니다.

이러한 초정밀 지침에 사용되는 언어를 OpenQASM 3라고 부릅니다. 이것은 양자 컴퓨터를 위한 "하드웨어 매뉴얼"입니다.

문제점: 도제가 혼란에 빠지다

AI가 코드를 작성하는 데 매우 능숙해졌음에도 불구하고, 한 가지 큰 문제가 있었습니다. 이 새로운 복잡한 언어에 특화된 연습 시험을 만든 사람이 아무도 없었다는 점입니다.

기존의 테스트들은 도제에게 "케이크를 구워라"(고차원 논리)라고 하거나 "고장 난 토스터를 고쳐라"(기초 회로)라고 묻는 수준이었습니다. 하지만 기존 테스트들은 도제가 다음의 기술들을 갖추었는지 테스트하지 못했습니다:

  1. 멈춰서 생각하기: 베이킹 과정을 잠시 멈추고, 센서를 확인한 뒤, 그 수치를 바탕으로 설탕을 더 넣을지 결정하는 것 (고전적 논리/Classical Logic).
  2. 완벽한 타이밍 맞추기: 오븐 문을 열기 전 정확히 0.0000001초를 기다리거나, 두 개의 오븐을 완벽하게 동기화하는 것 (타이밍 스케줄링/Timing Scheduling).
  3. 파동 미세 조정하기: 음식이 타는 것을 방지하기 위해 음식에 닿는 열파의 모양을 수동으로 조절하는 것 (펄스 제어/Pulse Control).

이러한 특정 기술들을 위한 연습 시험이 없었기 때문에, AI 모델들은 추측에 의존했고, 결과적으로 처참하게 실패했습니다.

해결책: QASM-Eval (궁극의 연습 시험)

연구진은 QASM-Eval을 만들었습니다. 이것은 AI를 위한 거대하고 특화된 전문 훈련 체육관이자 최종 시험이라고 생각하면 됩니다. 이는 OpenQASM 3를 위해 특별히 설계되었습니다.

  • 훈련 세트: 연구진은 4,000개의 연습 문제를 생성했습니다. 이 문제들은 단순히 무작위 질문이 아닙니다. AI가 양자 기계를 올바르게 작동시키기 위해 누락된 코드를 채워 넣어야 하는 정교하게 설계된 시나리오들입니다.
  • 시험: 100문항으로 구성된 엄격한 시험을 만들었습니다.
  • 채점 시스템: 연구진은 특별한 "로봇 선생님"(자동 검증기)을 구축했습니다. 이 로봇은 단순히 코드가 올바르게 보이는지만 확인하는 것이 아니라, 실제로 양자 기계를 시뮬레이션하여 코드가 올바른 결과를 내는지, 타이밍 규칙을 준서하는지, 그리고 시스템을 충돌시키지 않는지 확인합니다.

연구 결과

연구진은 여러 최상급 AI 모델(Llama 및 GPT 등)을 이 새로운 시험에 투입했습니다. 결과는 다음과 같았습니다.

  1. "제로샷(Zero-Shot)"의 고전: 아무런 도움 없이 시험을 치르게 했을 때(그저 "질문이 여기 있으니 풀어라"라고 했을 때), 결과는 형편없었습니다. AI들은 일반 물리학은 공부했지만, 이 특정 기계의 설계도는 본 적이 없는 학생들과 같았습니다. 그들은 문법(syntax)조차 제대로 맞추지 못했고, 타이밍 조절은 말할 것도 없었습니다.
  2. "퓨샷(Few-Shot)"의 상승: 연구진이 유사한 문제를 해결하는 방법(예: 샘题 답안지를 하나 보여주는 것)을 몇 가지 예시로 먼저 제공했을 때, 점수가 올라갔습니다. 이는 마치 학생에게 예시 답안이 포함된 커닝 페이퍼를 준 것과 같았습니다.
  3. "파인 튜닝(Fine-Tuning)"의 돌파구: 이것이 결정적인 승리였습니다. 연구진은 AI 모델들을 가져와 4,000개의 연습 문제를 통해 "특화 훈련"을 시켰습니다.
    • 결과: 중간 규모의 AI 모델(Llama-8B)은 이 특화 훈련을 거친 후, 훈련을 전혀 받지 않은 가장 강력하고 비싼 AI(GPT-5.2)와 거의 대등한 성능을 보여주었습니다.
    • 챔피언: 더 큰 AI 모델(Llama-70B)은 훈련 후 마스터가 되었습니다. 이 모델은 시험에서 **85%**를 기록하며, 몇 가지 예시를 제공받은 상태의 가장 강력한 AI마저 제쳤습니다.

시사점

이 논문은 병목 현상이 AI가 양자 물리학에 대해 "멍청해서" 발생하는 것이 아니라고 결 결론짓습니다. 병목 현상은 AI가 OpenQASM 3의 특정한 문법과 규칙을 모른다는 점에 있습니다.

전용 데이터셋(QASM-Eval)을 만들고 이를 통해 AI를 훈련시킴으로써, 연구진은 범용 AI를 매우 신뢰할 수 있는 양자 프로그래머로 바꿀 수 있음을 증명했습니다. 이는 자동차 운전법을 아는 똑똑한 사람에게 포뮬러 원(F1) 카 전용 매뉴얼과 연습 트랙을 제공하는 것과 같습니다. 그러면 그 사람은 갑자기 레이스카를 완벽하게 몰 수 있게 됩니다.

이 데이터셋은 이제 모두가 사용할 수 있도록 공개되어 있으며, 인간이 차세대 양자 컴퓨터를 프로그래밍하는 데 도움을 줄 수 있는 더 나은 AI 어시스턴트를 구축하는 데 기여할 것입니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →