Qiskit QuantumKatas: Adapting Microsoft's Quantum Computing exercises for LLM evaluation

본 논문은 양자 컴퓨팅 작업에 대한 대규모 언어 모델 (LLM) 평가를 위한 포괄적인 벤치마크로서 마이크로소프트의 QuantumKatas 를 Qiskit 기반으로 적응시킨 것을 소개하며, 기존 알고리즘 구현에서는 모델이 뛰어나지만 문제 인코딩에서는 어려움을 겪으며 체인 오브 씽킹 프롬프팅은 다양한 모델 아키텍처에서 혼합된 결과를 낳는다는 점을 밝힙니다.

원저자: Juan Cruz-Benito, Ismael Faro

게시일 2026-05-27
📖 4 분 읽기🧠 심층 분석

원저자: Juan Cruz-Benito, Ismael Faro

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

350 개의 퍼즐로 구성된 거대한 도서관을 상상해 보세요. 이 퍼즐들은 양자 컴퓨터를 프로그래밍하는 데 사용되는 낯선 새로운 언어인'양자 (Quantum)'를 가르치기 위해 고안된 것입니다. 수년 동안 이 퍼즐들은 Q#(마이크로소프트의 방언) 이라는 언어로 작성되었습니다.

이 논문은 두 가지 주요 사항을 다룹니다:

  1. 도서관 번역: 저자들은 그 350 개의 퍼즐을 가져와 오늘날 양자 프로그래머들이 가장 많이 사용하는'방언'(프레임워크) 인 Qiskit으로 번역했습니다.
  2. 학생 평가: 그들은 이 번역된 도서관을 거대한 시험으로 활용하여 16 개의 서로 다른 인공지능 (AI) 모델이 이러한 양자 퍼즐을 해결하는 데 얼마나 능숙한지 테스트했습니다.

다음은 간단한 비유를 사용하여 그들이 발견한 내용을 요약한 것입니다:

1. 시험: "QuantumKatas"

QuantumKatas를'튜토리얼'(매우 쉬움) 에서'보스 배틀'(매우 어려움) 에 이르는 26 개의 서로 다른 레벨을 가진 비디오 게임이라고 생각하세요.

  • 레벨: 일부 레벨은 AI 에게 동전 뒤집기 (기본 게이트) 와 같은 간단한 트릭을 수행하도록 요구합니다. 다른 레벨은 AI 에게 특정 알고리즘 (그로버 검색) 을 사용하여 건초더미 속에 숨겨진 바늘을 찾거나, 고장 난 기계를 수리 (오류 수정) 하는 것과 같은 복잡한 퍼즐을 해결하도록 요구합니다.
  • 번역: 저자들은 새로운 퍼즐을 발명하지 않았습니다. 단지 기존 퍼즐들을 마이크로소프트의 Q# 언어에서 IBM 의 Qiskit 언어로 번역했을 뿐입니다. 이로써 난이도가 공정하게 유지되고 개념이 동일하게 유지됩니다.
  • 채점: 그들은 AI 에게 코드 작성을 요청하는 데 그치지 않았습니다. 대신 시뮬레이터 (가상 양자 컴퓨터) 에서 코드를 실행하여 실제로 작동하는지 확인했습니다. 수학이 맞지 않으면 AI 는 실패한 것입니다.

2. 학생들: 16 개의 AI 모델

그들은 16 개의 서로 다른 AI'학생'을 테스트했습니다.

  • 엘리트 학생들 (최첨단 모델): 이들은 GPT-5.5, Claude Opus, Gemini 3.1 과 같은 크고 비싼 독점 모델들입니다.
  • 오픈 학생들 (오픈소스 모델): 이들은 Llama, Mistral, Gemma 와 같이 누구나 다운로드할 수 있는 무료 모델들입니다.

결과:

  • 격차: 엘리트 학생들은 오픈 학생들보다 훨씬 높은 점수를 받았습니다. 평균적으로 엘리트 학생들은 퍼즐의 약 **75%**를 정답으로 맞힌 반면, 오픈 학생들은 약 **49%**만 맞혔습니다. 이는 우등생과 합격생 사이의 차이와 같습니다.
  • 크기가 항상 승리를 보장하지는 않음: 흥미롭게도'더 큰 두뇌'(더 많은 파라미터) 를 가지고 있다고 해서 더 좋은 점수를 보장하는 것은 아닙니다. 일부 더 작고 스마트하게 튜닝된 모델이 거대한 모델들을 능가했습니다. 두뇌의 크기가 중요한 것이 아니라 어떻게 훈련되었는지가 중요합니다.

3. 공부 팁 (프롬프트 전략)

연구자들은 AI 의 성능을 향상시킬 수 있는지 확인하기 위해 질문을 하는 다양한 방법을 시도했습니다.

  • "보여주기"방법 (Few-Shot): 새로운 퍼즐을 풀도록 요청하기 전에 AI 에게 해결된 퍼즐 몇 가지를 보여주었습니다. 이는 거의 모든 이들에게 가장 신뢰할 수 있는방법이었습니다. 시험을 치르기 전에 학생에게 해결된 수학 문제를 보여주는 것과 같습니다.
  • "생각하기"방법 (Chain-of-Thought): AI 에게 코드를 작성하기 전에 단계별로 추론 과정을 설명하도록 요청했습니다.
    • 반전: 이는'추론 튜닝'모델 (특히 깊이 생각하도록 훈련된 모델) 에게 매우 잘 작동하여 점수를 높였습니다.
    • 단점: 대부분의 다른 모델들에게는 소리 내어 생각하기가 실제로 성능을 떨어뜨렸습니다. 퍼즐의 모든 단계를 말하며 설명하도록 학생에게 요청하면, 말하기에만 집중하다 보니 정답을 잊어버리는 것과 같습니다.
  • "그냥 하라"방법 (Zero-Shot): 예시 없이 질문만 던지는 것입니다. 이는 예시 없이도 도움이 필요 없는 절대적으로 가장 똑똑한 모델들 (GPT-5.5 등) 에게 가장 잘 작동했습니다.

4. 어디에서 어려움을 겪었나요?

AI 학생들은 어떤 것에는 능숙했지만 다른 것에는 형편없었습니다:

  • 강점: 그들은 알려진 알고리즘을 암기하는 것에 탁월했습니다. 퍼즐이"시몬 알고리즘의 코드를 작성하라"고 요청하면, 82% 의 확률로 정답을 맞혔습니다. 이는 레시피를 외워서 완벽하게 요리하는 것과 같습니다.
  • 약점: 그들은 문제 인코딩에 어려움을 겪었습니다. 퍼즐이"이 복잡한 현실 세계의 문제 (예: 논리 퍼즐) 를 양자 레시피로 변환하라"고 말하면, 그들은 자주 실패했습니다 (성공률 34% 만). 이는 레시피를 따르는 데는 뛰어나지만 제로에서 새로운 요리를 발명하는 데는 형편없는 것과 같습니다.
  • "측정"함정: 그들은 또한'측정'(양자 상태의 결과 확인) 과 관련된 작업에서도 어려움을 겪었습니다. 이는 현재 AI 에게 특정한 맹점으로 보입니다.

5. 결론

  • AI 는 나아지고 있지만 완벽하지는 않음: 최고의 AI 는 이러한 양자 퍼즐의 약 83% 를 해결할 수 있습니다. 이는 매우 어려운 주제에 대해 인상적인 성과이지만, 아직 완벽하지는 않습니다.
  • "번역"문제: AI 는 알려진 패턴을 복사하는 데는 능숙하지만, 새로운 복잡한 문제를 양자 코드로 번역하는 데는 더 약합니다.
  • 한 가지 크기가 모두에게 맞지 않음: 모든 AI 에 대해 동일한'공부 팁'(프롬프트) 을 사용해서는 안 됩니다. 어떤 이는 예시가 필요하고, 어떤 이는 소리 내어 생각해야 하며, 어떤 이는 그냥 내버려 두는 것이 좋습니다.

간단히 말해: 저자들은 가장 인기 있는 언어로 표준화된'양자 운전 면허 시험'을 만들었습니다. 그들은 AI 가 알려진 도로 (표준 알고리즘) 를 운전하는 데는 매우 능숙해졌지만, 지도가 없을 때 (새로운 문제 해결) 길을 찾는 데는 여전히 어려움을 겪고 있음을 발견했습니다. 현재'엘리트'AI 모델들이 최고의 운전사이지만, 그들과'오픈'모델들 사이의 격차는 상당합니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →