Qiskit QuantumKatas: Adapting Microsoft's Quantum Computing exercises for LLM evaluation

本文介绍了一种基于 Qiskit 的微软 QuantumKatas 改编方案,作为评估大语言模型在量子计算任务上表现的综合基准,结果表明:尽管模型在实现已知算法方面表现出色,但在问题编码方面却存在困难,且思维链提示在不同模型架构上产生了混合的结果。

原作者: Juan Cruz-Benito, Ismael Faro

发布于 2026-05-27
📖 1 分钟阅读🧠 深度阅读

原作者: Juan Cruz-Benito, Ismael Faro

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你拥有一个包含 350 个谜题的巨型图书馆,旨在教会某人如何说“量子”语——一种用于编程量子计算机的奇特新语言。多年来,这些谜题是用一种名为 Q#(微软的方言)的语言编写的。

本文主要讲述两件事:

  1. 翻译图书馆:作者将这 350 个谜题翻译成了Qiskit,这是当今量子程序员最常用的“方言”(框架)。
  2. 测试学生:他们利用这个翻译后的图书馆作为一场大型考试,测试了 16 种不同的人工智能(AI)模型,看看它们在解决这些量子谜题方面表现如何。

以下是他们发现的分解说明,使用了简单的类比:

1. 考试:“QuantumKatas”

QuantumKatas想象成一款拥有 26 个不同关卡的视频游戏,从“教程”(非常简单)到“Boss 战”(非常困难)。

  • 关卡:有些关卡要求 AI 执行简单的技巧,比如翻转硬币(基本门)。其他关卡则要求 AI 解决复杂的谜题,比如使用特定算法(Grover 搜索)在干草堆中寻找隐藏的针,或者修复一台损坏的机器(纠错)。
  • 翻译:作者并没有发明新的谜题;他们只是将现有的谜题从微软的 Q# 语言翻译成了 IBM 的 Qiskit 语言。这确保了难度公平且概念一致。
  • 评分:他们不仅要求 AI 编写代码;他们还在模拟器(虚拟量子计算机)中运行代码,以查看其是否真正有效。如果数学结果不匹配,AI 就会失败。

2. 学生:16 种 AI 模型

他们测试了 16 种不同的 AI“学生”。

  • “精英”学生(前沿模型):这些是大型、昂贵且专有的模型(如 GPT-5.5、Claude Opus、Gemini 3.1)。
  • “开源”学生(开源模型):这些是任何人都可以下载的免费模型(如 Llama、Mistral、Gemma)。

结果

  • 差距:“精英”学生的得分远高于“开源”学生。平均而言,“精英”学生答对了约75%的谜题,而“开源”学生仅答对了约49%。这就像优等生与及格生之间的差别。
  • 大小并不总是赢家:有趣的是,拥有“更大的大脑”(更多参数)并不能保证更高的分数。一些较小但经过更智能调优的模型表现优于庞大的模型。这不仅仅关乎大脑有多大,还关乎它是如何训练的。

3. 学习提示(提示策略)

研究人员尝试了不同的提问方式,以观察是否有助于 AI 表现得更好。

  • “展示给我”方法(少样本):他们在要求 AI 解决新谜题之前,先给它几个已解决的谜题示例。这对几乎所有人来说都是最可靠的方法。这就像在给学生考试之前,先给他们看一道已解开的数学题。
  • “大声思考”方法(思维链):他们要求 AI 在编写代码之前逐步解释其推理过程。
    • 转折:这对“推理调优”模型(专门训练用于深入思考的模型)非常有效,提高了它们的分数。
    • 缺点:对于大多数其他模型来说,大声思考实际上使它们的表现更差。这就像要求学生在解决谜题时把每一步都说出来,结果他们因为说话而分心,忘记了答案。
  • “直接做”方法(零样本):只提出问题,不提供任何示例。这对绝对最聪明的模型(如 GPT-5.5)效果最好,它们不需要帮助。

4. 他们在哪里挣扎?

AI 学生在某些方面很擅长,但在其他方面却表现糟糕:

  • 强项:它们非常擅长复述已知算法。如果谜题要求“编写 Simon 算法的代码”,它们 82% 的情况下都能答对。这就像背诵食谱并完美地烹饪出来。
  • 弱点:它们在问题编码方面存在困难。如果谜题说“将这个混乱的现实世界问题(如逻辑谜题)转化为量子食谱”,它们经常失败(成功率仅为 34%)。这就像非常擅长遵循食谱,却非常不擅长从头开始发明新菜肴。
  • “测量”陷阱:它们在涉及“测量”(检查量子态结果)的任务中也遇到了困难。这似乎是当前 AI 的一个特定盲点。

5. 裁决

  • AI 正在变好,但尚未完美:最好的 AI 能解决约 83% 的这些量子谜题。对于如此困难的学科来说,这令人印象深刻,但尚未达到完美。
  • “翻译”问题:AI 更擅长复制已知模式,而不是将新的、混乱的问题转化为量子代码。
  • 一种方法并不适用于所有情况:你不应该对每个 AI 使用相同的“学习提示”(提示)。有些需要示例,有些需要大声思考,而有些则只需要被放任不管。

简而言之:作者用最流行的语言构建了一个标准化的“量子驾驶考试”。他们发现,虽然 AI 在已知道路上驾驶(标准算法)方面变得非常擅长,但在地图缺失时(解决新问题)它仍然难以导航。“精英”AI 模型目前是最好的驾驶员,但它们与“开源”模型之间的差距仍然显著。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →