想象一下,你拥有一个包含 350 个谜题的巨型图书馆,旨在教会某人如何说“量子”语——一种用于编程量子计算机的奇特新语言。多年来,这些谜题是用一种名为 Q#(微软的方言)的语言编写的。
本文主要讲述两件事:
- 翻译图书馆:作者将这 350 个谜题翻译成了Qiskit,这是当今量子程序员最常用的“方言”(框架)。
- 测试学生:他们利用这个翻译后的图书馆作为一场大型考试,测试了 16 种不同的人工智能(AI)模型,看看它们在解决这些量子谜题方面表现如何。
以下是他们发现的分解说明,使用了简单的类比:
1. 考试:“QuantumKatas”
将QuantumKatas想象成一款拥有 26 个不同关卡的视频游戏,从“教程”(非常简单)到“Boss 战”(非常困难)。
- 关卡:有些关卡要求 AI 执行简单的技巧,比如翻转硬币(基本门)。其他关卡则要求 AI 解决复杂的谜题,比如使用特定算法(Grover 搜索)在干草堆中寻找隐藏的针,或者修复一台损坏的机器(纠错)。
- 翻译:作者并没有发明新的谜题;他们只是将现有的谜题从微软的 Q# 语言翻译成了 IBM 的 Qiskit 语言。这确保了难度公平且概念一致。
- 评分:他们不仅要求 AI 编写代码;他们还在模拟器(虚拟量子计算机)中运行代码,以查看其是否真正有效。如果数学结果不匹配,AI 就会失败。
2. 学生:16 种 AI 模型
他们测试了 16 种不同的 AI“学生”。
- “精英”学生(前沿模型):这些是大型、昂贵且专有的模型(如 GPT-5.5、Claude Opus、Gemini 3.1)。
- “开源”学生(开源模型):这些是任何人都可以下载的免费模型(如 Llama、Mistral、Gemma)。
结果:
- 差距:“精英”学生的得分远高于“开源”学生。平均而言,“精英”学生答对了约75%的谜题,而“开源”学生仅答对了约49%。这就像优等生与及格生之间的差别。
- 大小并不总是赢家:有趣的是,拥有“更大的大脑”(更多参数)并不能保证更高的分数。一些较小但经过更智能调优的模型表现优于庞大的模型。这不仅仅关乎大脑有多大,还关乎它是如何训练的。
3. 学习提示(提示策略)
研究人员尝试了不同的提问方式,以观察是否有助于 AI 表现得更好。
- “展示给我”方法(少样本):他们在要求 AI 解决新谜题之前,先给它几个已解决的谜题示例。这对几乎所有人来说都是最可靠的方法。这就像在给学生考试之前,先给他们看一道已解开的数学题。
- “大声思考”方法(思维链):他们要求 AI 在编写代码之前逐步解释其推理过程。
- 转折:这对“推理调优”模型(专门训练用于深入思考的模型)非常有效,提高了它们的分数。
- 缺点:对于大多数其他模型来说,大声思考实际上使它们的表现更差。这就像要求学生在解决谜题时把每一步都说出来,结果他们因为说话而分心,忘记了答案。
- “直接做”方法(零样本):只提出问题,不提供任何示例。这对绝对最聪明的模型(如 GPT-5.5)效果最好,它们不需要帮助。
4. 他们在哪里挣扎?
AI 学生在某些方面很擅长,但在其他方面却表现糟糕:
- 强项:它们非常擅长复述已知算法。如果谜题要求“编写 Simon 算法的代码”,它们 82% 的情况下都能答对。这就像背诵食谱并完美地烹饪出来。
- 弱点:它们在问题编码方面存在困难。如果谜题说“将这个混乱的现实世界问题(如逻辑谜题)转化为量子食谱”,它们经常失败(成功率仅为 34%)。这就像非常擅长遵循食谱,却非常不擅长从头开始发明新菜肴。
- “测量”陷阱:它们在涉及“测量”(检查量子态结果)的任务中也遇到了困难。这似乎是当前 AI 的一个特定盲点。
5. 裁决
- AI 正在变好,但尚未完美:最好的 AI 能解决约 83% 的这些量子谜题。对于如此困难的学科来说,这令人印象深刻,但尚未达到完美。
- “翻译”问题:AI 更擅长复制已知模式,而不是将新的、混乱的问题转化为量子代码。
- 一种方法并不适用于所有情况:你不应该对每个 AI 使用相同的“学习提示”(提示)。有些需要示例,有些需要大声思考,而有些则只需要被放任不管。
简而言之:作者用最流行的语言构建了一个标准化的“量子驾驶考试”。他们发现,虽然 AI 在已知道路上驾驶(标准算法)方面变得非常擅长,但在地图缺失时(解决新问题)它仍然难以导航。“精英”AI 模型目前是最好的驾驶员,但它们与“开源”模型之间的差距仍然显著。
技术摘要:用于大语言模型评估的 Qiskit QuantumKatas
问题陈述
尽管大语言模型(LLMs)在通用编程和数据科学领域已展现出强大的代码生成能力,但其在专业科学计算——特别是量子计算——方面的熟练程度仍有待探索。量子计算因其非经典的计算范式而构成独特挑战,要求理解叠加、纠缠和测量等概念。现有的量子任务基准往往规模有限、缺乏教学结构,或侧重于多项选择知识而非代码生成。因此,亟需一个大规模、结构化的基准,以在应用最广泛的框架 Qiskit 中,对大语言模型生成功能性量子代码的能力进行细粒度分析。
方法论
作者引入了Qiskit QuantumKatas,这是一个将微软既有的 QuantumKatas 课程(原基于 Q#)适配至 Qiskit 的基准。其方法论包括:
数据集构建:
- 翻译: 将 350 个不同的编程任务从 Q# 翻译为 Qiskit,保留了从基础门到高级算法的原始教学进度。
- 验证: 构建了一个基于经典电路模拟(Qiskit 的
AerSimulator 和 Statevector)的确定性评估流程。每个任务包含自然语言提示、规范解以及通过状态向量比较或测量结果分析来验证正确性的测试函数。
- 分类: 任务被组织为 26 个类别(例如 BasicGates、Grover 算法、量子纠错),并分为三个教学层级:入门级(95 个任务)、中级(132 个任务)和高级(123 个任务)。
评估框架:
- 模型: 评估了 16 个大语言模型,包括 6 个前沿(专有)模型(例如 GPT-5.5、Claude Opus 4.7)和 10 个开源模型(参数量从 80 亿到 6750 亿不等)。
- 提示配置: 每个模型均通过 7 种提示策略进行测试:三种零样本变体(默认、最小化、详细)、三种少样本变体(1-shot、3-shot、5-shot,使用入门级类别中的示例)以及一种思维链(CoT)配置。
- 执行: 本研究涉及 39,200 次模型运行。解决方案被解析、进行语法检查,并在隔离的子进程中执行,超时时间为 30 秒。在温度设为 0 的情况下报告 Pass@1(单次尝试)结果,以确保可复现性。
主要贡献
- 基准适配: 将 350 个任务的 QuantumKatas 课程从 Q# 完整翻译至 Qiskit,使这一经过验证的教学资源可用于评估主流的量子框架。
- 评估基础设施: 构建了一个稳健、确定性的评估流程,具备用于验证的经典模拟、多提供商支持以及可配置的提示策略。
- 实证分析: 这是迄今为止对大语言模型在量子代码生成方面最大规模的系统性评估,提供了基准结果、错误分类以及跨 26 个类别的细粒度性能剖析。
- 开源发布: 数据集、评估框架和基准结果已发布,以支持可复现的研究。
结果
该评估得出了关于大语言模型在量子计算方面能力的几项关键发现:
模型性能差距:
- 最佳配置下的通过率范围从 32.3%(Granite 4.1 8B)到 83.1%(GPT-5.5)。
- 前沿模型(平均 75.3%)与开源模型(平均 49.3%)之间存在持续的 26.1 个百分点 的差距。
- 模型规模并非性能的完美预测指标;例如,拥有 6750 亿参数的 Mistral Large 3(48.6%)表现不如拥有 310 亿参数的 Gemma 4(68.0%)。
提示策略效应:
- 少样本提示(特别是 5-shot)在平均表现上是最可靠的策略(57.8% 均值),优于零样本和思维链。
- 思维链(CoT) 表现出双峰效应:它是三个模型的最佳策略(其中两个是显式推理调优的:GPT-5.3-Codex 和 Gemini 3.1 Pro),但降低了大多数其他模型的性能(例如,Claude Sonnet 4.6 下降了 11.1 个百分点)。这表明 CoT 并非对所有量子代码生成都有普遍益处。
任务难度与能力:
- 算法实现与问题编码: 模型在实现已知算法方面表现良好(例如 Simon 算法:82.1%,BasicGates:81.6%),但在将经典问题编码为量子原语方面存在显著困难(例如 SolveSATWithGrover:34.4%,DistinguishUnitaries:40.0%)。
- 错误分析: 主要的失败模式是逻辑错误(43.0%,主要是
AssertionError),即代码可以运行但产生错误的量子态。这表明量子推理而非语法或 API 使用是主要的瓶颈。
- 测量推理: 涉及测量结果和基选择的类别(例如 Measurements、Teleportation)一致显示出较低的通过率,突显了在推理经典 - 量子接口方面的特定弱点。
意义
该论文声称,Qiskit QuantumKatas 基准为评估专业科学领域中的大语言模型提供了一个严谨且结构化的教学工具。其意义在于:
- 区分度: 该基准能有效区分广泛性能谱系中的模型能力,避免了天花板或地板效应。
- 粒度: 26 个类别的结构允许进行细粒度分析,揭示大语言模型比构思针对经典问题的新量子解决方案,更擅长将文档化的算法结构转化为代码。
- 教育与开发效用: 结果表明,虽然前沿模型在入门级量子主题的自动化辅导和代码补全方面正变得可行,但它们尚不可信用于高级问题 formul 或复杂算术。
- 未来方向: 研究强调,仅靠扩展可能无法弥合专业领域的差距;有针对性的训练和改进的推理能力对于解决问题编码和测量推理的具体挑战可能是必要的。
作者强调,该基准为未来研究奠定了基础,包括噪声感知任务、研究级算法,以及开发领域特定训练数据以缩小前沿模型与开源模型之间的性能差距。
每周获取最佳 quantum physics 论文。
受到斯坦福、剑桥和法国科学院研究人员的信赖。
请查收邮箱确认订阅。
出了点问题,再试一次?
无垃圾邮件,随时退订。