Qiskit QuantumKatas: Adapting Microsoft's Quantum Computing exercises for LLM… — 通俗解释

想象一下，你拥有一个包含 350 个谜题的巨型图书馆，旨在教会某人如何说“量子”语——一种用于编程量子计算机的奇特新语言。多年来，这些谜题是用一种名为 Q#（微软的方言）的语言编写的。

本文主要讲述两件事：

以下是他们发现的分解说明，使用了简单的类比：

将QuantumKatas想象成一款拥有 26 个不同关卡的视频游戏，从“教程”（非常简单）到“Boss 战”（非常困难）。

关卡：有些关卡要求 AI 执行简单的技巧，比如翻转硬币（基本门）。其他关卡则要求 AI 解决复杂的谜题，比如使用特定算法（Grover 搜索）在干草堆中寻找隐藏的针，或者修复一台损坏的机器（纠错）。
翻译：作者并没有发明新的谜题；他们只是将现有的谜题从微软的 Q# 语言翻译成了 IBM 的 Qiskit 语言。这确保了难度公平且概念一致。
评分：他们不仅要求 AI 编写代码；他们还在模拟器（虚拟量子计算机）中运行代码，以查看其是否真正有效。如果数学结果不匹配，AI 就会失败。

他们测试了 16 种不同的 AI“学生”。

结果：

差距：“精英”学生的得分远高于“开源”学生。平均而言，“精英”学生答对了约75%的谜题，而“开源”学生仅答对了约49%。这就像优等生与及格生之间的差别。
大小并不总是赢家：有趣的是，拥有“更大的大脑”（更多参数）并不能保证更高的分数。一些较小但经过更智能调优的模型表现优于庞大的模型。这不仅仅关乎大脑有多大，还关乎它是如何训练的。

研究人员尝试了不同的提问方式，以观察是否有助于 AI 表现得更好。

“展示给我”方法（少样本）：他们在要求 AI 解决新谜题之前，先给它几个已解决的谜题示例。这对几乎所有人来说都是最可靠的方法。这就像在给学生考试之前，先给他们看一道已解开的数学题。
“大声思考”方法（思维链）：他们要求 AI 在编写代码之前逐步解释其推理过程。
- 转折：这对“推理调优”模型（专门训练用于深入思考的模型）非常有效，提高了它们的分数。
- 缺点：对于大多数其他模型来说，大声思考实际上使它们的表现更差。这就像要求学生在解决谜题时把每一步都说出来，结果他们因为说话而分心，忘记了答案。
“直接做”方法（零样本）：只提出问题，不提供任何示例。这对绝对最聪明的模型（如 GPT-5.5）效果最好，它们不需要帮助。

AI 学生在某些方面很擅长，但在其他方面却表现糟糕：

强项：它们非常擅长复述已知算法。如果谜题要求“编写 Simon 算法的代码”，它们 82% 的情况下都能答对。这就像背诵食谱并完美地烹饪出来。
弱点：它们在问题编码方面存在困难。如果谜题说“将这个混乱的现实世界问题（如逻辑谜题）转化为量子食谱”，它们经常失败（成功率仅为 34%）。这就像非常擅长遵循食谱，却非常不擅长从头开始发明新菜肴。
“测量”陷阱：它们在涉及“测量”（检查量子态结果）的任务中也遇到了困难。这似乎是当前 AI 的一个特定盲点。

简而言之：作者用最流行的语言构建了一个标准化的“量子驾驶考试”。他们发现，虽然 AI 在已知道路上驾驶（标准算法）方面变得非常擅长，但在地图缺失时（解决新问题）它仍然难以导航。“精英”AI 模型目前是最好的驾驶员，但它们与“开源”模型之间的差距仍然显著。

Qiskit QuantumKatas: Adapting Microsoft's Quantum Computing exercises for LLM evaluation