想象一下，你正试图为数字保险库打造一把完美的锁。在量子计算的世界里，这种“锁”被称为量子纠错码（quantum error-correcting code）。它的职责是保护脆弱的量子信息免受噪声和误差的影响。锁的设计得越好，你能存储的数据就越多（高“率/rate”），以及它在损坏前能承受多大的破坏（高“距离/distance”）。

长期以来，科学家们一直试图寻找这些锁的最佳设计，特别是被称为**双变量双循环码（Bivariate Bicycle, BB codes）**的一种类型。把它们想象成复杂的数学蓝图。问题在于，可能的蓝图数量极其庞大，就像要在地球上每一片沙滩上寻找一颗特定的沙粒一样，而且检查一个蓝图是否有效既缓慢又困难。

这篇论文描述了一种利用**人工智能（具体来说是大语言模型，即 LLM）**作为进化向导来寻找这些蓝图的新方法。

以下是他们发现过程的拆解，通过简单的概念进行说明：

1. “进化式”搜索引擎

研究人员并没有让一个人类去猜测完美的蓝图，而是构建了一个模拟自然进化的系统。

“有机体”： 他们不是在进化单个代码，而是在进化一个Python 计算机程序（一种配方），该程序可以生成代码。
“突变”： AI（LLM）观察当前的最佳配方，并提出微小的改动，例如“改变这个数字”或“增加一个新的步骤”。
“适者生存”： 系统生成数千个新配方。它会快速测试这些配方以查看它们是否产生了有效的代码。最好的配方会存活下来并再次进行突变；差的则会被丢弃。

经过五轮“战役”（搜索轮次），这个由 AI 驱动的系统运行了大约 1,650 代，筛选了大约 200,000 个候选代码。整个过程的计算时间成本约为 400 美元，耗时约 140 小时。

2. “陷阱”与“裁判”

在搜索初期，AI 遇到了一个聪明的陷阱。它找到了能产生极高数据存储量（高“率”）的配方，这看起来非常完美。然而，这些代码实际上是没用的，因为它们完全没有纠错能力（距离 = 2）。这就像是发现了一扇可以用回形针打开的保险库门；它能装很多东西，但并不安全。

研究人员意识到他们最初的“距离检测器”（一种名为 BP-OSD 的标准工具）在欺骗他们。它高估了这些代码的强度，有时甚至高估了 12 倍。

为了解决这个问题，他们在过程中加入了一个严格的裁判（MILP）。

裁判的任务： 这是一个重型数学求解器，用于以 100% 的确定性检查代码的距离。
结果： 裁判立即抓住了这些“陷阱”。它还揭示了许多 AI 认为很强的代码实际上很弱。这迫使 AI 停止寻找那些“虚假”的高性能代码，转而寻找真正强大的代码。

3. 发现成果

在优化过程后，系统发现了 465 个截然不同的、高质量的代码。以下是亮点：

“金标准”匹配： 他们发现了一种新型代码（称为“扰动双变量双循环码”），其性能与当前已知最好的代码（“Gross 代码”）相匹配，但使用了一种更复杂的结构。这就像是发现了一种新的发动机设计，它能使用不同的燃料，却能达到市场上最好的汽车那样的油耗表现。
更多数据，同样的保护： 他们发现了一些可以存储更多数据（高达 54 个逻辑比特）同时保持相当水平保护能力的编码。
“可分解性”发现： 系统发现了一个看起来像超级先进锁的代码。然而，裁判的图分析显示，它实际上只是两个普通锁粘在一起的结果。它不是一项新发明，而只是两个现有锁并排在一起。这展示了系统识别“伪”复杂性的能力。

4. “率 vs. 距离”的权衡

研究人员绘制了所有这些代码的图谱，并发现了一条一致的规则，就像是这些锁的物理定律一样：

“包络线”： 你通常无法拥有一把既能存储海量数据，又极其坚固的锁。
“曲线”： 如果你想存储更多数据（更高的率），锁就变得更容易被破解（较低的距离）。如果你想要一把超强韧的锁，你就必须存储较少的数据。
例外情况： 他们发现了一些试图挑战这条曲线边缘的代码（例如一个拥有 50 个数据单元且距离为 8 的代码），但它们仍然无法突破这种权衡关系的根本“包络线”。

5. 为什么这很重要

论文总结道，使用 AI 来进化计算机程序是一个实用且低成本的工具，用于发现新的量子代码。

它找到了人类和传统数学搜索所遗漏的代码。
它证明了标准的测试工具对于高性能代码可能具有危险的误导性，因此必须使用严格的“裁判”（MILP）。
它证明了 AI 可以学习如何避开“陷阱”，并发现可以推广到不同规模量子计算机上的复杂代数模式。

简而言之，研究人员利用 AI 进化出了一个“代码生成器”，教会了它如何忽略虚假结果，并成功发现了一个新的量子锁家族——它们比我们之前的任何代码都更强、更高效，或者仅仅是与众不同。

技术摘要：基于 LLM 引导搜索的进化式发现双变量双循环码

问题陈述

量子低密度奇偶校验（qLDPC）码，特别是双变量双循环（Bivariate Bicycle, BB）码的发现，需要在庞大的组合设计空间中进行导航，以寻找具有优异率–距离–阈值权衡的码。虽然 BB 码具有权重为 6 的稳定子和适用于近期的硬件所需的恒定深度综合（syndrome extraction），但在实际块长度（ $n \lesssim 1000$ ）下，高性能码的高性能景观仍很大程度上未被探索。现有的系统性枚举通常受限于特定的多项式形式或较小的块长度，且搜索空间缺乏适用于连续优化的梯度结构。此外，可靠地验证候选码的参数（特别是最小距离 $d$ ）在计算上是困难的；标准启发式方法（如带有排序统计解码的置信传播 BP-OSD）已被证明会系统性地高估距离，特别是在高码率情况下，这会导致进化搜索中的适应度信号不可靠。

方法论

作者引入了一种 LLM 引导的进化工作流，旨在发现并验证量子码。该系统并非进化单个码的参数，而是进化生成器算子（generator ansätze）——即能够产生任意格点维度下候选多项式对（或对于非 CSS 码为 4 元组）的 Python 程序。

进化框架

算法： 系统利用 OpenEvolve（一种 MAP-Elites 算法的实现）来引导大语言模型（LLM）对码生成器进行变异。
变异策略： LLM 接收当前最高适应度的算子、领域知识和评估反馈，提出有针对性的代码差异（diffs）（例如：指数调整、控制流重构），而非全量重写。
种群： 搜索分布在多个“岛屿”上，并通过定期迁移来维持多样性。存档根据行为维度对算子进行索引，例如产生有效码的格点数量以及高质量码的总数。

分阶段验证流水线

为了减轻启发式距离估计的不确定性，作者采用了多级级联验证：

第一阶段（筛选）： 在小规模格点上进行快速评估，通过 $\text{GF}(2)$ 秩计算编码维度 $k$ 。无法产生有效码的算子将被丢弃。
第二阶段（启发式估计）： 幸存的算子在更大规模的格点上使用 BP-OSD 及多种解码器配置（OSD0, OSD-CS10）进行评估，以估计距离 $d$ 。
第三阶段（精确验证）： 对于顶尖候选者（以及在后期实验中作为环内步骤），使用**混合整数线性规划（MILP）**来计算精确距离或严格的上界。这一阶段对于纠正 BP-OSD 中观察到的系统性高估至关重要。
后期分析： 包括基于 BLISS 的 Tanner 图去重以识别置换等价码、分解性分析（以检测直和情况）以及针对非 CSS 码的局部 Clifford（LC）等价性检查。

码族

CSS BB 码： 由 $\mathbb{F}_2[x,y]/(x^\ell-1, y^m-1)$ 上的两个三项式 $A, B$ 定义。
扰动 BB (PBB) 码： 一种引入扰动多项式 $C, D$ 以创建混合稳定子的非 CSS 算子，从而允许非 CSS 结构。

核心贡献

1. 发现 465 个不同的码

通过五次进化实验，该系统在块长度 $n \le 360$ 内发现了 465 个不同的码：

97 个 CSS 码： 包括 97 个不同的代表（包含重复发现的共 99 个等价类）。显著发现包括：
- [[288, 16, 12]] 码： 一个不可分解的 CSS 码，其 $d=12$ （精确值）且所有位移 $\le 3$ 。
- 更高权重的码： 发现了实现新 $(k, d)$ 组合的权重-8 码，例如 [[288, 50, 8]] ( $k=50, d=8$ )。
- 恢复已知高性能码： 找回了已知的性能卓越的码（如 "gross code" [[144, 12, 12]]）并识别了新的有限长度代表。
368 个非 CSS PBB 码： 使用混合稳定子的码。搜索发现了一个匹配 Gross 码性能指标（FOM）的 [[144, 12, 12]] PBB 码，以及一个具有 19.2 可信 FOM 上界的 [[360, 12, $\le$ 24]] 码。

2. 验证方法的改进

BP-OSD 高估问题： 研究量化了 BP-OSD 会系统性地高估高码率（ $k/n > 0.1$ ）下的距离，误差可达 12 倍。例如，一个 [[360, 40, 2]] 码被 BP-OSD 估计为 $d \le 24$ ，而 MILP 确认其 $d=2$ 。
可达综合采样（Achievable-Syndrome Sampling）： 对于非 CSS 码，标准的随机综合采样会失败，因为可达逻辑余集形成了一个严格的子空间。作者引入了一种仅从可达子空间进行采样的方法，从而恢复了 BP-OSD 的功能。
MILP 真值验证： 将 MILP 作为验证标准的做法揭示了许多高 $k$ 候选者实际上是低距离或可分解的（例如，[[288, 24, 12]] 码被识别为两个 Gross 码的直和）。

3. BB 景观的结构特征

作者识别了四个具有不同率–距离剖面的代数族：

单变量/HGP： 等价于循环码超图积（hypergraph product）的码。它们实现了最高的编码维度（ $k \propto \ell$ ），但受到 $d \le 4$ 的距离上限限制。
x/y-swap： 多项式中含有混合变量的码，可实现 $d \ge 12$ ，但对于不可分解码， $k$ 限制在 $\le 16$ 。
混合单项式/更高权重： 拥有 4–6 项多项式的码，可以访问新的 $(k, d)$ 点（例如 $k=50$ 时 $d=8$ ），但并未突破整体的率–距离包络线。
非 CSS PBB： 在 $n=144$ 时，其性能指标（FOM）与最佳 CSS 码持平但未超过。

4. 经验率–距离权衡

搜索揭示了一个一致的经验权衡：较高的编码率通常伴随着较低的距离。

具有 $d=12$ 的不可分解权重-6 码被限制在 $k \le 16$ 。
权重-6 码在 $k > 24$ 时，其 $d$ 普遍 $\le 4$ 。
更高权重（权重-8）的码可以在中等距离下访问更高的 $k$ （如 $k=50, d=8$ ），但并未打破观察到的包络线。

结果与意义

关键发现

LLM 有效性： LLM 引导的进化成功发现了可在不同格点维度下泛化的代数模式（如单变量结构、x/y-swap），在寻找 $d \ge 6$ 的高 FOM 码方面优于随机搜索和标准遗传算法。
验证的必要性： 本研究表明，启发式距离估计不足以用于高码率码的发现。“A = B 距离陷阱”（即 $A=B$ 时 $d=2$ ）即使在 $1.5 \times 10^6$ 次试验后仍未被 BP-OSD 检测到，但被 MILP 流水线立即识别。
硬件相关性： 发现的码（如 [[288, 16, 12]]）提供了改进的逻辑比特计数（最高为 Gross 码的 1.7 倍），同时保持了与表面码相当的伪阈值。非 CSS PBB 码在特定噪声模型（仅 X 噪声）下显示出改进误差抑制的潜力，但在标准解码器下的去极化噪声中，这种优势会减弱。

意义

本文声称，LLM 引导的程序进化在与严谨的多级独立验证（特别是 MILP）结合时，是一种实用且具有成本效益的结构化量子码发现工具。总计算成本约为 400 美元且耗时 140 小时，证明了该方法的可行性。

这项工作为高率 BB 码的声明建立了一个新的验证标准，强调了启发式估计与精确距离之间的关键差距。它提供了一个探索量子码组合空间的复用框架，揭示了尽管率–距离包络线是稳固的，但结构化搜索仍能在此范围内发现新的、高性能的代表。作者指出，要突破这一包络线，可能需要超越双变量双循环家族，转向更复杂的代数结构。

Evolutionary Discovery of Bivariate Bicycle Codes with LLM-Guided Search