Layer-wise QUBO-Based Training of CNN Classifiers for Quantum Annealing

本文提出了一种基于二次无约束二值优化(QUBO)的迭代框架,通过冻结卷积特征并仅优化全连接层,利用量子退火技术训练 CNN 分类器,在多个图像分类基准上实现了与经典梯度下降方法相当甚至更优的性能。

Mostafa Atallah, Rebekah Herrman

发布于 2026-03-03
📖 1 分钟阅读🧠 深度阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种用“量子退火”技术来训练人工智能(AI)图像识别模型的新方法

为了让你更容易理解,我们可以把训练 AI 想象成教一个学生认字,把量子计算机想象成一种特殊的超级计算器

以下是这篇论文的通俗解读:

1. 为什么要这么做?(遇到的困难)

  • 传统 AI 的烦恼: 现在的 AI 训练通常像是一个严厉的数学老师,通过不断计算“导数”(梯度)来纠正学生的错误。但这有个大问题:当模型变大时,这种“严厉教学”会失效,就像学生走进了一片平坦的沙漠(Barren Plateaus),老师找不到方向,学生也学不动了。
  • 量子计算机的特长: 量子退火机(比如 D-Wave 机器)非常擅长解决**“找最低点”**的问题。想象你在一个有很多坑的山谷里,它擅长直接跳到最深的那个坑底。但是,传统的 AI 训练问题太复杂,量子计算机看不懂。
  • 目标: 作者想设计一种方法,让量子计算机也能参与训练 AI,而且不用那种复杂的“导数”计算。

2. 核心方法:怎么把 AI 变成量子谜题?

作者用了三个聪明的招数,把复杂的 AI 训练变成了一个量子计算机能懂的“开关游戏”(QUBO 问题)。

第一招:只练“大脑”,不练“眼睛”(冻结卷积层)

  • 比喻: 想象你在教一个学生认照片。
    • 传统做法: 既要教他怎么看清照片的纹理(卷积层),又要教他怎么判断是猫还是狗(全连接层)。这太难了。
    • 本文做法(ELM 范式): 我们直接给他一副固定的眼镜(随机初始化并冻结的卷积滤波器)。这副眼镜能看清东西,但不会变。我们只教他怎么下结论(训练全连接层)。
  • 好处: 这样大大减少了需要计算的内容,让问题变简单了。

第二招:把“崎岖山路”变成“光滑碗底”(二次代理函数)

  • 比喻: 传统的 AI 损失函数(Loss)像是一个崎岖不平的山地,有很多小坑,量子计算机容易迷路。
  • 本文做法: 作者把这片山地暂时替换成了一个光滑的碗(二次曲面)
    • 虽然碗不是真实的地形,但它足够接近,能让量子计算机很容易滑到碗底(找到最优解)。
    • 每次滑到底部后,我们重新看一眼真实地形,再换一个新的碗。通过这样一步步迭代,最终也能找到真正的最低点。
  • 好处: 量子计算机最喜欢这种“光滑的碗”,因为它们本质上是找能量最低的状态。

第三招:把大拼图拆成小拼图(分层分解)

  • 比喻: 现在的量子计算机就像是一个小房间,放不下整个巨大的拼图(比如识别 10 个数字)。
  • 本文做法: 我们把“识别 10 个数字”的大任务,拆成10 个独立的小任务(识别 0、识别 1……识别 9)。
    • 每个小任务只需要一个小房间就能解决。
    • 最后把这 10 个小结果拼起来,就是完整的答案。
  • 好处: 这样就不需要超级大的量子计算机,现有的机器也能跑。

3. 关键发现:精度很重要(比特数)

作者发现,把数字转换成量子开关(0 和 1)时,**开关的数量(比特精度)**很关键。

  • 比喻: 就像用尺子量东西。
    • 5 个刻度(5-bit): 太粗糙了,量不准,AI 学得很差(准确率只有 30% 多)。
    • 10-20 个刻度(10-20-bit): 足够精细了,AI 能学得很好。
  • 结论: 只要精度达到 10 位以上,这种量子训练方法就能和传统的经典计算机训练(SGD)打得有来有回,甚至在某些数据集上(如 MNIST 手写数字)表现更好。

4. 实验结果:真的行得通吗?

  • 测试: 他们在 6 个经典的图像数据集上做了测试(比如 MNIST、Fashion-MNIST 等)。
  • 现状: 目前他们用的是模拟退火(在经典计算机上模拟量子退火),而不是真正的量子硬件。这就像是在电脑上模拟赛车,虽然还没上真赛道,但证明了引擎设计是可行的。
  • 成绩:
    • 在 MNIST 数据集上,20 位精度的量子方法达到了 81.3% 的准确率,比传统方法(79.8%)还要高一点。
    • 虽然速度比传统方法慢(因为模拟量子很慢),但它证明了不需要梯度下降也能训练好 AI

5. 总结:这意味着什么?

这篇论文就像是在架一座桥

  1. 连接了 AI 和量子计算: 它证明了不需要复杂的梯度计算,也能用量子退火机来训练神经网络。
  2. 避开了“沙漠”: 通过冻结特征提取器,避免了量子计算中常见的“梯度消失”问题。
  3. 未来可期: 虽然现在还在用模拟器跑,但一旦真正的量子硬件(如 D-Wave)更强大,这种方法可以直接部署上去,为未来的量子 AI 铺平道路。

一句话总结:
作者发明了一种新招,把 AI 训练简化成量子计算机擅长的“找最低点”游戏,虽然目前还在用模拟器跑,但已经证明在识别图片上,量子方法有潜力和传统方法一较高下。