Optimizing Energy-based Neural Network Training with Coherent Ising Machine

原作者： Chen-Rui Fan, Bo Lu, Zhi-Hong Zhang, Run-Qing Zhang, Jing-Wei Wen, Chuan Wang

发布于 2026-06-09✓ Author reviewed ⓘ

📖 1 分钟阅读☕ 轻松阅读

原作者： Chen-Rui Fan, Bo Lu, Zhi-Hong Zhang, Run-Qing Zhang, Jing-Wei Wen, Chuan Wang

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性，请参阅原始论文。阅读完整免责声明

核心大意：用光来教计算机学习

想象一下，你正试图教一台计算机识别手写数字（比如“0”到“9”）。通常情况下，我们会通过在标准计算机芯片（CPU）上运行复杂的软件来完成这项工作。然而，这个过程就像是在尝试通过一次又一次地走遍每一条路径来破解一个巨大的迷宫——这既耗时又耗电。

这篇论文提出了一种新的方法，即使用光而不是电力来训练这些计算机。研究人员使用了一种被称为**相干伊辛机（Coherent Ising Machine, CIM）**的特殊机器。你可以不把 CIM 看作一台标准的计算机，而把它看作一个由光脉冲组成的、巨大的、超快速的“磁罗盘”。它的任务是在复杂的可能性迷宫中找到“最低能量状态”（即最稳定、最完美的解决方案）。

问题所在：“局部陷阱”

使用这些光机器面临的主要问题是它们容易“卡住”。想象一下，你正在下山寻找最低的谷底（即最佳解决方案）。有时，登山者会被困在一个浅小的凹陷处，并误以为：“这就是谷底了！”但实际上，在下一座山丘后面还有一个更深的谷底。在计算机术语中，这被称为陷入局部最优解（local optimum）。

这些光机器的标准运作方式往往会导致它们陷入这些浅坑，从而导致计算机不够聪明。

解决方案：“Adam” GPS

为了解决这个问题，作者添加了一个名为 Adam 优化器的智能导航工具。

类比： 想象这位登山者（光机器）现在携带了一个能记住过去足迹的 GPS。如果登山者在快速下坡时遇到了颠簸，GPS 会说：“别停下！你刚才速度很快，所以保持惯性，但稍微调整一下方向。”
结果： 这种“Adam-CIM”的结合帮助机器逃离那些浅坑，比以前更快、更准确地找到真正的谷底。

他们是如何教机器的：“微调”法

标准的计算机训练使用一种称为“反向传播（Backpropagation）”的方法，这就像老师在教室后排对着前排大声纠正错误。对于光来说，这很难实现，因为光很难“回头看”它自己犯下的错误。

相反，这篇论文使用了一种称为**平衡传播（Equilibrium Propagation, EP）**的方法。

类比： 想象你正在尝试平衡一叠积木。
1. 自由阶段： 你让积木自然地堆成一堆摇摇欲坠的样子。
2. 微调阶段： 你轻轻地将顶部的积木推向它“应该在”的位置（目标位置）。
3. 学习： 你观察“摇晃状态”与“微调状态”之间积木移动的变化。这种差异会告诉你如何重新排列积木之间的连接，以便下次能平衡得更好。
这种方法更具“生物性”（类似于我们大脑的学习方式），并且完美契合光机器的物理特性。

他们取得了什么成就

研究人员在著名的 MNIST 数据集（数以千计的手写数字）上测试了这种全新的“Adam-CIM”系统。

速度与准确度： 新方法比旧方法（如模拟退火法）更快地找到了最优解，并达到了约 96.8% 的准确率。这与在普通计算机上运行的标准软件不相上下。
可扩展性： 他们展示了该系统可以处理更大、更复杂的网络（例如用于图像识别的卷积神经网络），而不仅仅是简单的网络。
能源效率： 论文估计，如果用真实的、高速的光学芯片（使用光而非电力）来构建这个系统，它处理这些任务的速度可以比目前的计算机芯片快 1,000 倍，且能耗降低 1,000 倍。

总结

这篇论文证明了我们可以使用由光脉冲组成的机器来训练高级人工智能。通过为光机器添加一个智能“GPS”（Adam 优化器）并使用一种温柔的“微调”教学法，他们创造了一个快速、准确且可能比我们今天使用的计算机更具能源效率的系统。这是迈向构建下一代基于光而非电力的 AI 硬件的重要一步。

技术摘要：利用相干伊辛机优化基于能量的神经网络训练

问题陈述
大规模神经网络的训练目前依赖于反向传播（BP）和梯度下降，这需要消耗大量资源的高性能计算系统。这种方法在过度能源消耗和训练时间过长方面面临重大挑战。此外，由于 BP 要求非局部误差反馈，且在光子硬件中实现精确的链式法则微分具有物理难度，因此它在根本上与许多物理计算架构（尤其是光学系统）不兼容。虽然相干伊 싱机（CIM）为解决组合优化问题和模拟伊辛模型提供了一个极具前景的物理平台，但其在神经网络训练中的应用一直受到硬件连接限制、次优训练方法以及缺乏高效学习映射策略的制约。现有的基于伊辛模型的训练方法通常存在计算资源需求高、对网络结构敏感以及在复杂约束条件下性能欠佳的问题。

方法论
本研究提出了一种将相干伊辛机（CIM）与平衡传播（EP）算法相结合的新型训练框架。EP 是一种具有生物合理性的学习方法，它根据两个平衡态来更新权重：“自由态”（在没有外部干扰的情况下演化）和“微扰态”（在由损失函数驱动的扰动下演化）。

为了解决标准 CIM 在高效寻找基态方面的局限性，作者引入了 Adam-CIM 优化器。这种混合方法将 CIM 的物理动力学（基于退化光学参量振荡器，即 DOPO）与 Adam 优化算法相结合。关键的方法论组成部分包括：

Adam-CIM 动力学： 该算法通过计算梯度的阶数一和阶数二矩估计来确定自适应学习因子。它采用“完全非弹性壁”（perfectly inelastic walls）来处理振幅异质性，并将连续自旋振幅映射为离散自旋值（ $\sigma_i = \pm 1$ ），从而有效地平滑振荡并有助于跳出局部极小值。
EP 训练循环： 将神经网络映射到伊辛哈密顿量。训练过程由受微扰参数 $\beta$ 控制的两个阶段组成。在自由阶段（ $\beta=0$ ）中，系统演化至局部能量极小值。在微扰阶段（ $\beta \neq 0$ ）中，系统被轻轻推向目标标签。权重更新基于这两个平衡态之间神经元相关性的差异进行计算。
网络架构： 该框架被应用于多层感知器（MLP）和卷积神经网络（CNN）。伊辛约束矩阵由网络权重构建，并使用 Adam-CIM 来寻找权重更新所需的基态自旋配置。

核心贡献

算法增强： 将 Adam 优化器集成到 CIM 架构中（Adam-CIM），显著提高了相比于标准 CIM 和模拟退火（SA）在寻找 Hopfield 能量网络基态时的收敛速度和解的精度。
物理训练框架： 本研究建立了一种在 CIM 平台上使用 EP 训练基于能量的神经网络的方法，在不依赖反向传播的情况下，实现了与基于软件的实现相当的性能。
可扩展性分析： 研究系统地分析了该方法在不同网络深度、节点数量和架构（MLP vs. CNN）下的可扩展性，证明了在该平台上训练更深的网络和卷积操作的可行性。
硬件效率预测： 论文提供了从基于 CPU 的训练转向光学 CIM 实现时，在时间和能量效率提升方面的估算。

结果

基态优化： 在解决 Max-Cut 问题（G1 图）时，Adam-CIM 比标准 s-CIM 和模拟退火表现出更快的收敛速度和更低的最终能量值。Adam-CIM 的能量分布在低能区域更加集中。
MNIST 分类：
- MLP 性能： 使用具有单个隐藏层（256 个节点）的 MLP，该 Adam-CIM 框架在 MNIST 数据集上实现了约 96.8% (±0.52%) 的测试准确率。这优于在类似任务上的量子退火（D-Wave）实现（88.8%）和稀疏伊辛机（92%）。
- 收敛动力学： 研究确定了系统达到平衡所需的迭代临界阈值（约为 40 次）。低于此阈值时，系统无法达到基态，导致准确率较低；高于此阈值时，准确率稳定在高水平。
- CNN 性能： 该框架成功扩展到卷积神经网络，在 MNIST 上实现了约 80% 的测试准确率。作者指出，CNN 增加的复杂度使得寻找基态变得更加困难，导致其与改进后的数字 CNN 之间存在差距，但该方法仍然可行。
能量与时间效率： 预测表明，将该框架实现在集成光子芯片（例如 100 GHz 光学频率梳）上，与基于 CPU 的训练相比，可在时间和能量效率上实现约三个数量级的提升。

意义与主张
论文声称建立了一个用于下一代 AI 硬件开发的全新物理框架。通过将 CIM 动力学的独特物理特性与平衡传播算法协同作用，这项工作展示了一条通往超越传统组合优化问题的、高能效 AI 硬件的路径。

作者强调，这种方法为使用模拟电路、光电子或集成光子学来训练复杂神经网络提供了一个可扩展的平台。尽管承认目前的实现依赖于对 Adam-CIM 动力学的经典数值模拟（与物理硬件相比存在近似误差），但结果突显了 CIM 作为神经网络训练和光子量子计算双用途平台的潜力。研究表明，虽然 EP 在所有方面可能都无法超越反向传播（因为它是一种隐式更新算法），但它提供了一种物理上可实现的替代方案，桥接了生物合理性与计算效率，特别是在大规模、能量受限的应用场景中。

核心大意：用光来教计算机学习

问题所在：“局部陷阱”

解决方案：“Adam” GPS

他们是如何教机器的：“微调”法

他们取得了什么成就

总结

类似论文