原作者： Kuo-Chung Peng, Samuel Yen-Chi Chen, Jiun-Cheng Jiang, Chen-Yu Liu, En-Jui Kuo, Yun-Yuan Wang, Prayag Tiwari, Andrea Ceschini, Chi-Sheng Chen, Yu-Chao Hsu, Chun-Hua Lin, Tai-Yue Li, Antonello Rosato

发布于 2026-05-11

📖 1 分钟阅读☕ 轻松阅读

CC BY 4.0

原作者： Kuo-Chung Peng, Samuel Yen-Chi Chen, Jiun-Cheng Jiang, Chen-Yu Liu, En-Jui Kuo, Yun-Yuan Wang, Prayag Tiwari, Andrea Ceschini, Chi-Sheng Chen, Yu-Chao Hsu, Chun-Hua Lin, Tai-Yue Li, Antonello Rosato, Massimo Panella, Simon See, Saif Al-Kuwari, Kuan-Cheng Chen, Nan-Yow Chen, Hsi-Sheng Goan

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

以下是论文《Gated QKAN-FWP：可扩展的量子启发式序列学习》的通俗化解释，辅以富有创意的类比。

宏观图景：一种记忆过去的新方式

想象你正试图根据刚读完的长篇故事来预测未来。大多数计算机模型（如标准人工智能）试图通过保留一个“心理笔记”（隐藏状态）来记住故事，该笔记会随着每一句新内容而更新。但随着故事变长，这些笔记会变得混乱、难以更新，计算机也会因试图追踪一切而感到疲惫。

本文介绍了一种名为Gated QKAN-FWP的新方法。该方法不再保留混乱的心理笔记，而是改变计算机阅读故事的规则。这就像拥有一本书，其页面上的墨水能根据当前句子瞬间重写自身，而不是试图在脑海中保留一份摘要。

三大关键要素

1. “快速权重”理念：重写规则，而非记忆

将标准人工智能想象成一名在笔记本上做笔记的学生。每听到一个新事实，他们就在新一行写下它。要理解整个故事，他们必须阅读之前所有的行。

作者使用了一种称为快速权重编程（FWP）的技术。想象学生拥有的不是笔记本，而是一块魔法白板。

慢速程序员：这是老师。它查看当前句子并说：“好吧，针对这个句子，让我们改变白板的公式。”
快速程序员：这就是白板本身。它根据老师的指令瞬间更新自己的规则。
结果：模型无需记住过去；理解当下的规则本身已包含了过去的记忆。这就像白板重写其自身指令，以完美契合当前语境。

2. “量子启发”火花：单量子比特技巧

通常，当人们尝试在人工智能中运用“量子”概念时，他们会试图构建一个拥有许多纠缠部分的庞大复杂机器（就像一支巨型管弦乐队，每件乐器都必须完美同步）。这很难构建，在普通计算机上模拟甚至更难。

作者采取了不同的方法。他们使用了量子启发式柯尔莫哥洛夫 - 阿诺德网络（QKAN）。

类比：与其说是巨型管弦乐队，不如想象一位多才多艺的独奏小提琴手。这位小提琴手（单量子比特电路）可以通过改变持弓方式（数据重加载）来演奏任何旋律（非线性函数）。
重要性：由于他们仅采用这种“独奏”方法，系统轻量级，易于在普通计算机上模拟，且出乎意料地强大。它无需庞大且嘈杂的量子计算机即可捕捉复杂模式。

3. “门控”：记忆的音量旋钮

之前的“快速权重”模型存在一个问题：它们不断在旧规则之上叠加新规则，永无止境。最终，白板变成了充满冲突指令的混乱涂鸦。

作者添加了一个标量门控（Scalar Gate）。

类比：想象白板上有一个音量旋钮（即门控）。
- 如果旋钮调高（接近 1），模型会说：“保留旧规则；它们仍然有效。”
- 如果旋钮调低（接近 0），模型会说：“忘记旧规则；让我们尝试新规则。”
益处：这防止模型因过多旧信息而困惑。它允许人工智能精确决定保留多少过去、遗忘多少过去，从而使学习过程更加稳定。

他们实际做了什么？（结果）

团队在三种类型的挑战中测试了这个带有“音量旋钮”的“魔法白板”：

数学谜题（时间序列基准测试）：他们要求模型预测复杂的数学模式（如阻尼摆和量子物理模拟）。
- 结果：新模型比旧方法更准确、更稳定，尤其是在模式漫长且复杂的情况下。
电子游戏（强化学习）：他们在一个简单的迷宫游戏（MiniGrid）中测试了该模型。
- 结果：该模型解决迷宫的能力与更大、更笨重的模型一样出色，但它使用的参数减少了 58%（它更小、更高效）。
预测太阳（太阳周期预测）：这是他们最大的现实世界测试。他们试图预测著名的 11 年太阳黑子周期，由于太阳行为具有混沌性且随数十年变化，这 notoriously 困难。
- 设置：他们向模型输入了 44 年的数据（528 个月），以预测接下来的 11 年（132 个月）。
- 对决：他们的小型模型（12,500 个参数）击败了庞大的经典模型（某些高达 167,000 个参数）。
- 胜利：尽管规模小得多，它在预测太阳周期峰值（太阳黑子最活跃时）的发生时间和强度方面，比竞争对手更准确。
“真实量子”测试：为了证明其“量子启发”理念能在实际硬件上运行，他们在IonQ和IBM的真实量子计算机上运行了该模型。
- 结果：即使在这些嘈杂的早期阶段量子机器上，模型的预测也与完美的计算机模拟几乎完全一致。这证明该方法已准备好应用于当今的量子硬件。

总结

这篇论文提出了一种巧妙的方法，教导人工智能记忆长序列事件。与其塞入沉重的记忆库，他们让人工智能利用轻量级的“量子启发”技巧即时重写自身规则。他们添加了一个“门控”来控制保留多少过去信息，从而防止混乱。

结果是一个更小、更快、更准确的模型，超越了其庞大的竞争对手，能够预测太阳周期等复杂的现实世界事件，并且准备好在今天的实验性量子计算机上运行。

技术摘要：门控 QKAN-FWP：可扩展的量子启发式序列学习

问题陈述

建模长程时间依赖关系仍是序列学习中的核心挑战。在量子机器学习（QML）背景下，这一挑战因含噪声中等规模量子（NISQ）硬件的局限性而加剧。现有的量子循环神经网络（QRNN）和量子长短期记忆（QLSTM）变体需要重复进行电路评估，并涉及昂贵的量子梯度估计的时间反向传播（BPTT）。随着序列长度增加，训练成本变得难以承受，且深层、高度纠缠的量子神经网络难以可靠执行或进行经典模拟。虽然量子快速权重程序员（QFWP）通过将隐藏状态动力学替换为参数动力学提供了范式转变，但现有实现仍依赖多量子比特架构，这在 NISQ 设备上难以扩展且模拟成本高昂。

方法论

作者提出了门控 QKAN-FWP，这是一个将**量子启发的 Kolmogorov–Arnold 网络（QKAN）整合到快速权重编程（FWP）**范式中的框架。该架构旨在绕过多量子比特纠缠瓶颈，同时保持表达能力。

核心组件

量子启发的 Kolmogorov–Arnold 网络（QKAN）：
- 不同于固定的激活函数，QKAN 利用由**数据重上传激活（DARUAN）**实现的 learnable 单变量函数。
- DARUAN 采用单量子比特数据重上传电路生成丰富的傅里叶谱，从而以少量参数实现高度非线性的映射。
- 这种单量子比特方法确保了与当前 NISQ 硬件（其单量子比特错误率较低）的兼容性，并允许高效的经典模拟。
快速权重编程（FWP）框架：
- 该模型用参数空间中的动态演化取代了循环隐藏状态的演化。
- 一个“慢”程序员网络在每个时间步为“快”程序员生成更新。
- 快参数根据当前输入进行演化，避免了循环内部显式的量子梯度计算。
标量门控更新规则：
- 一项新颖的贡献是引入了标量门控快速权重更新规则。
- 在每个时间步 $t$ ，慢程序员输出一个更新 $\Delta W_t$ 和一个标量门 $g_t \in [0, 1]$ 。
- 快参数按如下方式演化： $W_{t+1} = g_t W_t + (1 - g_t) \Delta W_t$ 。
- 该机制在保留先前参数和采纳新更新之间进行插值，从而稳定参数演化。

理论分析

本文提供了对门控更新的理论解释：

自适应记忆核： 递归可以展开，表明当前参数是所有过去更新的加权聚合，其中权重根据后续门控衰减。这创建了一个依赖于输入的时间核。
几何有界性： 门控更新确保快参数保持在初始化和历史提议的凸包内，防止了无门控变体中出现的无界累加。
可并行化的梯度路径： 与需要沿雅可比矩阵链进行顺序 BPTT 的通用 RNN 不同，门控 FWP 递归允许通过并行前缀扫描解析参数轨迹。这将梯度路径深度从 $O(T)$ 降低到 $O(\log T)$ ，并确保梯度通过标量积而非稠密矩阵乘法传播，从而缓解了梯度消失/爆炸问题。

主要贡献

框架提出： 提出了 Gated QKAN-FWP，这是一个结合 QKAN 模块与快速权重编程以实现高效序列建模的量子启发式框架。
门控机制： 开发了一种标量门控快速权重机制，自适应地平衡记忆保留与更新，并辅以几何有界性和可并行化递归的理论证明。
实证性能： 展示了在真实世界多步太阳周期预测中的强大性能，其中 12.5k 参数的模型优于具有多达 13 倍参数的经典循环基线（LSTM、WaveNet-LSTM、MESN）。
NISQ 验证： 成功将训练好的快程序员部署到真实量子硬件（IonQ Forte-1 和 IBM ibm_aachen）上，其预测精度在无噪声模拟器的 $10^{-3}$ 相对均方误差（MSE）范围内。

实验结果

时间序列预测基准

该模型在合成数据集（阻尼简谐运动、贝塞尔函数、NARMA5/10）和量子动力学数据集（延迟量子控制、Jaynes-Cummings）上进行了评估。

鲁棒性： GQKAN-QKANFWP 变体（慢和快程序员均使用 HQKAN）在不同输入窗口大小（ $N=8$ 到 $64$）下表现出最强的鲁棒性。
稳定性： 无门控 QFWP 变体随着窗口大小的增加表现出显著的性能下降，特别是在 NARMA 和量子动力学任务上，而基于门控 HQKAN 的变体则保持了稳定性。

真实世界太阳周期预测

该框架被应用于利用 3,326 个月度黑子记录（1749–2026）预测太阳周期。

设置： 使用 528 个月的输入窗口（约 4 个周期）来预测 132 个月的 horizon（1 个周期）。
性能： GQKAN-QKANFWP 模型（12,474 个参数）在缩放后的均方误差（MSE）、峰值幅度误差（PAE）和峰值时间误差（PTE）方面优于：
- WaveNet-LSTM（167k 参数）
- LSTM-L（89k 参数）
- 改进回声状态网络（MESN，132k 参数）
- 普通 RNN（11.5k 参数）
可视化： 该模型成功捕捉了宏观周期结构和峰值时间，其预测包络在整个周期阶段均包含了真实值。

强化学习（MiniGrid）

在 MiniGrid-Empty 环境（5x5 到 16x16 网格）上使用 A3C 进行了评估。

门控变体始终优于无门控 QFWP，随着网格大小的增加，优势尤为明显。
GQKAN-QKANFWP 在 16x16 任务上以仅 1,114 个参数实现了具有竞争力的奖励，与性能匹配的古典 G-FWP 基线（2,665 参数）相比，减少了约 58%。

NISQ 硬件执行

快程序员在 IonQ Forte-1（36 个量子比特）和 IBM ibm_aachen（156 个量子比特）上执行。
慢程序员和门控逻辑在经典计算机上运行；仅 DARUAN 模块在量子处理单元（QPUs）上运行。
结果显示，在 1,024 次测量（shots）下，预测结果收敛至无噪声模拟器，相对均方误差约为 0.1%，证实了单量子比特设计与 NISQ 的兼容性。

意义与主张

本文将门控 QKAN-FWP定位为一种可扩展、参数高效且兼容 NISQ 的量子启发式序列建模方法。

可扩展性： 通过完全依赖单量子比特电路（DARUAN）并避免多量子比特纠缠，该框架规避了传统 QRNN 所面临的硬件限制和模拟成本。
稳定性： 标量门控更新规则为长 horizon 预测中参数演化的不稳定性提供了理论和实证解决方案，提供了几何有界性和更浅的梯度路径。
实用性： 在真实量子硬件上的成功执行表明，量子启发式模型可以部署在当前的 NISQ 设备上以处理长 horizon 预测等实际任务，而这是此前受 NISQ 限制所无法实现的。
效率： 该模型在太阳周期预测上实现了最先进的性能，且参数远少于经典循环基线，突显了 QKAN 架构的参数效率。

作者总结道，虽然原始 KAN 架构在超大规模场景中面临优化挑战，但 Gated QKAN-FWP 的结构设计（在降维潜在空间中自回归地处理序列）减轻了这些负担，为未来优化动力学及将物理硬件执行从推理扩展到更广泛领域铺平了道路。

Gated QKAN-FWP: Scalable Quantum-inspired Sequence Learning