Conservative quantum offline model-based optimization

原作者： Kristian Sotirov, Annie E. Paine, Savvas Varsamopoulos, Antonio A. Gentile, Osvaldo Simeone

发布于 2026-05-06

📖 1 分钟阅读🧠 深度阅读

原作者： Kristian Sotirov, Annie E. Paine, Savvas Varsamopoulos, Antonio A. Gentile, Osvaldo Simeone

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象你是一位厨师，正试图创造出世界上最好的新菜肴。你有一本食谱，里面收录了 20 道你已经测试过的食谱，并且你确切地知道它们的味道。你的目标是发明一道新食谱，其味道要比你食谱中最好的那道还要好。

然而，这里有一个陷阱：你不能对新想法进行试吃。 你处于一个“无试吃”区域。如果你猜错了，就无法回头修正；你只能希望你的猜测是正确的。这就是离线基于模型的优化所面临的挑战。

本文将通过结合老派的谨慎与未来的量子计算来解决这一问题。

问题：“过度自信”的厨师

过去，科学家试图通过构建一个“代理模型”——即味觉测试的数字孪生——来解决这个问题。他们利用这 20 道已知食谱训练该模型，然后让它猜测新食谱的味道会如何。

问题在于？这些模型往往过度自信。

类比： 想象一个只见过晴天的天气预报应用。如果你让它预测一个它从未见过的风暴区域的天气，它可能会自信地预测“晴天！”，因为它不知道更好的情况。
结果： 优化器选择了一道模型声称美味的“新食谱”，但实际上它很难吃。这被称为“模型利用”——诱骗系统认为一个糟糕的想法是极好的。

解决方案：“保守”的量子厨师

作者提出了一种名为COM-QEL的新方法。它结合了两个概念：

量子极值学习（QEL）： 这使用量子计算机（具体为“参数化量子电路”）作为厨师的大脑。量子计算机就像超级计算器，能够比传统计算机更快、更具创造性地探索复杂的口味组合。它们非常擅长寻找美味的“巅峰”。
保守目标模型（COM）： 这是“谨慎”的部分。它就像给量子大脑加了一个安全刹车。

“安全刹车”如何运作：
作者教导量子模型一条新规则：“如果你正在猜测一道你从未见过的食谱，请保持悲观。”

训练技巧： 在训练过程中，计算机会故意生成与食谱书中内容截然不同的“虚假”或“对抗性”食谱。
惩罚机制： 如果模型预测这些奇怪、虚假的食谱很美味，它就会受到惩罚。它学会了降低对任何看起来太陌生或不熟悉的事物的期望。
结果： 模型不再对狂野、未经测试的想法感到兴奋。相反，它专注于寻找那些基于已有知识可能是好的新食谱。它用一点点“狂野的新颖性”换取了更高的“可靠性”。

“秘密配料”：了解厨房布局

本文还介绍了一种巧妙的方法，用于处理成分以特定方式相互作用的复杂问题（例如盐如何影响酸，但不影响糖）。

类比： 想象你的厨房有两个独立的岛屿。一个岛屿用于烘焙（面粉、鸡蛋、糖），另一个用于烧烤（肉类、香料、火）。你不会把面粉和火混在一起。
创新： 作者使用了量子图神经网络（QGNN）。这是一种连接量子计算机的方式，使其能够尊重这些“岛屿”。它只允许代表烘焙成分的量子比特（qubits）相互对话，而代表烧烤成分的量子比特则相互对话。
结果： 通过尊重问题的自然结构，量子厨师找到了比将所有东西扔进一个大搅拌机更好的解决方案。

他们发现了什么？

研究人员在计算机模拟（合成基准）上测试了这种方法，涉及两种类型的挑战：

平滑函数（易地形）： 就像一座缓坡。新方法（COM-QEL）找到了比旧量子方法（QEL）更好的解决方案，并且与最佳经典方法一样好，但选择糟糕解决方案的风险要小得多。
崎岖函数（难地形）： 就像拥有许多山峰和深谷的山脉。在这里，旧量子方法经常因为过于兴奋而跌入深谷（糟糕的解决方案）。新方法则停留在安全的高地上。它找到的解决方案在“新颖性”上略逊一筹（与原始数据的距离较近），但实用得多（实际上味道很好）。

结论

该论文声称，通过结合量子计算（提供动力）与保守正则化（提供谨慎），他们创造了一种混合算法，当无法在现实世界中测试新事物时，该算法在设计新事物方面更加安全和可靠。

这就像给量子超级计算机系上“安全带”并配上“厨房地图”，确保它能找到最好的新食谱，而不会不小心端给你一碗木屑。

技术摘要：保守量子离线模型基优化

问题陈述
离线模型基优化（MBO）旨在仅利用先前评估的固定静态数据集来识别最大化黑盒目标函数的配置，而无法执行新的实验。这种设置在分子设计和航空工程等高风险领域至关重要，因为在这些领域中在线查询成本高得令人望而却步或不可行。离线 MBO 的主要挑战是外推不确定性：学习到的代理模型可能会在未探索区域（分布外输入）错误地预测高目标值，这种现象被称为“模型利用”或“目标值黑客攻击”。这导致选择了在模型下看似最优但在现实中表现不佳的解决方案。虽然量子极值学习（QEL）已被提出利用变分量子电路的表达能力来应对这一任务，但原始的 QEL 方法缺乏防止在未见过输入上过度估计的具体机制。

方法论：COM-QEL
作者提出了保守量子离线模型基优化（COM-QEL），这是一种将 QEL 与保守目标模型（COM）相结合的混合算法。该方法论包含三个核心组件：

量子代理建模：该算法采用参数化量子电路（PQC）作为代理函数 $f_\theta(x)$ 。该电路由参数化酉矩阵 $W^l(\theta)$ 层和数据编码酉矩阵 $S^l(x)$ 构成。输出是可观测矩阵 $M$ 的期望值。
对抗正则化：为了解决过度乐观问题，训练目标被修改为包含保守惩罚。算法利用当前代理模型对训练数据点执行几步梯度上升，生成“对抗数据集” $D_{\theta, T_p}$ $D_{θ, T_{p}}$ 。训练过程最小化原始数据上的均方误差，同时约束对抗输入上的平均预测值不超过原始数据上的平均值超过阈值 $\tau$ $τ$ 。
- 形式上，这被转化为一个约束优化问题，并利用对偶变量 $\alpha$ 转换为极小 - 极大鞍点问题。
- 优化过程利用参数移位规则进行梯度估计，并采用对偶梯度下降 - 上升算法。
结构化 Ansatz（QGNN）：对于具有已知结构属性（变量子集之间的功能独立性）的问题，作者集成了功能图模型（FGM）。他们提出了一种量子图神经网络（QGNN）Ansatz，其中将双量子比特纠缠门（CNOT）限制在对应于同一功能团簇内变量的量子比特上，从而将问题结构直接编码到量子电路中。

主要贡献
该论文概述了三项主要贡献：

保守建模的集成：作者通过引入一种惩罚机制推广了 QEL 算法，该机制降低了训练数据支持范围之外输入上的预测值，使量子代理符合离线保守性原则。
结构化量子代理：该工作展示了通过 QGNN Ansatz 将 FGM 结构集成到 QEL 中，使量子模型能够利用已知的功能依赖关系。
实证验证：通过合成基准测试，论文证明 COM-QEL 在实用性（优于最佳数据集解决方案的改进）和新颖性（与现有数据的距离）之间实现了优于标准 QEL 和经典 COM 的权衡。

结果
作者在三种类型的合成基准测试上评估了 COM-QEL：

低带宽函数：在基于二维余弦的函数上，COM-QEL 始终优于标准 QEL。结果表明，COM-QEL 能够得出更好的解决方案，同时避免那些实用性过低的方案。该算法在特定范围内对超参数 $\tau$ 表现出鲁棒性。
高带宽函数：在具有大幅波动的具有挑战性的 Ackley 函数上，COM-QEL 成功避免了低实用性解决方案。研究强调，在正则化目标中保留两个惩罚项（同时考虑对抗数据集和初始集）对于在保持新颖性的同时增强实用性至关重要。
结构化函数：在结合 Rosenbrock 和 Ackley 分量的复合函数上，作者将标准硬件高效 Ansatz（HEA）与结构感知 QGNN 进行了比较。基于 QGNN 的 COM-QEL 在实用性和新颖性方面均优于 HEA 版本，证实了将问题结构编码到量子电路中可提升性能。

意义与主张
该论文声称，COM-QEL 有效地平衡了对样本外区域的探索与谨慎需求。对于表现良好的函数，它能有效探索；对于具有许多局部最优解的剧烈变化函数，它避免偏离数据集过远，从而降低了模型利用的风险。作者断言，通过引入保守正则化并将潜在问题结构编码到量子电路架构中，可以显著改善量子离线优化的性能。这项工作将自己定位为适应离线设置严格要求的量子优化算法调整的一步，尽管作者指出，未来工作需要在真实量子设备上进行实验验证，并扩展到离线强化学习。

问题：“过度自信”的厨师

解决方案：“保守”的量子厨师

“秘密配料”：了解厨房布局

他们发现了什么？

结论

技术摘要：保守量子离线模型基优化

类似论文