想象一下,你正试图在一片充满数千个山谷的巨大、多雾的山脉中寻找最低点。有些山谷很深(优秀的解),但许多山谷很浅(还可以的解),而一旦陷入浅谷就会很容易被困住。这就是计算机在解决复杂优化问题时所面临的情况。
几十年来,我们一直尝试用两种主要方法来解决这个问题:
- 数字计算机: 就像一名徒步旅行者,一次只走一步,缓慢地检查每一条路径。它很精确,但速度极慢且极其耗能。
- 量子计算机: 就像一位神奇的徒步旅行者,可以“隧穿”穿过山脉,瞬间找到最低的山谷。然而,这些机器就像脆弱的冰雕;它们需要被保存在比外太空还要冷的冰箱里才能工作,这使得它们庞大、昂贵且难以使用。
迎来“阿波罗”(Apollo):一种新型计算机
这篇论文介绍了一种名为 Apollo 的新型计算机芯片,它声称可以在不需要冰箱的情况下,获得量子计算机那种“神奇隧穿”的好处。它可以在室温下运行,可以安装在标准的计算机芯片上,并且功耗极低。
以下是它的工作原理,使用简单的类比:
1. “P-Qubit”:一个摇晃的硬币
Apollo 不使用标准的计算机位(要么是严格的 0 或 1)或量子位(那种神秘、脆弱的叠加态),而是使用 p-qubits(概率量子比特)。
- 类比: 想象一枚在桌子上旋转的硬币。它现在既不是正面也不是反面,而是在摇晃。在 Apollo 中,这些硬币在 0 和 1 之间不断摇晃。
- 秘诀所在: 通常,计算机使用伪随机数(比如通过计算机程序猜测数字)来让这些硬币摇晃。而 Apollo 使用的是 真正的量子随机性。它拥有内置的微型“熵单元”,通过倾听电子的自然、不可预测的抖动(一种量子效应)来决定何时翻转硬币。这使得这种摇晃是“真实”且不可预测的,就像自然界原本的样子一样。
2. “室温魔法”
论文声称,通过使用这些由真实量子噪声驱动的摇晃硬币,Apollo 可以模拟超低温量子计算机的行为。
- 类比: 想象一个拥挤的舞池。
- 数字计算机 就像人们轮流移动,一次一人,遵循严格的时钟。
- 超导量子计算机 就像舞者们在完美、冰冻的同步中移动,但房间太冷了,舞者们显得僵硬,且搭建这个环境非常困难。
- Apollo 则像是一个大家同时移动、自然流动并互相碰撞的舞池。因为它们是由“量子噪声”驱动的,所以它们可以像那些冰冻的量子舞者一样轻松地穿过障碍物(就像舞者从人群中滑过),而无需那个冰箱。
3. “超连接网络”
当前量子计算机面临的最大问题之一是,它们的“舞者”(qubits)只能与少数几个邻居牵手。为了解决大问题,你必须建立长长的舞者链条来连接远处的舞者,这浪费了空间和时间。
- Apollo 的优势: Apollo 使用了一个名为“海波龙”(Hyperion)的网络,其中每个 p-qubit 可以直接连接到多达 256 个其他 p-qubit。
- 类比: 如果说标准的量子计算机是一个只能与紧邻邻居交谈的小镇,那么 Apollo 就是一个巨大的城市广场,任何人都可以同时向 256 人喊话。这意味着 Apollo 解决复杂谜题(如交通路由或金融投资组合)的速度要快得多,因为它不必建立长而笨拙的链条来连接各个点。
4. 证明: “自旋玻璃”测试
为了证明其有效性,研究人员并没有仅仅靠猜测;他们运行了一个特定的、非常困难的测试,称为 3D 自旋玻璃(3D Spin Glass)。这就像一个谜题,你必须排列成千上万个磁铁,使它们互不冲突。这是一个以普通计算机难以应对而闻名的基准测试。
- 结果: Apollo 用不到超低温量子计算机(D-Wave)的一小部分时间就解决了这个谜题,并且找到了 更好 的解(更低的能量状态)。
- 对比: 当他们观察 Apollo 是如何解决该问题的时,它成功的模式看起来与超低温量子计算机的模式完全一致。这证明了 Apollo 即使坐在温暖的办公桌上,也能获取相同的“类量子”捷径。
5. 为什么这很重要(根据论文所述)
论文声称 Apollo 是一个突破,因为:
- 它是室温运行的: 不需要巨大的冰箱。
- 它能效极高: 每次计算消耗的能量大约只有标准计算机芯片的一百万分之一。
- 它很快: 它可以每秒进行数万亿次的“硬币翻转”(做决策)。
- 它具有可扩展性: 因为它是用标准的芯片制造技术(CMOS)构建的,所以可以大量生产,有望制造出拥有数百万个此类 p-qubit 的芯片。
总结:
Apollo 是一种新型计算机芯片,它利用量子粒子的自然随机抖动来帮助它解决难题。它的表现就像一台量子计算机,但可以在温暖的桌面上运行,耗电量极低,并且比目前的量子机器更高效地连接其各个部分。论文声称,在一次困难的基准测试中,它已经超越了已知最优秀的超低温量子计算机的结果。
技术摘要:面向百万级比特工作负载的量子驱动神经形态计算
1. 问题陈述
一类广泛的组合优化、概率推理和机器学习计算问题可以被表述为复杂能量函数(例如 Ising 模型和 QUBO 模型)的极小化或采样问题。这些问题具有崎岖的能量景观,存在大量的局部极小值,导致传统的确定性数字架构收敛缓慢。虽然存在诸如模拟退火和量子启发算法等启发式方法,但它们通常受限于离散时间更新方案、有限的并行性和与内存访问及控制流相关的极高能量开销。
现有的物理替代方案面临显著局限:
- 超导量子退火器: 虽然能够利用量子隧穿效应,但需要毫开尔文级的低温运行,受限于相干时间较短的问题,并且由于原生连接性的稀疏性,需要大量的次级嵌入(minor-embedding)开销。
- 经典数字退火: 受限于时钟同步更新带来的离散化误差和更新顺序偏差,这扭曲了物理系统的连续时间动力学。
- 概率/模拟硬件: 现有的原型通常依赖于共享或算法生成的噪声源,这会导致违反独立性假设的统计相关性,或者缺乏密集问题嵌入所需的连接密度。
至关重要的是,目前尚无室温系统能够展示出能够重现超导量子退火器中所观察到的量子临界退火动力学(特别是残余能量缩放)的能力。
2. 方法论与架构
作者介绍了 Apollo,这是一款采用 16 nm 混合信号 CMOS 工艺制造的 10,000 节点神经形态处理器,可在室温下全功能运行。该架构建立在以下理论和物理基础之上:
理论基础
- Suzuki–Trotter 等效性: 本研究利用了横场 Ising 模型(量子退火)与高维空间(d+1 维)中经典 Ising 模型之间的理论映射。这表明,一个具有适当连续时间随机动力学和噪声统计特性的经典系统,可以在不需要相干量子演化的情况下,重现量子退火器的平衡统计和退火轨迹。
- 连续时间随机动力学: 与时钟驱动的数字系统不同,所提出的系统是异步演化的。状态转换由连续时间涨落驱动,从而避免了离散化伪影和更新顺序偏差。
- 量子驱动熵: 为了确保统计独立性和忠实的采样,系统采用了 集成量子熵单元 (IQEUs)。这些单元将源自量子力学过程(例如电子隧穿涨落)的真实、非确定性熵直接注入到每个计算单元的随机动力学中。
p-Qubit 与硬件实现
基本的计算单元是 p-qubit(概率比特),一种双稳态随机单元。
- 电路架构: 每个 p-qubit 由一个包含九个晶体管的操作转导放大器 (OTA) 的 CMOS 锁存器元件实现,该放大器提供了一个 Sigmoidal(类 tanh)激活函数。
- 熵注入: 每个 p-qubit 都配有一个专用的 IQEU,确保随机转换是由独立的量子衍生噪声驱动,而非伪随机数生成器。
- 模拟向量-矩阵乘法 (VMM): 耦合权重存储在非易失性的浮栅 (FG) pFET 晶体管上。相互作用通过模拟电流求和进行计算,消除了内存带宽瓶颈并实现了原位计算。
- 连接性: 系统采用了 Hyperion Δ256 互连拓扑,允许每个 p-qubit 支持高达 256 个加权耦合。这种高阶连接性显著降低了密集 Ising 和 QUBO 问题相对于稀疏拓扑(如 Chimera 或 Pegasus)所需的次级变量嵌入开销。
- 控制: 专门的 FPGA 型 Dynex 控制单元 (DCU) 负责协调系统,处理问题预处理、图嵌入、动态退火计划注入(调制噪声和偏置)以及高吞吐量读取。
3. 核心贡献
本文提出了四个主要贡献:
- 量子等效退火动力学: 证明了由量子衍生熵驱动的连续时间随机系统可以重现横场量子退火器的平衡行为和退火轨迹(如统计力学等效性所示),而无需低温冷却。
- 实验重现量子临界缩放: 使用典型的 3D 自旋玻璃基准测试,作者实验性地重现了此前用于识别超导硬件中量子临界动力学的残余能量缩放行为。观测到的缩放指数与低温量子硬件无法区分,且明显区别于经典模拟退火 (SA) 和模拟量子退火 (SQA)。
- 可扩展密集嵌入: 引入了具有原生 Δ256 连接性的架构,大幅减少了嵌入密集或高连接度问题实例时的辅助变量开销。
- 室温热力学采样: 通过各种问题实例的实验验证,系统能够从正确的玻尔兹曼分布中进行采样,确认了热力学一致性和无偏随机行为。
4. 实验结果
作者使用 350 nm 发布候选器件 (Apollo-RC1) 对架构进行了验证,并对 16 nm 量产器件的性能进行了预测。
- 器件特性: 测量确认了清晰、单调的 Sigmoidal 激活曲线,具有可调斜率且无检测到的滞后现象。
- 熵质量: IQEU 熵源针对商业量子随机数生成器(ID Quantique Quantis)进行了基准测试。统计测试(NIST SP 800-90B,偏差分析,序列相关性)显示,IQEU 产生的随机数具有高质量、无偏且无相关性的特性,与商业参考标准相当,无需进行后处理白化。
- 热力学采样: 在小型、精确可解的 Ising 实例上,系统实现的 Kullback–Leibler 散度与理论 Gibbs 分布的偏差小于 1%,证实了正确的热力学采样。
- 能量效率: 预计 16 nm 器件的典型模拟核心功耗约为
0.5 W。每次物理翻转的能量成本估计为 **0.63 fJ** (6.25 × 10⁻¹⁶ J),这比基于 CPU/GPU 的模拟退火提高了 10⁴–10⁵ 倍,比超导量子退火器高出 10²–10³ 倍。
- 吞吐量: 在 10,000 个 p-qubit 并行运行且翻转速率为每器件 80 GHz 的情况下,单颗芯片的总物理翻转吞吐量为 ~8.0 × 10¹⁴ flips/s。一个 100 颗芯片的组装体(100 万个 p-qubit)将达到 ~8.0 × 10¹⁶ flips/s。
- 量子临界基准测试: 在 3D 自旋玻璃基准测试(2,687 个自旋)中,Apollo 的残余能量缩放轨迹与超导量子退火器(D-Wave)无法区分,且明显区别于 SA 和 SQA。
- 基态发现: 在 3D 自旋玻璃的基态能量比较中,尽管运行时间短了两个数量级(10³ ns vs 10⁵ ns),Apollo 始终能找到比 D-Wave 基准更低(更负)的能量构型。
5. 重要性与主张
本文声称 Apollo 建立了一类新的量子驱动神经形态计算,架起了 NISQ 时代量子处理器与经典加速器之间的桥梁。
- 室温量子优势: 该工作证明,量子退火的计算优势——特别是获取量子临界动力学普适类以及高效遍历崎岖能量景观的能力——可以在室温下的经典硬件基质上实现。
- 可扩展性: 通过利用标准 CMOS 工艺并避免低温基础设施,该架构为工业级可扩展的百万级比特工作负载提供了路径。
- 统一平台: 系统将概率计算、量子驱动随机动力学以及通过电路-哈密顿量变换实现的门兼容操作统一在单一架构中。这使得包括能量模型优化、贝叶斯推理、生成模型以及混合经典-量子工作流在内的多样化工作负载成为可能。
- 范式转变: 结果表明,量子衍生计算原语并不一定需要脆弱的量子相干性才能发挥作用;相反,底层系统的统计和动力学特性(连续时间演化和独立的量子熵)足以重现等效于量子的退火行为。
作者总结道,Apollo 为超越低温时代的能量模型计算开辟了新途径,为以空前的速度和能量效率解决困难优化问题提供了具有物理依据的基质。
每周获取最佳 quantum physics 论文。
受到斯坦福、剑桥和法国科学院研究人员的信赖。
请查收邮箱确认订阅。
出了点问题,再试一次?
无垃圾邮件,随时退订。