Metriq: A Collaborative Platform for Benchmarking Quantum Computers

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Metriq 的新平台，你可以把它想象成量子计算机世界的"Consumer Reports（消费者报告）"或者"跑分网站"（就像手机界的 Geekbench 或安兔兔）。

在量子计算机飞速发展的今天，各个厂商（如 IBM、Quantinuum、Rigetti 等）都在说自己的机器很强，但就像不同品牌的手机用不同的测试软件一样，大家很难公平地比较谁真的更好。Metriq 就是为了解决这个“乱局”而诞生的。

下面我用几个生动的比喻来解释这篇论文的核心内容：

1. 为什么要造 Metriq？（解决“各自为战”的混乱）

想象一下，如果每家手机厂商都自己定义什么是“快”，有的说开机快就是快，有的说拍照快就是快，而且测试标准还不一样，那消费者怎么买手机？
目前的量子计算机界就是这样：

碎片化：每家厂商都有自己的测试工具，数据不互通。
不透明：很多测试结果只是厂商自己发布的“自卖自夸”，缺乏第三方公正视角。
难以比较：很难知道 IBM 的机器和 Quantinuum 的机器到底谁更厉害。

Metriq 的作用：它建立了一个统一的“考场”。不管你是哪家厂商的机器，都要在这个考场上用同一套试卷、同一个评分标准来考试。而且，这个考场是开源的，任何人都可以来监督、出题甚至改进试卷。

2. Metriq 是怎么工作的？（“三剑客”组合）

Metriq 平台由三个核心部分组成，就像是一个完整的考试系统：

Metriq-gym（考官/执行者）：
这是一个自动化的“考试机器人”。它负责把各种复杂的测试题目（基准测试）发送给不同的量子计算机。它很聪明，能理解不同厂商的“方言”（硬件接口），确保题目在 IBM 的超导芯片上和 Quantinuum 的离子阱芯片上都能公平执行。
Metriq-data（成绩单/数据库）：
这是所有考试结果的“档案室”。所有的分数、运行时间、错误率都被详细记录下来，并且像图书馆的书一样分类整理好。任何人都可以下载这些数据，自己重新分析。
Metriq-web（展示墙/排行榜）：
这是一个漂亮的网站，把枯燥的数据变成了直观的图表和排行榜。你可以像看股票走势图一样，看到不同量子计算机随时间推移的性能变化。

3. 考什么？（“体能”与“智力”的双重测试）

为了全面评估量子计算机，Metriq 设计了两类测试：

系统级测试（测“体能”）：
- BSEQ（贝尔态有效量子比特）：就像测试运动员的肌肉协调性。它看机器能不能让很多量子比特（qubits）同时保持“纠缠”状态（一种量子特有的同步状态）。如果机器能连接很多比特且不出错，说明“体能”好。
- EPLG（每层门错误率）：就像测试动作的精准度。看机器在执行一系列基础操作时，出错的概率有多低。
- CLOPS（每秒电路层操作数）：就像测试跑步速度。看机器处理任务有多快。
应用级测试（测“智力”）：
- QML Kernel（量子机器学习核）：模拟机器处理数据分类任务的能力。
- WIT（虫洞启发式传送）：这是一个非常酷的测试，模拟虫洞物理现象。它测试机器能否完成极其复杂的物理模拟，就像让机器做一道高难度的物理奥数题。
- LR-QAOA：测试机器解决优化问题（比如旅行商问题）的能力。

4. 怎么打分？（Metriq 分数）

为了把上面这么多不同的测试（有的测速度，有的测精度，有的测规模）合成一个总分，作者设计了一个 Metriq 分数（Metriq Score）。

比喻：就像综合运动会（十项全能）的总分。
逻辑：它不是简单地把分数相加，而是根据任务的难度和规模给不同的测试分配权重。比如，能处理 100 个量子比特的任务，比处理 10 个比特的任务更难，所以权重更高。
结果：最终给出一个 0-100+ 的分数，让你一眼就能看出哪台机器是目前的“全能冠军”。

5. 发现了什么？（初步的“体检报告”）

作者用 Metriq 测试了来自 IBM、Quantinuum、Rigetti 等厂商的十多种量子计算机，发现了一些有趣的现象：

没有完美的机器：有的机器速度快但容易出错，有的机器精度高但速度慢。
硬件差异巨大：不同技术路线（如超导 vs 离子阱）的机器表现截然不同，这取决于它们擅长做什么类型的任务。
编译器的影响：有时候机器本身不错，但“翻译软件”（编译器）没把代码翻译好，导致成绩很差。这也提醒我们，评价量子计算机不能只看硬件，还要看软件栈。

6. 未来的展望

这篇论文强调，Metriq 不是一个“最终判决”，而是一个持续进化的平台。

动态更新：随着硬件升级，测试会重新运行，分数会更新。
纠错能力：未来量子计算机会有“纠错”功能，Metriq 计划增加针对“逻辑量子比特”的测试，就像从测试“单个零件”升级到测试“整台发动机”。
社区共建：任何人都可以提出新的测试题目，让这个平台越来越完善。

总结

Metriq 就像是量子计算机世界的“奥林匹克组委会”。它制定统一的规则，组织公平的比赛，记录真实的成绩，并告诉全世界：在这个充满不确定性的量子时代，到底谁在真正进步，谁在“虚张声势”。通过这种透明、开放的方式，它帮助科学家、企业和公众更好地理解和推动量子技术的发展。

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了 Metriq，一个开源的协作平台，旨在解决量子计算机基准测试（Benchmarking）领域碎片化、不可复现和缺乏跨平台比较标准的问题。该论文由 Unitary Foundation 等机构的研究人员于 2026 年 3 月发表。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

当前的量子计算基准测试环境存在严重的碎片化问题：

工具不统一：不同硬件供应商（如 IBM, Quantinuum, Rigetti 等）使用各自特定的工具和评估方法，导致难以进行公平、标准化的跨平台性能评估。
缺乏第三方中立性：大多数基准测试由供应商自行发布，缺乏独立的第三方验证，难以客观反映硬件真实性能。
数据孤岛：现有的基准测试结果多为孤立的案例研究，缺乏公开、标准化、可随时间追踪的跨平台数据集。
动态性挑战：量子硬件校准和架构更新迅速，静态的基准测试快照很快过时，无法反映设备的长期演变。

2. 方法论与平台架构 (Methodology)

Metriq 是一个集成的开源生态系统，包含三个核心组件，遵循模块化、文件驱动的设计原则，以确保可复现性和透明度：

A. 执行器 (Runner): `metriq-gym`

功能：一个基于 Python 的命令行工具，用于定义、执行和收集基准测试数据。
跨平台支持：利用 qBraid SDK 作为中间层，统一了不同云提供商（IBM Quantum, AWS Braket, Azure Quantum 等）和硬件架构（超导、离子阱、中性原子）的接口。
异步执行：采用“分发 - 轮询”（dispatch/poll）模型，允许用户提交任务后立即返回，后台自动监控状态并获取结果，解决了云排队时间长的痛点。
参数化与验证：所有基准测试参数通过 JSON Schema 定义，确保配置的可验证性和跨设备的一致性。
本地模拟支持：支持在本地模拟器（如 Qiskit Aer）上运行，便于快速迭代和验证。

B. 数据集 (Dataset): `metriq-data`

存储结构：基于 GitHub 仓库的版本控制文件存储系统。数据按 {source}/{version}/{provider}/{device}/{timestamp}_{benchmark-type}_{hash}.json 格式组织。
特点：无需中心化数据库，支持离线分析、版本回溯和透明审查。数据采用 CC-BY-4.0 许可发布。

C. 可视化网站 (Website): `metriq-web`

功能：一个交互式 Web 应用，展示时间序列图表和数据表。
交互性：用户可按提供商、基准测试类型筛选数据，查看设备级别的详细指标，并下载机器可读的数据包。

D. Metriq 分数 (Metriq Score, MS)

为了综合评估不同异构基准测试的结果，论文提出了一个复合指数：

组内聚合：在同一基准测试内，根据电路宽度（量子比特数）进行加权线性聚合。
基线归一化：将结果相对于一个指定的基线设备（如 ibm torino）进行归一化（100 分为基准）。
跨基准聚合：根据基准测试的有效电路规模（Effective Width）分配权重，计算加权平均值。
- 设计哲学：强调更大规模（更多量子比特）的测试，因为它们在经典模拟中更难，更能反映硬件的可扩展性。

3. 基准测试套件 (Benchmark Suite)

Metriq 包含两类基准测试，旨在平衡系统级特性与应用级任务：

A. 系统级基准测试 (System-level Benchmarks)

BSEQ (Bell State Effective Qubits)：通过测试 CHSH 不等式违反情况，评估设备在连接图上产生高质量纠缠态的能力。输出指标包括最大连通分量大小 (LCCS) 和连接分数。
EPLG (Error Per Layered Gate)：量化在连接受限的架构上，并行执行双量子比特门层的误差率。通过随机链上的直接随机基准测试（Direct RB）提取。
Mirror Circuits (镜像电路)：通过运行电路及其逆运算（准逆）来验证输出，敏感地检测相干误差和串扰。
CLOPS (Circuit Layer Operations Per Second)：衡量设备执行随机电路层的吞吐量（速度），反映编译效率、排队延迟和经典 - 量子通信开销。

B. 应用启发式基准测试 (Application-inspired Benchmarks)

QML Kernel：评估量子机器学习核函数的计算能力，测试参数化特征映射的保真度。
WIT (Wormhole-inspired Teleportation)：基于全息对偶原理，模拟虫洞 teleportation，测试多阶段量子电路的相干性和信息保留能力。
LR-QAOA (Linear-ramp QAOA)：使用线性斜坡参数而非变分优化，在加权最大割问题上评估量子近似优化算法的可扩展性。
QFT (Quantum Fourier Transform)：测试结构化多量子比特电路中的相位积累和相干性，是许多核心算法的基础。

4. 主要结果 (Results)

论文收集并发布了来自多个硬件供应商（IBM, Quantinuum, IQM, Rigetti, OriginQ）的超过 10 台量子计算机的基准测试数据：

跨平台对比：
- IBM Heron 架构（如 ibm_pittsburgh, ibm_kingston）在大多数基准测试中表现优异，特别是在 EPLG 和 Mirror Circuits 上，显示出较低的双量子比特门误差。
- Quantinuum H2-2（离子阱）在 BSEQ 和 QFT 等需要高相干性的任务中表现出色，但在 CLOPS（速度）上受限于其架构特性。
- IQM 和 Rigetti 设备在较小规模下表现尚可，但在扩展到较大电路宽度时，性能下降明显，部分受限于编译设置（如 AWS Braket 的 verbatim 模式限制）。
相关性分析：
- 不同基准测试之间存在强相关性（例如 Mirror Circuits 与 QML Kernel 的相关系数 $\rho \approx 0.991$ ），表明它们共同反映了硬件的相干误差和双量子比特门质量。
- Metriq 总分与供应商公开的双量子比特门保真度高度相关（ $\rho \approx 0.982$ ）。
成本估算：论文提供了详细的成本分析，指出不同提供商的计费模式（按 shots、按任务、按 HQC 等）差异巨大，强调了“节俭”（Frugality）原则在基准测试中的重要性。

5. 主要贡献 (Key Contributions)

首个开源协作平台：建立了由独立第三方维护的、包含执行器、数据集和可视化界面的完整基准测试生态系统。
新的基准测试协议：设计并实施了如 BSEQ 等新协议，并将现有协议扩展至未报道过的硬件平台。
综合评分体系：提出了 Metriq Score，提供了一种将异构基准测试结果汇总为单一可比较指标的方法，同时保持权重的透明性。
数据驱动洞察：通过共享数据集，揭示了不同基准测试之间的物理瓶颈（如双量子比特门误差是主要限制因素），并建立了硬件校准指标与基准测试结果之间的定量联系。

6. 意义与展望 (Significance & Outlook)

推动行业标准化：Metriq 为量子硬件的公平比较提供了“单一事实来源”（Single Source of Truth），有助于消除供应商宣传与实际性能之间的差距。
促进社区协作：通过开源和 FAIR 原则（可发现、可访问、可互操作、可重用），鼓励学术界和工业界共同完善基准测试套件。
面向未来：
- 容错计算：论文讨论了未来将基准测试扩展到逻辑量子比特（Logical Qubits）和量子纠错（QEC）层面的必要性，提出了逻辑贝尔对工厂（Logical Bell-pair factory）作为初步方案。
- 误差缓解：探讨了集成量子误差缓解（QEM）技术（如 ZNE, PEC）的潜力，以评估硬件在算法修正后的实际效用。
- 动态演进：平台支持定期重新执行基准测试，能够追踪硬件校准、架构升级带来的性能变化，提供动态的性能视图。

总结：Metriq 不仅仅是一组基准测试，它是一个持续演进的、社区驱动的基础设施，旨在通过透明、可复现和标准化的方法，加速量子计算硬件的评估、比较和进步。

Metriq: A Collaborative Platform for Benchmarking Quantum Computers

1. 为什么要造 Metriq？（解决“各自为战”的混乱）

2. Metriq 是怎么工作的？（“三剑客”组合）

3. 考什么？（“体能”与“智力”的双重测试）

4. 怎么打分？（Metriq 分数）

5. 发现了什么？（初步的“体检报告”）

6. 未来的展望

总结

1. 研究背景与问题 (Problem)

2. 方法论与平台架构 (Methodology)

A. 执行器 (Runner): metriq-gym

B. 数据集 (Dataset): metriq-data

C. 可视化网站 (Website): metriq-web

D. Metriq 分数 (Metriq Score, MS)

3. 基准测试套件 (Benchmark Suite)

A. 系统级基准测试 (System-level Benchmarks)

B. 应用启发式基准测试 (Application-inspired Benchmarks)

4. 主要结果 (Results)

5. 主要贡献 (Key Contributions)

6. 意义与展望 (Significance & Outlook)

类似论文

Quantum batteries and time dilation

Feasibility of satellite-augmented global quantum repeater networks

Low TTT-count preparation of nuclear eigenstates with tensor networks

Engineering Higher-order Effective Hamiltonians

Rhenium as a material platform for long-lived transmon qubits

A. 执行器 (Runner): `metriq-gym`

B. 数据集 (Dataset): `metriq-data`

C. 可视化网站 (Website): `metriq-web`

Low $T$ -count preparation of nuclear eigenstates with tensor networks