Metriq: A Collaborative Platform for Benchmarking Quantum Computers

本文介绍了 Metriq,这是一个开源协作平台,旨在通过整合基准定义、执行、数据收集与公开展示的统一工作流,解决量子计算基准测试碎片化问题,并发布了涵盖多种硬件厂商的跨平台性能数据集及综合评分指标(Metriq Score),以推动量子计算机的可复现基准评估与持续优化。

Alessandro Cosentino, Changhao Li, Vincent Russo, Bradley A. Chase, Tom Lubinski, Siyuan Niu, Neer Patel, Nathan Shammah, William J. Zeng

发布于 2026-03-10
📖 1 分钟阅读🧠 深度阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Metriq 的新平台,你可以把它想象成量子计算机世界的"Consumer Reports(消费者报告)"或者"跑分网站"(就像手机界的 Geekbench 或安兔兔)。

在量子计算机飞速发展的今天,各个厂商(如 IBM、Quantinuum、Rigetti 等)都在说自己的机器很强,但就像不同品牌的手机用不同的测试软件一样,大家很难公平地比较谁真的更好。Metriq 就是为了解决这个“乱局”而诞生的。

下面我用几个生动的比喻来解释这篇论文的核心内容:

1. 为什么要造 Metriq?(解决“各自为战”的混乱)

想象一下,如果每家手机厂商都自己定义什么是“快”,有的说开机快就是快,有的说拍照快就是快,而且测试标准还不一样,那消费者怎么买手机?
目前的量子计算机界就是这样:

  • 碎片化:每家厂商都有自己的测试工具,数据不互通。
  • 不透明:很多测试结果只是厂商自己发布的“自卖自夸”,缺乏第三方公正视角。
  • 难以比较:很难知道 IBM 的机器和 Quantinuum 的机器到底谁更厉害。

Metriq 的作用:它建立了一个统一的“考场”。不管你是哪家厂商的机器,都要在这个考场上用同一套试卷同一个评分标准来考试。而且,这个考场是开源的,任何人都可以来监督、出题甚至改进试卷。

2. Metriq 是怎么工作的?(“三剑客”组合)

Metriq 平台由三个核心部分组成,就像是一个完整的考试系统:

  • Metriq-gym(考官/执行者)
    这是一个自动化的“考试机器人”。它负责把各种复杂的测试题目(基准测试)发送给不同的量子计算机。它很聪明,能理解不同厂商的“方言”(硬件接口),确保题目在 IBM 的超导芯片上和 Quantinuum 的离子阱芯片上都能公平执行。
  • Metriq-data(成绩单/数据库)
    这是所有考试结果的“档案室”。所有的分数、运行时间、错误率都被详细记录下来,并且像图书馆的书一样分类整理好。任何人都可以下载这些数据,自己重新分析。
  • Metriq-web(展示墙/排行榜)
    这是一个漂亮的网站,把枯燥的数据变成了直观的图表和排行榜。你可以像看股票走势图一样,看到不同量子计算机随时间推移的性能变化。

3. 考什么?(“体能”与“智力”的双重测试)

为了全面评估量子计算机,Metriq 设计了两类测试:

  • 系统级测试(测“体能”)
    • BSEQ(贝尔态有效量子比特):就像测试运动员的肌肉协调性。它看机器能不能让很多量子比特(qubits)同时保持“纠缠”状态(一种量子特有的同步状态)。如果机器能连接很多比特且不出错,说明“体能”好。
    • EPLG(每层门错误率):就像测试动作的精准度。看机器在执行一系列基础操作时,出错的概率有多低。
    • CLOPS(每秒电路层操作数):就像测试跑步速度。看机器处理任务有多快。
  • 应用级测试(测“智力”)
    • QML Kernel(量子机器学习核):模拟机器处理数据分类任务的能力。
    • WIT(虫洞启发式传送):这是一个非常酷的测试,模拟虫洞物理现象。它测试机器能否完成极其复杂的物理模拟,就像让机器做一道高难度的物理奥数题。
    • LR-QAOA:测试机器解决优化问题(比如旅行商问题)的能力。

4. 怎么打分?(Metriq 分数)

为了把上面这么多不同的测试(有的测速度,有的测精度,有的测规模)合成一个总分,作者设计了一个 Metriq 分数(Metriq Score)

  • 比喻:就像综合运动会(十项全能)的总分。
  • 逻辑:它不是简单地把分数相加,而是根据任务的难度规模给不同的测试分配权重。比如,能处理 100 个量子比特的任务,比处理 10 个比特的任务更难,所以权重更高。
  • 结果:最终给出一个 0-100+ 的分数,让你一眼就能看出哪台机器是目前的“全能冠军”。

5. 发现了什么?(初步的“体检报告”)

作者用 Metriq 测试了来自 IBM、Quantinuum、Rigetti 等厂商的十多种量子计算机,发现了一些有趣的现象:

  • 没有完美的机器:有的机器速度快但容易出错,有的机器精度高但速度慢。
  • 硬件差异巨大:不同技术路线(如超导 vs 离子阱)的机器表现截然不同,这取决于它们擅长做什么类型的任务。
  • 编译器的影响:有时候机器本身不错,但“翻译软件”(编译器)没把代码翻译好,导致成绩很差。这也提醒我们,评价量子计算机不能只看硬件,还要看软件栈。

6. 未来的展望

这篇论文强调,Metriq 不是一个“最终判决”,而是一个持续进化的平台

  • 动态更新:随着硬件升级,测试会重新运行,分数会更新。
  • 纠错能力:未来量子计算机会有“纠错”功能,Metriq 计划增加针对“逻辑量子比特”的测试,就像从测试“单个零件”升级到测试“整台发动机”。
  • 社区共建:任何人都可以提出新的测试题目,让这个平台越来越完善。

总结

Metriq 就像是量子计算机世界的“奥林匹克组委会”。它制定统一的规则,组织公平的比赛,记录真实的成绩,并告诉全世界:在这个充满不确定性的量子时代,到底谁在真正进步,谁在“虚张声势”。通过这种透明、开放的方式,它帮助科学家、企业和公众更好地理解和推动量子技术的发展。