Benchmarking Quantum Computers: Towards a Standard Performance Evaluation Approach

本文通过回顾经典处理器基准测试的教训并分析量子计算的独特性质,评估了现有量子处理器指标,进而提出了旨在推动建立类似 SPEC 的标准化性能评估组织的通用基准测试指南。

Arturo Acuaviva, David Aguirre, Rubén Peña, Mikel Sanz

发布于 Wed, 11 Ma
📖 1 分钟阅读🧠 深度阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章就像是一份**“量子计算机的体检指南”**,旨在解决一个核心问题:我们该如何公平地给不同品牌的量子计算机“打分”?

想象一下,如果你要买电脑,你会看什么?你会看跑分(Benchmark)。但在量子计算机的世界里,目前还没有一个统一的“跑分标准”。这就好比大家都在卖“超级跑车”,有的用汽油,有的用电,有的甚至用反重力引擎,但大家却用“最高时速”这一项指标来互相比较,这显然不公平,也容易让人被忽悠。

这篇文章的作者们(来自西班牙巴斯克地区的科学家)就像一群经验丰富的“汽车评测专家”,他们想建立一套**“量子汽车评测协会”(SPEQC)**,并制定了以下通俗易懂的指南:

1. 为什么我们需要“体检指南”?(背景与痛点)

  • 现状: 现在的量子计算机还处于“婴儿期”(NISQ 时代)。它们很吵(噪声大)、很脆弱(容易出错),而且长得千奇百怪(有的用超导,有的用离子阱)。
  • 问题: 如果没有统一标准,厂家就会“刷分”。就像以前的电脑厂商,为了在某个测试软件上跑得快,专门优化代码,结果实际用起来却不行。这被称为**“古德哈特定律”**:一旦某个指标成为目标,它就不再是一个好指标。
  • 目标: 我们需要一套科学、公平的方法,既能告诉用户谁更强,又能告诉厂家哪里需要改进。

2. 从“老前辈”那里学什么?(借鉴经典计算机经验)

作者们参考了传统计算机几十年的评测经验,提出了**“好评测”的五大黄金法则**:

  1. 相关性 (Relevance): 测试得是你真正关心的。比如,如果你关心的是“能不能算得快”,就别只测“能不能存得多”。
  2. 可重复性 (Reproducibility): 别人照着你的方法做,得能得出一样的结果。不能今天测是 100 分,明天测是 50 分。
  3. 公平性 (Fairness): 大家要在同一起跑线上。不能允许 A 厂家用“作弊器”(比如特殊的编译器优化),而 B 厂家只能用“裸机”。
  4. 可验证性 (Verifiability): 结果得能让人查得出来,不能是厂家自己说“我赢了”就算赢。
  5. 易用性 (Usability): 测试不能太贵、太复杂,否则没人愿意用。

3. 量子世界的“特殊体质”(为什么不能直接照搬旧方法?)

量子计算机和经典计算机完全不同,直接套用旧方法会出问题:

  • 量子比特 (Qubits) 很娇气: 经典比特是 0 或 1,像开关;量子比特像是一个旋转的陀螺,既是 0 又是 1。而且陀螺转一会儿就停了(退相干),所以测试必须考虑“时间”和“噪声”。
  • 测量会“塌缩”: 在经典电脑里,你看一眼数据不会改变数据。但在量子电脑里,你一旦去“看”(测量),状态就变了。所以,要得到准确结果,往往需要重复运行成千上万次,这就像**“为了确认硬币是正面还是反面,你得扔一万次”**。
  • 没有统一语言: 现在的量子电脑就像还在用不同方言交流,有的用“超导”,有的用“离子”,它们的“门电路”(基本操作)都不一样,很难直接比谁快。

4. 现有的“体检项目”靠谱吗?(现有指标分析)

文章列举了很多现有的“跑分”指标,并给它们打了“体检报告”:

  • 量子比特数量 (Number of Qubits): 就像比谁的车轮多。但这不够,如果轮子全是坏的(噪声大),车也跑不起来。
  • 量子体积 (Quantum Volume, QV): 这是一个很火的指标,试图衡量电脑能处理多复杂的任务。但它有个缺点:随着任务变难,测试难度呈指数级爆炸,就像要数清一个巨大迷宫的所有路径,还没测完,电脑就老了。
  • Q-Score: 这个指标更实用,它看的是电脑能解决多大的“优化问题”(比如怎么安排物流最省钱)。这更像是在**“实战演习”**,而不是在跑道上比速度。
  • 结论: 没有**“银弹”**(万能指标)。你不能只用一个数字来代表一台量子电脑。就像你不能只用“最高时速”来评价一辆车,还得看油耗、舒适度、越野能力等。

5. 未来的“体检路线图”(作者的建议)

作者提出了一个五步走的标准化流程,并建议成立一个**“量子性能评估协会”(SPEQC)**,类似于现在的 SPEC(标准性能评估公司)。

给评测者的 5 条建议:

  1. 分时代测试: 现在的量子电脑是“婴儿”,未来的可能是“成年人”。对婴儿要测“能不能翻身”(基础能力),对成年人要测“能不能跑马拉松”(复杂应用)。不能用成年人的标准去要求婴儿。
  2. 遵守黄金法则: 新出的测试必须符合上面提到的“相关性、可重复性”等五大原则。
  3. 报“双份”成绩: 就像汽车评测有“标准版”和“改装版”一样。
    • 基础分 (Base): 在标准设置下测,保证大家公平可比。
    • 巅峰分 (Peak): 允许厂家用各种黑科技优化,展示极限能力。
  4. 指标要靠谱: 选用的数字指标(Metric)必须是科学的、可重复的。
  5. 别只信一个分: 必须用**“评测套件” (Suite)**。就像体检不能只测血压,要测血常规、心电图、CT 等一整套。要用一组测试来全面评估量子电脑。

6. 最终愿景:一张“体检报告单”

文章最后展示了一个SPEQC 报告单的样图。未来的量子电脑评测结果,应该像这样清晰:

  • 硬件信息: 用了什么芯片?有多少个量子比特?
  • 软件设置: 用了什么编译器?允许哪些优化?
  • 测试结果: 在“基础模式”和“巅峰模式”下,分别跑了哪些测试(如 QASMBench, SupermarQ 等),得出了什么分数。

总结

这篇文章的核心思想是:量子计算正在从“野蛮生长”走向“规范发展”。

就像汽车行业发展初期,大家各自吹嘘自己的车,后来有了统一的碰撞测试和油耗标准,行业才真正成熟。作者希望建立SPEQC,制定一套公平、透明、科学的“量子体检标准”,防止厂家“刷分”忽悠人,帮助科学家和投资者看清谁才是真正有潜力的“量子赛车手”,从而推动整个行业健康、快速地发展。