Each language version is independently generated for its own context, not a direct translation.

メトリック（Metriq）：量子コンピュータの「総合テストセンター」

この論文は、**「Metriq（メトリック）」**という新しいプラットフォームについて紹介しています。

簡単に言うと、これは**「量子コンピュータの性能を公平に測るための、オープンな総合テストセンター」**です。

これまでの量子コンピュータのテストは、メーカーごとに独自のルールや道具を使って行われており、まるで「A 社の車のテスト」と「B 社の車のテスト」を同じ基準で比較できないような状態でした。メトリックは、そのバラバラな状況を整理し、誰でも同じ条件で性能を測れるようにする「共通の物差し」と「結果を公開する掲示板」を作りました。

以下に、この仕組みを身近な例えを使って説明します。

1. なぜメトリックが必要なのか？（問題点）

今の量子コンピュータ業界は、**「それぞれが独自のルールでテストしている状態」**です。

メーカー A は「自分のマシンは最高だ！」と独自のテスト結果を発表。
メーカー B も「うちの方が速い！」と別のテスト結果を主張。

これでは、第三者が「どっちが本当に優れているのか」を判断できません。また、テスト結果がバラバラで、過去のデータと今のデータを比べるのも大変です。

メトリックの役割：
これは、**「すべての選手が同じトラックで、同じルールで走るオリンピック」**のようなものです。誰が主催しても、誰が観客でも、同じ基準で「誰が速いのか」「誰が持久力があるのか」を公平に比較できます。

2. メトリックの仕組み（3 つの柱）

メトリックは、大きく分けて 3 つの部品で構成されています。

① 実行係（Runner / metriq-gym）：「テストを走らせるランナー」

役割: 世界中の異なる量子コンピュータ（IBM、Quantinuum、Rigetti など）に対して、同じテストプログラムを自動で走らせるツールです。
例え: 料理のレシピ（テスト手順）を一つ用意し、それを「アメリカのキッチン」「日本のキッチン」「フランスのキッチン」など、異なる設備のキッチンに持ち込んで、**「同じレシピで同じ料理を作らせる」**ようなものです。結果がどうなるか、設備の違いによる影響がはっきりわかります。

② データ集（Dataset / metriq-data）：「結果を記録する巨大なノート」

役割: 実行されたテストの結果を、誰でも見られる形で保存・整理します。
例え: 競技会の**「公式記録帳」**です。誰が、いつ、どのマシンで、どんな結果を出したかがすべて記録され、誰でも自由にコピーして分析できます。

③ ウェブサイト（Website / metriq-web）：「結果を見せる掲示板」

役割: 記録されたデータをグラフや表にして、誰でも直感的に比較できるように見せてくれます。
例え: 競技会の**「リアルタイム掲示板」**です。ここでは、各マシンの成績が色とりどりのグラフで表示され、「あそこのマシンは速いけど、あそこはエラーが多いな」といった傾向が一目でわかります。

3. 何を実験しているの？（テスト内容）

メトリックでは、単に「速さ」だけでなく、多様な能力を測るテストを行っています。

基礎体力テスト（システムレベル）:
- BSEQ: 量子ビット同士が「もつれ（エンタングルメント）」という不思議な状態を、どれくらい広範囲に作れるか？（例：156 個のビットのうち、何個までが上手につながっているか？）
- EPLG: 計算の「層（レイヤー）」を積み重ねたとき、どれくらいエラーが溜まるか？（例：積み木を高く積み上げたとき、どれくらい崩れにくい？）
実戦テスト（応用レベル）:
- QML Kernel: 機械学習（AI）の計算を、どれくらい正確にできるか？
- WIT: 「ワームホール（虫穴）」という物理現象をシミュレーションする複雑な計算を、どれくらい忠実に再現できるか？
- LR-QAOA: 組み合わせ最適化問題（配送ルートの最適化など）を、どれくらい良い答えで見つけられるか？

4. 「メトリック・スコア」とは？

それぞれのテスト結果を、一つの数字にまとめてランク付けしたものが**「メトリック・スコア」**です。

例え: 大学入試の「総合得点」のようなものです。
- 数学（BSEQ）が得意なマシン、国語（QML）が得意なマシン、体育（CLOPS/速度）が得意なマシンがいます。
- メトリック・スコアは、これらを「どの分野を重視するか」という重み付けをして合計し、「総合的にどれくらい優秀か」を 1 つの数字で示します。
- 基準となるマシン（例：IBM の「Torino」）を 100 点とし、それより良いマシンは 100 点を超え、悪いマシンは 100 点未満になります。

5. このプロジェクトのすごいところ

公平性: メーカーが自分でテストするのではなく、第三者（Unitary Foundation という非営利団体）が運営しています。
透明性: すべてのテストコード、データ、結果は「オープンソース（誰でも見られる状態）」で公開されています。
継続性: 一度きりのテストではなく、マシンの性能が向上したら、また同じテストを繰り返して「成長度」を追跡できます。
コスト意識: 量子コンピュータのテストは非常に高価ですが、メトリックは「いかに安くテストするか」も考慮し、誰でも参加できるように工夫しています。

結論：これからどうなる？

メトリックは、量子コンピュータの「成長記録」を記録し続けるための**「生きているプラットフォーム」**です。

ハードウェアが進化し、エラー訂正（故障を直す技術）が実用化される未来に向けて、この「共通の物差し」があれば、研究者も企業も、**「今、技術はどの段階にあるのか」「次に何を改善すべきか」**を客観的に議論できるようになります。

つまり、メトリックは量子コンピュータが「実験室の玩具」から「社会を動かす実用的な機械」へと成長する過程を、公平に支えるための**「信頼できるコンパス」**なのです。

Each language version is independently generated for its own context, not a direct translation.

Metriq: 量子コンピュータのベンチマークのための協働プラットフォーム

技術的サマリー（日本語）

本論文は、量子コンピュータのベンチマーク分野における断片化と非標準化という課題に対処するため、オープンソースの協働プラットフォーム「Metriq」を提案・紹介するものです。メトリク（Metriq）は、ベンチマークの定義、実行、データ収集、可視化を統合したワークフローを提供し、異なるハードウェアベンダー間での再現性のある比較を可能にします。

以下に、問題定義、手法、主要な貢献、結果、そして意義について詳細にまとめます。

1. 問題定義 (Problem)

現在の量子コンピュータのベンチマーク環境は以下の課題に直面しています：

断片化と非標準化: 各ベンダー（IBM、Quantinuum、Rigetti など）が独自のツールや評価手法を使用しており、プラットフォーム横断的な公平な比較が困難です。
データの孤立: 多くのベンチマーク結果が個別のケーススタディとして発表され、公開された標準化されたデータセットが存在しません。
評価の欠如: 第三者による公平な比較が不足しており、ベンダー主導の評価ではバイアスが生じる可能性があります。
動的な環境への対応不足: 量子技術の急速な進化に対し、一度きりのスナップショット評価ではデバイスの性能変化を追跡できません。

2. 手法とアーキテクチャ (Methodology)

Metriq は、以下の 3 つの主要コンポーネントからなるモジュール型のオープンソースプラットフォームです。

A. 実行エンジン：`metriq-gym`

機能: 異質なハードウェアバックエンド（超電導、イオントラップ、中性原子など）に対して、同一のベンチマークプロトコルを実行するためのランナーです。
技術的特徴:
- qBraid SDK の活用: 複数のクラウドプロバイダーを抽象化し、回路のトランスパイル、ジョブ実行、認証を統一インターフェースで管理します。
- スキーマ駆動設計: 各ベンチマークのパラメータ（ショット数、回路幅など）を JSON スキーマで定義し、設定の透明性と再現性を保証します。
- 非同期実行モデル: ジョブのキューイング時間を待たずにタスクを配信し、バックグラウンドで結果をポーリングする仕組みにより、大規模なベンチマークキャンペーンを自動化可能にします。
- ローカルシミュレータ対応: 物理デバイスだけでなく、ノイズモデル付きの「Fake Device」や状態ベクトルシミュレータでも同様に実行可能で、開発サイクルを加速します。

B. データセット：`metriq-data`

機能: バージョン管理された構造化されたベンチマーク記録のコレクションです。
形式: GitHub リポジトリ上に JSON ファイルとして保存され、スキーマ検証済みです。
特徴: プロバイダー、デバイス、タイムスタンプ、ベンチマークタイプに基づいた階層的なディレクトリ構造を採用しており、データの追跡可能性（プロベナンス）とオフライン分析を容易にします。

C. ウェブポータル：`metriq-web`

機能: データセットを対話的なタイムシリーズプロットとテーブルとして公開するフロントエンドです。
機能: ユーザーはベンチマークやプロバイダーでフィルタリングでき、機械可読な形式でのエクスポートが可能です。将来的には、リソース推定データとの統合やコミュニティによる注釈機能も予定されています。

3. ベンチマークスイートと「Metriq スコア」

メトリクは、システムレベルの指標とアプリケーション由来のタスクの両方を網羅するベンチマークスイートを提供します。

主要なベンチマーク

システムレベル:
- BSEQ (Bell State Effective Qubits): 全結合グラフ上のエンタングルメント品質を CHSH 不等式違反に基づき評価。
- EPLG (Error Per Layered Gate): 接続制約のあるアーキテクチャ向けに最適化された、レイヤーごとの二量子ビットゲート誤り率の評価。
- Mirror Circuits: 任意の回路を逆転させて実行し、出力の一致率から累積誤りを評価するスケーラブルな手法。
- CLOPS (Circuit Layer Operations Per Second): 回路レイヤーの実行速度（スループット）を測定。
アプリケーション由来:
- QML Kernel: 量子機械学習におけるカーネル行列要素の計算精度。
- LR-QAOA: 線形ランプ法を用いた量子近似最適化アルゴリズムの近似比評価。
- WIT (Wormhole-inspired Teleportation): holographic duality に基づく量子テレポーテーションシミュレーション。
- QFT (Quantum Fourier Transform): 構造化された量子回路における位相コヒーレンスの蓄積能力。

Metriq スコア (MS)

異なるベンチマークの結果を単一のスカラー値に集約するための複合指標です。

計算プロセス:
1. 回路幅ごとの集約: 各ベンチマーク内で、複数の回路幅（qubit 数）の結果を重み付け平均。
2. 基準正規化: 基準デバイス（例：IBM Torino）に対する相対性能を 100 を基準として計算。
3. ベンチマーク間集約: 各ベンチマークの「実効的な回路幅（ $\mu_b$ ）」に基づいて重み付けを行い、最終スコアを算出。
特徴: より大規模な回路幅での性能を重視する設計となっており、スケーラビリティの指標となります。

4. 結果 (Results)

著者らは、Metriq を用いて IBM、Quantinuum、IQM、Rigetti、OriginQ などの複数のハードウェアベンダーから 10 以上の量子コンピュータでデータを収集・公開しました。

クロスプラットフォーム比較: 表 I に示されるように、異なるアーキテクチャ（超電導 vs イオントラップ）間での性能を統一された指標で比較可能です。
- 例：Quantinuum H2-2 は、BSEQ や QML Kernel において高い忠実度を示しましたが、CLOPS（速度）は IBM などの超電導デバイスに劣る傾向が見られました。
- IBM の Heron アーキテクチャ（例：ibm_pittsburgh）は、Eagle アーキテクチャに比べて二量子ビットゲートの誤り率が低く、Mirror Circuits や QML Kernel で高いスコアを記録しました。
相関分析:
- システムレベルのベンチマーク（Mirror Circuits, BSEQ）とアプリケーションベンチマーク（QML Kernel, LR-QAOA）の間には強い正の相関（Spearman 相関係数 0.9 以上）が確認されました。
- Metriq スコアは、ベンダーが公開する二量子ビットゲートの忠実度と強く相関しており、物理的なハードウェア特性が最終的なアプリケーション性能を決定づけることを示唆しています。
コスト分析: 各ベンチマークの実行コスト（AWS のクレジット、IBM の実行時間など）を定量化し、研究コミュニティが予算内で実験を計画できるよう支援しました。

5. 意義と将来展望 (Significance & Future Work)

コミュニティ主導の透明性: ベンダーに依存しない第三者によるオープンなベンチマーク枠組みを提供し、量子ハードウェアの進歩を客観的に追跡する基盤を築きました。
FAIR 原則の遵守: データは検索可能、アクセス可能、相互運用可能、再利用可能（FAIR）な形式で公開され、研究の再現性を高めています。
フィードバックループ: 収集されたデータからベンチマーク自体の有効性を評価し、スイートの改善に繋げる仕組みを持っています。
将来の拡張:
- 誤り耐性量子コンピュータ（FTQC）への対応: 物理量子ビットから論理量子ビットへの移行に伴い、論理レベルのベンチマーク（例：論理ベルペアファクトリ）の実装を計画しています。
- 誤り軽減技術（QEM）の統合: 誤り軽減アルゴリズムを適用した結果と生データ（Raw data）の両方を報告する機能の追加を検討しています。
- コンパイラ評価: 異なるコンパイラがハードウェア性能に与える影響を評価する枠組みの強化。

結論

Metriq は、量子コンピューティングの成熟に伴い不可欠となる「再現性のある、継続的な、プラットフォーム横断的なベンチマーク」を実現するための実用的な基盤です。このプラットフォームは、単なる性能ランキングの提供にとどまらず、ハードウェア開発者、アルゴリズム研究者、標準化団体にとって、量子技術の現状と将来を議論・改善するための共通言語として機能します。

Metriq: A Collaborative Platform for Benchmarking Quantum Computers

メトリック（Metriq）：量子コンピュータの「総合テストセンター」

1. なぜメトリックが必要なのか？（問題点）

2. メトリックの仕組み（3 つの柱）

① 実行係（Runner / metriq-gym）：「テストを走らせるランナー」

② データ集（Dataset / metriq-data）：「結果を記録する巨大なノート」

③ ウェブサイト（Website / metriq-web）：「結果を見せる掲示板」

3. 何を実験しているの？（テスト内容）

4. 「メトリック・スコア」とは？

5. このプロジェクトのすごいところ

結論：これからどうなる？

Metriq: 量子コンピュータのベンチマークのための協働プラットフォーム

1. 問題定義 (Problem)

2. 手法とアーキテクチャ (Methodology)

A. 実行エンジン：metriq-gym

B. データセット：metriq-data

C. ウェブポータル：metriq-web

3. ベンチマークスイートと「Metriq スコア」

主要なベンチマーク

Metriq スコア (MS)

4. 結果 (Results)

5. 意義と将来展望 (Significance & Future Work)

結論

関連論文

Quantum batteries and time dilation

Feasibility of satellite-augmented global quantum repeater networks

Low TTT-count preparation of nuclear eigenstates with tensor networks

Engineering Higher-order Effective Hamiltonians

Rhenium as a material platform for long-lived transmon qubits

A. 実行エンジン：`metriq-gym`

B. データセット：`metriq-data`

C. ウェブポータル：`metriq-web`

Low $T$ -count preparation of nuclear eigenstates with tensor networks