原著者： Nikhil Rout, Blaise Tine

公開日 2026-06-12

📖 1 分で読めます☕ さくっと読める

原著者： Nikhil Rout, Blaise Tine

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

あなたは、膨大な数の材料（データ）を混ぜ合わせ、ケーキ（ディープラーニング・モデル）を焼き上げることを目的とした、大規模で高速なベーカリー（コンピュータ・チップ）を運営していると想像してください。かつて、パン職人（チップのプロセッサ）たちは、一度作業を止めて、別のボウルで材料を計量し、混ぜ合わせ、その結果を最終的な鍋に注がなければなりませんでした。このプロセスは時間がかかり、多くの無駄（エネルギーの浪費）を生み出し、工程を分けたことで測定値がわずかに狂ってしまうこともありました。

この論文は、オープンソースのコンピュータ・チップであるVortexのために設計された、極めて効率的な新しい「ミキシング・ステーション（混合台）」であるTen-Fourを紹介しています。Ten-Fourを、計量、混合、注ぐという動作を、一つのシームレスな動きへと統合した画期的な調理家電だと考えてください。

以下に、簡単な比喩を用いたその仕組みの解説を記します。

1. 問題点：「離散的」なキッチン

Ten-Fourが登場する前、オープンソースのチップは「離散的」な道具を使用していました。これは、シェフが砂糖のためにスプーンを、小麦粉のために別のスクープを、そして牛乳のために別のカップを手に取らなければならない状況を想像してください。彼らはステーション間を移動しなければならず、それには時間とエネルギーを要します。

問題： この古い手法は、速度が遅く（高レイテンシ）、エネルギーを浪費し、時には「丸め誤差」（微細な測定ミスが積み重なること）によって、完成したケーキの味がわずかに変わってしまうこともありました。
ギャップ： NVIDIAのような大手商用企業は、素晴らしい高速ミキシング・ステーションを構築してきましたが、オープンソース・コミュニティ（独自のチップを構築する人々）は、こうした低速で使いにくい道具に取り残されていました。

2. 解決策： Ten-Fourの「オールインワン」ミキサー

Ten-Fourは、**融合ドット積ユニット（Fused Dot Product Unit）**です。ベーカリーの言葉で言えば、これは2つの材料を取り込み、混ぜ合わせ、その結果を進行中の合計値に加算するという作業を、停止することなく一度に行う機械です。

混合精度（Mixed-Precision）： 極めて柔軟です。同じ機械を使って、小さな粗い測定（例えば、低精度な数値であるFP8やINT4を表す「塩ひとつまみ」のようなもの）と、精密な測定（例えば、高精度な数値であるFP32を表す「正確に1.000グラム」のようなもの）の両方を扱うことができます。
「融合（Fused）」の魔法： 混ぜてから一度止まって、それから加算するのではなく、Ten-Fourはこれを連続的に行います。これにより、時間とエネルギーを節約できます。

3. 主な特徴（秘伝の材料）

「スマートレーン」ゲーティング（電力の節約）：
8人のパン職人がライン作業をしている場面を想像してください。もし一人の職人に、「あなたの材料はゼロなので、今日は何もする必要はありません」と伝えられたら、Ten-Fourは即座にその職人の照明と道具の電源を切ります。これは**スパース・レーン・クロック・ゲーティング（Sparse Lane Clock-Gating）**と呼ばれます。
- なぜ重要か： ディープラーニングにおいて、多くの材料は実際にはゼロ（空の状態）です。何もすることがない「職人」の電源を切ることで、他の職人の作業を遅らせることなく、膨大な電力を節約できるのです。
「マイクロスケーリング」のトリック：
個々の材料を一つずつ測定する代わりに、一塊のバッチを測定し、そこに「スケール係数」を適用する（例えば、「このトレイ全体を2倍にする」と言うようなもの）方法があります。Ten-Fourは、これを効率的に実行できる最初期のオープンソース設計の一つであり、巨大なデータバッチの高速処理を可能にします。
整数のための「分割」戦略：
Ten-Fourは、同じ機械の中で「浮動小数点数（小数）」と「整数（整数）」の両方を扱うことができます。これを実現するために、整数の部分を2つに分割するという巧妙なトリックを使用します。一つは小数と一緒に混ぜられる小さな断片、もう一つは最後に待機する大きな断片です。これにより、別の専用マシンを用意することなく、同じミキシング・ボウルを共有することができます。

4. 結果：その速さは？

著者らは、FPGA（プログラマブル・チップ）と、理論上の「完璧な」チップ設計（ASIC）の2つの方法でTen-Fourをテストしました。

速度： 従来のオープンソース設計よりも2.7倍から7.9倍高速です。
効率性： 旧来のデザインの60%未満の面積で動作します。
電力： 極めてエネルギー効率が高いです。テストにおいて、2.771 TFLOPS/W（消費電力あたりの演算能力を示す指標）というピーク効率を達成しました。
比較： トップクラスの商用チップ（NVIDIA A100）と比較すると、Ten-Fourはその特定の構成において、単位あたり12.3%高速でありながら、商用大手の精度にも匹敵しています。

5. なぜこれが重要なのか

この論文は、Ten-Fourが「商用グレード」のスピードと「オープンソース」の自由度の間の溝を埋めるものであると主張しています。

オープンソースの世界に向けて： 高速なAIチップを構築するために、低速で分離されたツールに頼る必要はないということを証明しています。商用企業に匹敵する、統一された高速エンジンを構築できるのです。
ディープラーニングに向けて： 現代のAIでよく見られる「スパース（ゼロが多い）」なデータにおいて、複雑なAIモデルをより速く、より低温で動作させることを可能にします。

要約すると、 Ten-Fourは、超効率的な数学エンジンのための新しいオープンソースの設計図です。それは、これまでのオープンソースの世界にあるどのものよりも、材料を速く混ぜ、エネルギーの無駄を減らし、異なる種類のデータをより巧みに扱います。これは、秘密のレシピを持たずとも、大手企業のキッチンと同じくらい優れたキッチンを構築できることを証明しています。

技術要約: Ten-Four

問題提起

効率的な混合精度行列積和演算（MMA）は、行列積（GEMM）などの演算が実行時間の大部分を占める汎用グラフィックスプロセッシングユニット（GPGPU）において、ディープラーニングのワークロードを加速させるために極めて重要である。NVIDIAやAMDなどの商用GPUは、これらのボトルネックを緩和するために専用のテンソルコアを利用しているが、オープンソースのGPGPU設計空間は遅れをとっている。既存のオープンソースのプロトタイプは、テンソルコアを構築するために、離散的な算術ユニットライブラリ（Berkeley HardFloatやFPnewなど）に依存することが多い。このアプローチは、高いレイテンシ、累積的な丸め誤差、および低いリソース利用率といった重大な欠点を導入する。さらに、これらの設計は、2:4構造化スパース性や、ネイティブなハードウェア加速によるOCP Microscaling (MX) フォーマットといった新興機能のサポートに苦慮しており、特化した融合ドット積（Fused Dot Product）の研究と、実用的なGPGPUテンソルコア実装との間に乖器を生じさせている。

手法

著者らは、オープンソースのRISC-VベースGPGPUであるVortexのマイクロアーキテクチャ拡張として設計された、構成可能な混合精度融合ドット積（FEDP）ユニットであるTen-Fourを提案する。この設計は、リソースの再利用を最大化しオーバーヘッドを最小限に抑えるために、浮動小数点および整数算術パイプラインの両方を統一されたアーキテクチャ内に統合している。

主な手法的コンポーネントは以下の通りである：

統一データパス: Ten-Fourは、低精度乗算（TF32, FP16, BF16, FP8, BF8, INT8, INT4）をより高精度な累積（FP32/INT32）と共にサポートする4ステージ・パイプライン（乗算、整列、累積、正規化および丸め）を利用する。
共有乗算器スキーム: クリティカルパスと面積効率のバランスを取るため、設計はクラス単位の共有乗算器を採用している。例えば、FP16、BF16、およびTF32のマンティッサは11×11ビットのWallace Tree Multiplier (WTMUL) を共有し、FP8とBF8は4×4ビットのWTMULを共有する。
アデンド（加数）の統合: 加数（ $C$ ）を別途累積する素朴な実装とは異なり、Ten-Fourは最初のパイプラインステージからアデンド処理を統合している。これは、整数の下位25ビットを積項と共に累積し、上位7ビットを別途伝搬させるという新しい「アデンド分割」戦略を用いており、メインのアキュムレータを拡張することなく効率的なINT32累積を可能にする。
スパースレーンマスキング: 両側スパース性（重みと活性化関数の両方のスパース性）に対処するため、設計はレーンレベルのクロックゲーティングメカニズムを実装している。ゼロ検出ロジックから導出された入力有効マスクが、入力がゼロの場合にFEDPレーンへのクロックをゲートし、アウタープロダクト設計のような面積オーバーヘッドなしに動的電力を削減する。
Microscaling (MX) サポート: アーキテクチャは、スケール因子の因数分解を再配置することで、OCP MXフォーマットをサポートする。遅延スケーリングを行う代わりに、レーンごとのスケール因子補償を適用することで、早期のアデンド累積がパイプラインと互換性を保てるようにしている。
算術コア: 累積ステージは、高オペランド数に対してMOD-4オペランドグルーピング戦略を用いたキャリーセーブ加算器（CSA）を使用し、最終的な総和のためにKogge-Stone加算器（KSA）を使用する。

主な貢献

構成可能なFEDPパイプライン: Vortex GPGPUのTCU拡張の一部として実装された、幅広い入力フォーマット（TF32, FP16, BF16, FP8, BF8, INT8, INT4）をFP32/INT32累積と共にサポートする4サイクル・レイテンシのパイプライン。
統合整数/浮動小数点パイプライン: 最小限のオーバーヘッドで整数算術を浮動小数点データパスに融合させる手法であり、32ビット整数累積を処理するための新しいアデンド分割戦略を利用している。
スパースレーンマスキング: アウタープロダクト設計の複雑さを回避しつつ、選択的なレーン・クロックゲーティングを通じて、両側スパース・ワークロードにおける動的電力を削減する実用的なアプローチ。
ネイティブMXサポート: 1レーンごとのスケール因子補償スキームを用いた早期アデンド累積による、Microscalingフォーマットのサポート実装。
オープンソース実装: 特化した融合ドット積実装とGPGPUテンソルコア・プロトタイプとの間の架け橋となる、初のオープンソースの成果であり、検証済みのRTL設計を提供する。

結果

著者らは、FPGA実装およびASIC合成の両方を用いてTen-Fourを評価した：

FPGAパフォーマンス (Xilinx U55C):
- 300 MHzにおいて4サイクル・レイテンシを達成。
- 1つのテンソルコアあたり130.368 GFLOPSのピークスループットを実現。
- 同等のBerkeley HardFloatおよびFPnewベースの実装に対して、2.7倍から7.9倍の高速化を実証。
- 面積コストを離散的な実装の60%未満に削減（HardFloatに対して37–38%、FPnewに対して75–76%のLUT削減）。
- 高い（90–100%）両側スパース性レベルにおいて、34.9%–70.5%の動的電力削減が観察された。
ASICパフォーマンス (7nm FinFET, ASAP7 PDK):
- 1.58 GHz Fmaxで合成。
- 2.771 TFLOPS/Wのピーク効率を達成。
- 同一構成の比較において、Ten-FourはNVIDIA A100テンソルコアのユニットあたりのスループットを約**12.3%**上回った。
数値的精度:
- NVIDIA Adaアーキテクチャ（RTX 4090）および解析モデルに対する検証により、サブノーマル、無限大、NaNを含む1,000,000以上のランダム化テストベクトルにわたって、すべてのサポートされたフォーマットでビット完全な結果を確認した。
システムへの影響:
- 256x256x256 SGEMMカーネルを用いたルーフラインモデリングにより、Ten-FourがTCUを低精度ワークロードをメモリバウンド領域から計算バウンド領域へと移行させ、計算利用率を大幅に向上（FP8/BF8で最大51.1%）させたことを示した。

重要性

本論文は、Ten-Fourを、オープンソースGPGPU設計における性能と機能のギャップを埋めるための重要なステップとして位置付けている。離散的な算術ライブラリから、融合された構成可能なマイクロアーキテクチャへと移行することで、Ten-Fourは、オープンソースのテンソルコア・プロトタイプを阻んできたレイテンシとリソースの非効率性の問題に対処している。本研究は、現代のディープラーニングの要件である混合精度、スパース性、およびマイクロスケーリングをサポートしながら、商用ハードウェアの数値的精度と一致させることが可能であることを示している。著者らは、Ten-Fourが将来のハードウェア・ソフトウェア協調設計の基礎となり、ディープラーニング推論アクセラレータのためのカスタムのブロック量子化および非構造化スパース形式の迅速なプロトタイピングを可能にすることを強調している。

Ten-Four: An Open-Source Fused Dot Product Unit for Mixed-Precision GPGPU Tensor Cores

1. 問題点： 「離散的」なキッチン