GOMA: Geometrically Optimal Mapping via Analytical Modeling for Spatial Accelerators

Each language version is independently generated for its own context, not a direct translation.

🏗️ 1. 問題：巨大な迷路と「正解」の探し方

まず、背景を理解しましょう。
現代の AI（例えばチャットボットや画像生成 AI）は、大量の「行列計算（GEMM）」という作業を繰り返しています。これを処理するために、専用の計算チップが使われます。

しかし、このチップには**「どうやってデータを運ぶか（マップ）」という選択肢が、「宇宙の星の数ほど（組み合わせ爆発）」**あります。

データをどこに一時保存するか？
どの順番で計算するか？
どの経路を通らせるか？

これら全てのパターンを試して「一番エネルギーが少なく、一番速い方法」を見つけるのは、**「1 秒ごとに 1 つの道を選びながら、地球の全人口が 100 万年かけても辿り着けないほどの巨大な迷路を、最短ルートで抜ける」ようなものです。
これまでの技術では、この迷路を「勘」や「試行錯誤」で探していたため、「正解に近いかもしれないが、本当に最適か分からない」か、「最適を見つけるのに時間がかかりすぎて、実用にならない」**というジレンマがありました。

🧭 2. 解決策：GOMA（ゴーマ）という「地図作成ツール」

この論文で提案されているのが**「GOMA」という新しいツールです。
GOMA は、迷路を「勘」で探さず、「幾何学（図形）」のルールを使って、「数学的に正解を導き出す」**というアプローチをとります。

🍕 比喩：ピザの切り方と配達の最適化

GOMA の考え方を「ピザ屋さんの配達」に例えてみましょう。

3 次元のピザ（計算グリッド）:
通常、計算は 3 次元の空間（X, Y, Z 軸）で行われます。GOMA はこれを**「巨大な 3 次元のピザ」**と見なします。
投影（影）:
この 3 次元ピザを、壁に投影すると「3 つの影（平面）」が見えます。
- 影 A：材料 A の在庫
- 影 B：材料 B の在庫
- 影 C：出来上がったピザ
  GOMA は、**「この影の面積がどう変わるか」**を見るだけで、必要な移動量（エネルギー）が瞬時に計算できることに気づきました。
歩く軸（ウォーキング軸）:
配達員がピザを運ぶとき、ある方向に進むと「影」の形が変わりません（つまり、同じ材料を再利用できる）。GOMA は**「どの方向に進めば、最も無駄な移動（エネルギー）が減るか」**を、図形のルールで即座に見つけ出します。

🚀 3. GOMA のすごいところ

GOMA は、この「図形のルール」を数式（解析モデル）に落とし込みました。これにより、以下のような驚異的な成果を達成しています。

🏃‍♂️ 瞬殺の計算速度:
従来の方法が「迷路を歩き回って探す」のに対し、GOMA は**「地図を見て、目的地までの距離を瞬時に計算する」**ようなものです。
- 結果：最適解を見つけるまでの時間が、最大で 73 倍も速くなりました。
🏆 絶対的な正解（グローバル最適）:
従来の方法は「たぶんこれがベストだろう」という推測でしたが、GOMA は**「これ以上良い方法はない」と数学的に証明された正解**を返します。
- 結果：エネルギー効率（EDP）が、既存の最高技術（SOTA）の2.2 倍〜4.2 倍も改善されました。
⚡ 無駄な動きの排除:
「レベルバイパス（階層を飛び越える）」という機能を使い、**「必要なものだけを必要な場所に、最短ルートで届ける」**ように制御します。これにより、無駄なデータ移動によるエネルギー消費を劇的に減らしました。

🎯 4. なぜこれが重要なのか？

AI は日々進化し、より複雑で巨大なモデル（LLM など）が生まれています。
これらを動かすには、**「省エネ」と「高速化」**が不可欠です。

これまでの課題: 最適化に時間がかかりすぎて、新しい AI モデルを作るたびに、チップの設計もやり直す必要があった。
GOMA の貢献: 「どんな AI モデルでも、どんなチップでも、数秒で『最高の設計図』を自動生成できる」ようになりました。

🌟 まとめ

この論文は、「AI 計算の効率化」という巨大な迷路を、複雑な試行錯誤ではなく、美しい「幾何学」の法則を使って、瞬時に正解に導く方法を提案したものです。

まるで、**「迷路を歩き回るのではなく、上空から全体を見下ろし、最短ルートを瞬時に描き出す GPS」**のようなツールが完成したと言えます。これにより、未来の AI は、より速く、より省エネで、より賢く動くことができるようになるでしょう。

Each language version is independently generated for its own context, not a direct translation.

以下は、IEEE TRANSACTIONS ON COMPUTERS に掲載された論文「GOMA: Geometrically Optimal Mapping via Analytical Modeling for Spatial Accelerators」の技術的な要約です。

1. 問題の背景と課題

空間アクセラレータ（Spatial Accelerators）における行列積（GEMM）の実行は、マッピング（タイル化、ループ順列、レベルバイパスの選択）の決定に強く依存し、性能とエネルギー効率に決定的な影響を与えます。

課題: マッピング空間は組み合わせ爆発を起こすため（GEMM で $10^{10}$ 以上）、最適解を探索するには膨大な時間がかかります。
既存手法の限界:
- 探索ベース（ランダム検索、ヒューリスティック）: 大規模な離散空間において、効率性と解の質の両立が困難で、大域的最適解の保証がありません。
- 微分可能モデル近似: 整数制約を緩和するため近似誤差が生じ、丸め処理により最適性が損なわれます。
- 数学的プログラミング: 理論的には最適解を得られますが、ハードウェアコストの正確なモデル化が難しく、既存手法（例：CoSA）は求解効率が低く、大規模問題では現実的ではありません。
目標: 許容可能な時間内に、エネルギー消費を最小化する「証明可能な大域的最適マッピング」を自動生成すること。

2. 提案手法：GOMA

GOMA は、幾何学的抽象化と解析的モデリングに基づき、GEMM のマッピングを整数最適化問題として定式化し、大域的最適解を高速に求めるフレームワークです。

2.1 幾何学的抽象化（3D 計算グリッド）

3D 計算グリッド: GEMM の計算を 3 次元の計算点集合 $\mathcal{G} = \{(x, y, z)\}$ としてモデル化します。
直交射影: 入力行列 A, B と出力 P を、それぞれ $x-z$ 面、 $y-z$ 面、 $x-y$ 面への射影として捉えます。
階層的タイル化: メモリ階層（DRAM, SRAM, PE アレイ, レジスタファイル, MACC）を、この 3D グリッドを階層的に覆うタイル構造として表現します。

2.2 解析的エネルギーモデル（O(1) 評価）

移動軸（Walking Axis）の概念: ループ順列（どの次元を内側/外側にするか）を「タイルがどの軸方向に進むか」として定義します。ある軸方向に進む際、その軸に直交する 2 つの射影面は更新され、平行な 1 つの射影面は再利用（時間的再利用）されます。
アクセス回数の閉形式計算: 各メモリレベルでのデータ転送量（トラフィック）を、射影面の更新回数と射影面積の積として、閉形式（Closed-form）の式で導出します。これにより、任意のマッピング設定に対してエネルギー評価が O(1) で可能になります。
レベルバイパスのモデル化: データが特定のメモリレベルに滞在するか、上位レベルから直接下位レベルへバイパスするかを決定変数として組み込み、アクセスチェーンを再構成します。これにより、不要な読み書きを排除した正確なエネルギー計算を実現します。

2.3 最適化定式化

目的関数: 上記の解析的エネルギーモデルを目的関数とし、ハードウェアの容量制約、PE 数の制約、割り算の整除性制約（Divisibility）の下で、総エネルギーを最小化する整数最適化問題として定式化します。
求解: 分枝限定法（Branch-and-Bound）を用いたソルバー（Gurobi など）で解くことで、大域的最適解と**最適性の証明（Optimality Certificate）**を同時に出力します。

3. 主な貢献

新しい幾何学的抽象化: GEMM マッピングのための計算グリッドに基づく新しい抽象化を導入し、Timeloop モデルと 99.9% 一致する高精度な解析的エネルギー目的関数を導出しました（評価時間 O(1)）。
統一された整数最適化フレームワーク: タイル形状、ループ順列、レベルバイパスを統一的に整数最適化問題として定式化し、自動化された最適マッピング探索を可能にしました。
大域的最適解の高速計算: 任意の（GEMM ワークロード、ターゲットハードウェア）ペアに対して、短時間で証明可能な大域的最適マッピングを計算する手法を初めて提案しました。

4. 実験結果

大規模言語モデル（LLM）のプリフィル（Prefill）フェーズにおける 12 のワークロードと、4 種類の代表的な空間アクセラレータ（Eyeriss, Gemmini, A100, TPU v1 風）で評価を行いました。

エネルギー - 遅延積（EDP）の改善:
- 既存の SOTA マッパー（CoSA, FactorFlow, LOMA, SALSA, Timeloop Hybrid など）と比較して、2.24 倍〜4.24 倍の EDP 改善を達成しました。
- 特に大規模な行列積（Matrix-Matrix GEMM）において、ヒューリスティック手法との差が顕著に広がりました。
求解時間の高速化:
- 最適解を探索する時間が、既存手法と比較して3.83 倍〜73.6 倍高速化されました。
- GOMA の平均求解時間は 1 層あたり約 0.65 秒（ケース全体で約 5.22 秒）であり、リアルタイムでのマッピング探索に十分対応可能です。
最適性の保証:
- 従来のヒューリスティック手法が局所最適に陥りやすいのに対し、GOMA は数学的に証明された大域的最適解を提供します。

5. 意義と結論

GOMA は、空間アクセラレータの設計と運用において、マッピング探索の「効率性」と「最適性の保証」という長年のトレードオフを解消しました。

理論的意義: 幾何学的抽象化を通じて複雑なデータフローを単純な計数問題に帰着させることで、高精度かつ高速な解析モデルを確立しました。
実用的意義: LLM や拡散トランスフォーマー（DiT）など、GEMM が支配的な現代の AI ワークロードにおいて、ハードウェアリソースを最大限に活用する最適マッピングを瞬時に提供できます。
将来展望: このアプローチは、より複雑なマルチレイヤー探索や、ソフトウェア・ハードウェアの共設計（Co-design）への応用が期待されます。

本論文は、空間アクセラレータにおけるマッピング最適化の新たな基準を提示し、実用的かつ理論的に堅牢なソリューションを提供する重要な成果です。