Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Each language version is independently generated for its own context, not a direct translation.

🏗️ 研究の舞台：「巨大な図書館と 8 人の司書」

まず、実験環境をイメージしてください。

8 台の AMD Instinct MI325X GPU ＝ 8 人の超優秀な司書（コンピューター）
2TB のメモリ ＝ 司書たちが持っている、膨大な数の本棚（HBM3e）
LLM（AI モデル） ＝ 司書たちが読むべき「超巨大な百科事典」

この研究では、4 種類の異なる「百科事典（AI モデル）」を、この 8 人の司書に読ませ、どれくらい速く質問に答えられるかをテストしました。

🔍 発見その 1：「型にはめすぎないこと」が重要（アーキテクチャごとの最適化）

これまでの常識では、「同じサーバーなら、どの AI も同じ設定で動けばいい」と思われていました。しかし、この研究は**「それは間違い！」**と突きつけました。

A 型の AI（GQA 型）： 普通の読み方をする人。
- 特徴： 本棚を整理する「ブロック」のサイズを大きくしても大丈夫。本を別の部屋（CPU）に一時預ける「お下ろし機能」も使えます。
- 結果： 非常に速く動きます。
B 型の AI（MLA 型）： 特殊な暗号で本を読む人。
- 特徴： 「ブロックのサイズ」は1にしないとエラーになります。また、「本を別の部屋に預ける」ことは禁止されています。
- 結果： 設定を間違えると、全く動かないか、極端に遅くなります。

💡 教訓：
「万能のレシピ」は存在しません。AI の種類（アーキテクチャ）によって、司書への指示（設定）を細かく変える必要があります。これが「アーキテクチャを考慮した最適化」です。

⚡ 発見その 2：「魔法の道具（AITER）」の使い分け

AMD には「AITER」という、特定の AI 用計算を劇的に速くする「魔法の道具（最適化ライブラリ）」があります。

MLA 型の AI にとって： この道具は**「必須」**です。これがないと、実用にならないほど遅くなります。
GQA 型の AI にとって： この道具を使うと少し速くなりますが、**「結果のバラつき」**が激しくなるという副作用があります。
- 例え話： 魔法の道具を使うと、100 点を取ることもあれば、80 点を取ることもあります。安定して 90 点を取りたいなら、あえて使わない方がマシな場合さえあります。

さらに、**「Kimi-K2.5」という 1 兆パラメータ級の超巨大 AI は、この魔法の道具が「使えない」**ことが判明しました（ハードウェアの仕様が合わないため）。そのため、別の方法（Triton という別の技術）で動かすしかありませんでした。

📊 発見その 3：「本質は『動いている人数』」

AI の性能は、「辞書の総ページ数（総パラメータ数）」ではなく、「一度に読み進めるページ数（アクティブパラメータ数）」で決まります。

Llama-3.1-405B： 辞書全体が 405 億ページ。全部読んでいます。
DeepSeek V3.2： 辞書全体は 685 億ページですが、一度に読むのは 37 億ページだけ（専門家チームが一部だけ担当）。

驚きの結果：
「全部読む Llama」と「一部だけ読む DeepSeek」は、同じ速さで答えを出しました！
つまり、**「必要な部分だけ効率よく読む（MoE 構造）」**ことで、巨大な辞書でも、小さな辞書と同じ速さで動かせます。

また、画像を扱う AI（Qwen3-VL）は、画像の処理も含めて**「最も速い」**結果を出しました。

🚧 発見その 4：「道路の渋滞」は 500 台で止まる

どんなに高性能な司書（GPU）が 8 人いても、**「質問が 500 件同時に来ると、必ず渋滞（スループットの限界）」**が発生します。

500 人まで： 人数が増えるほど、処理量も増えます。
500 人超： 人数を増やしても、処理量は増えません。ただ「待ち時間」が長くなるだけです。

これは、司書たちの「頭脳（計算能力）」が足りないからではなく、**「本棚から本を取り出す速度（メモリー帯域幅）」**が限界に達しているからです。
「道路が広ければ（メモリ帯域が速ければ）」、もっと多くの車が通れますが、今回の実験では 500 台が限界でした。

🏆 最大の成果：「1 兆パラメータ」を動かすことに成功

この研究で最も画期的なのは、**「1 兆パラメータ（1 兆ページ）」**という、これまで AMD 上では実証されていなかった超巨大 AI（Kimi-K2.5）を、4 台の GPU で安定して動かしたことです。

結果： 1,000 人のユーザーが同時にアクセスしても、**エラーゼロ（100% 成功）**で応答しました。
意味： AMD の GPU なら、世界最高峰の巨大 AI も、ビジネスで使えるレベルで運用できることが証明されました。

📝 まとめ：この研究が私たちに教えてくれること

「一つの設定ですべて」はダメ： AI の種類に合わせて、サーバーの設定（ブロックサイズや最適化ツールのオンオフ）を細かく変える必要があります。
AMD は使える： 1 兆パラメータ級の巨大 AI も、AMD の最新 GPU で安定して動かせます。
ボトルネックは「読み取り速度」： 計算能力よりも、メモリからデータを読み出す速度が重要で、そこが限界に達すると、どんなに頑張っても速くなりません。
必要な部分だけ読めば速い： 巨大な AI でも、必要な部分だけを担当させる（MoE）ことで、効率的に動かせることがわかりました。

この論文は、AI 開発者や企業にとって、「AMD の GPU を使うなら、こう設定すれば失敗しない」という**「実用マニュアル」**のような役割を果たしています。

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

🏗️ 研究の舞台：「巨大な図書館と 8 人の司書」

🔍 発見その 1：「型にはめすぎないこと」が重要（アーキテクチャごとの最適化）

⚡ 発見その 2：「魔法の道具（AITER）」の使い分け

📊 発見その 3：「本質は『動いている人数』」

🚧 発見その 4：「道路の渋滞」は 500 台で止まる

🏆 最大の成果：「1 兆パラメータ」を動かすことに成功

📝 まとめ：この研究が私たちに教えてくれること

技術報告書サマリー：AMD Instinct GPU におけるアーキテクチャ対応型 LLM 推論最適化

1. 背景と課題 (Problem)

2. 手法と実験環境 (Methodology)

3. 主要な貢献と知見 (Key Contributions & Results)

3.1 アーキテクチャ対応型最適化の必要性

3.2 数兆パラメータモデルのデプロイ成功

3.3 アクティブパラメータ数とスループットの相関

3.4 ワークロード依存のスループット飽和

3.5 信頼性と安定性

4. 意義と結論 (Significance)

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

🏗️ 研究の舞台：「巨大な図書館と 8 人の司書」

🔍 発見その 1：「型にはめすぎないこと」が重要（アーキテクチャごとの最適化）

⚡ 発見その 2：「魔法の道具（AITER）」の使い分け

📊 発見その 3：「本質は『動いている人数』」

🚧 発見その 4：「道路の渋滞」は 500 台で止まる

🏆 最大の成果：「1 兆パラメータ」を動かすことに成功

📝 まとめ：この研究が私たちに教えてくれること

技術報告書サマリー：AMD Instinct GPU におけるアーキテクチャ対応型 LLM 推論最適化

1. 背景と課題 (Problem)

2. 手法と実験環境 (Methodology)

3. 主要な貢献と知見 (Key Contributions & Results)

3.1 アーキテクチャ対応型最適化の必要性

3.2 数兆パラメータモデルのデプロイ成功

3.3 アクティブパラメータ数とスループットの相関

3.4 ワークロード依存のスループット飽和

3.5 信頼性と安定性

4. 意義と結論 (Significance)

関連論文

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem