Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

本論文は、AMD Instinct MI325X GPU クラスター上での vLLM を用いた大規模言語モデル推論の包括的なベンチマークを通じて、モデルアーキテクチャに応じた最適化(特に MLA モデルにおけるブロックサイズや KV キャッシュの扱い、AITER ランタイムの制御)がスループットに決定的な影響を与えることを示し、異なるアーキテクチャやモダリティを持つモデル間での性能比較と、大規模同時接続下での安定性を検証したものである。

Athos Georgiou

公開日 Thu, 12 Ma
📖 2 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🏗️ 研究の舞台:「巨大な図書館と 8 人の司書」

まず、実験環境をイメージしてください。

  • 8 台の AMD Instinct MI325X GPU8 人の超優秀な司書(コンピューター)
  • 2TB のメモリ司書たちが持っている、膨大な数の本棚(HBM3e)
  • LLM(AI モデル)司書たちが読むべき「超巨大な百科事典」

この研究では、4 種類の異なる「百科事典(AI モデル)」を、この 8 人の司書に読ませ、どれくらい速く質問に答えられるかをテストしました。


🔍 発見その 1:「型にはめすぎないこと」が重要(アーキテクチャごとの最適化)

これまでの常識では、「同じサーバーなら、どの AI も同じ設定で動けばいい」と思われていました。しかし、この研究は**「それは間違い!」**と突きつけました。

  • A 型の AI(GQA 型): 普通の読み方をする人。
    • 特徴: 本棚を整理する「ブロック」のサイズを大きくしても大丈夫。本を別の部屋(CPU)に一時預ける「お下ろし機能」も使えます。
    • 結果: 非常に速く動きます。
  • B 型の AI(MLA 型): 特殊な暗号で本を読む人。
    • 特徴: 「ブロックのサイズ」は1にしないとエラーになります。また、「本を別の部屋に預ける」ことは禁止されています。
    • 結果: 設定を間違えると、全く動かないか、極端に遅くなります。

💡 教訓:
「万能のレシピ」は存在しません。AI の種類(アーキテクチャ)によって、司書への指示(設定)を細かく変える必要があります。これが「アーキテクチャを考慮した最適化」です。


⚡ 発見その 2:「魔法の道具(AITER)」の使い分け

AMD には「AITER」という、特定の AI 用計算を劇的に速くする「魔法の道具(最適化ライブラリ)」があります。

  • MLA 型の AI にとって: この道具は**「必須」**です。これがないと、実用にならないほど遅くなります。
  • GQA 型の AI にとって: この道具を使うと少し速くなりますが、**「結果のバラつき」**が激しくなるという副作用があります。
    • 例え話: 魔法の道具を使うと、100 点を取ることもあれば、80 点を取ることもあります。安定して 90 点を取りたいなら、あえて使わない方がマシな場合さえあります。

さらに、**「Kimi-K2.5」という 1 兆パラメータ級の超巨大 AI は、この魔法の道具が「使えない」**ことが判明しました(ハードウェアの仕様が合わないため)。そのため、別の方法(Triton という別の技術)で動かすしかありませんでした。


📊 発見その 3:「本質は『動いている人数』」

AI の性能は、「辞書の総ページ数(総パラメータ数)」ではなく、「一度に読み進めるページ数(アクティブパラメータ数)」で決まります。

  • Llama-3.1-405B: 辞書全体が 405 億ページ。全部読んでいます。
  • DeepSeek V3.2: 辞書全体は 685 億ページですが、一度に読むのは 37 億ページだけ(専門家チームが一部だけ担当)。

驚きの結果:
「全部読む Llama」と「一部だけ読む DeepSeek」は、同じ速さで答えを出しました!
つまり、**「必要な部分だけ効率よく読む(MoE 構造)」**ことで、巨大な辞書でも、小さな辞書と同じ速さで動かせます。

また、画像を扱う AI(Qwen3-VL)は、画像の処理も含めて**「最も速い」**結果を出しました。


🚧 発見その 4:「道路の渋滞」は 500 台で止まる

どんなに高性能な司書(GPU)が 8 人いても、**「質問が 500 件同時に来ると、必ず渋滞(スループットの限界)」**が発生します。

  • 500 人まで: 人数が増えるほど、処理量も増えます。
  • 500 人超: 人数を増やしても、処理量は増えません。ただ「待ち時間」が長くなるだけです。

これは、司書たちの「頭脳(計算能力)」が足りないからではなく、**「本棚から本を取り出す速度(メモリー帯域幅)」**が限界に達しているからです。
「道路が広ければ(メモリ帯域が速ければ)」、もっと多くの車が通れますが、今回の実験では 500 台が限界でした。


🏆 最大の成果:「1 兆パラメータ」を動かすことに成功

この研究で最も画期的なのは、**「1 兆パラメータ(1 兆ページ)」**という、これまで AMD 上では実証されていなかった超巨大 AI(Kimi-K2.5)を、4 台の GPU で安定して動かしたことです。

  • 結果: 1,000 人のユーザーが同時にアクセスしても、**エラーゼロ(100% 成功)**で応答しました。
  • 意味: AMD の GPU なら、世界最高峰の巨大 AI も、ビジネスで使えるレベルで運用できることが証明されました。

📝 まとめ:この研究が私たちに教えてくれること

  1. 「一つの設定ですべて」はダメ: AI の種類に合わせて、サーバーの設定(ブロックサイズや最適化ツールのオンオフ)を細かく変える必要があります。
  2. AMD は使える: 1 兆パラメータ級の巨大 AI も、AMD の最新 GPU で安定して動かせます。
  3. ボトルネックは「読み取り速度」: 計算能力よりも、メモリからデータを読み出す速度が重要で、そこが限界に達すると、どんなに頑張っても速くなりません。
  4. 必要な部分だけ読めば速い: 巨大な AI でも、必要な部分だけを担当させる(MoE)ことで、効率的に動かせることがわかりました。

この論文は、AI 開発者や企業にとって、「AMD の GPU を使うなら、こう設定すれば失敗しない」という**「実用マニュアル」**のような役割を果たしています。