Each language version is independently generated for its own context, not a direct translation.
🏗️ 研究の舞台:「巨大な図書館と 8 人の司書」
まず、実験環境をイメージしてください。
- 8 台の AMD Instinct MI325X GPU = 8 人の超優秀な司書(コンピューター)
- 2TB のメモリ = 司書たちが持っている、膨大な数の本棚(HBM3e)
- LLM(AI モデル) = 司書たちが読むべき「超巨大な百科事典」
この研究では、4 種類の異なる「百科事典(AI モデル)」を、この 8 人の司書に読ませ、どれくらい速く質問に答えられるかをテストしました。
🔍 発見その 1:「型にはめすぎないこと」が重要(アーキテクチャごとの最適化)
これまでの常識では、「同じサーバーなら、どの AI も同じ設定で動けばいい」と思われていました。しかし、この研究は**「それは間違い!」**と突きつけました。
- A 型の AI(GQA 型): 普通の読み方をする人。
- 特徴: 本棚を整理する「ブロック」のサイズを大きくしても大丈夫。本を別の部屋(CPU)に一時預ける「お下ろし機能」も使えます。
- 結果: 非常に速く動きます。
- B 型の AI(MLA 型): 特殊な暗号で本を読む人。
- 特徴: 「ブロックのサイズ」は1にしないとエラーになります。また、「本を別の部屋に預ける」ことは禁止されています。
- 結果: 設定を間違えると、全く動かないか、極端に遅くなります。
💡 教訓:
「万能のレシピ」は存在しません。AI の種類(アーキテクチャ)によって、司書への指示(設定)を細かく変える必要があります。これが「アーキテクチャを考慮した最適化」です。
⚡ 発見その 2:「魔法の道具(AITER)」の使い分け
AMD には「AITER」という、特定の AI 用計算を劇的に速くする「魔法の道具(最適化ライブラリ)」があります。
- MLA 型の AI にとって: この道具は**「必須」**です。これがないと、実用にならないほど遅くなります。
- GQA 型の AI にとって: この道具を使うと少し速くなりますが、**「結果のバラつき」**が激しくなるという副作用があります。
- 例え話: 魔法の道具を使うと、100 点を取ることもあれば、80 点を取ることもあります。安定して 90 点を取りたいなら、あえて使わない方がマシな場合さえあります。
さらに、**「Kimi-K2.5」という 1 兆パラメータ級の超巨大 AI は、この魔法の道具が「使えない」**ことが判明しました(ハードウェアの仕様が合わないため)。そのため、別の方法(Triton という別の技術)で動かすしかありませんでした。
📊 発見その 3:「本質は『動いている人数』」
AI の性能は、「辞書の総ページ数(総パラメータ数)」ではなく、「一度に読み進めるページ数(アクティブパラメータ数)」で決まります。
- Llama-3.1-405B: 辞書全体が 405 億ページ。全部読んでいます。
- DeepSeek V3.2: 辞書全体は 685 億ページですが、一度に読むのは 37 億ページだけ(専門家チームが一部だけ担当)。
驚きの結果:
「全部読む Llama」と「一部だけ読む DeepSeek」は、同じ速さで答えを出しました!
つまり、**「必要な部分だけ効率よく読む(MoE 構造)」**ことで、巨大な辞書でも、小さな辞書と同じ速さで動かせます。
また、画像を扱う AI(Qwen3-VL)は、画像の処理も含めて**「最も速い」**結果を出しました。
🚧 発見その 4:「道路の渋滞」は 500 台で止まる
どんなに高性能な司書(GPU)が 8 人いても、**「質問が 500 件同時に来ると、必ず渋滞(スループットの限界)」**が発生します。
- 500 人まで: 人数が増えるほど、処理量も増えます。
- 500 人超: 人数を増やしても、処理量は増えません。ただ「待ち時間」が長くなるだけです。
これは、司書たちの「頭脳(計算能力)」が足りないからではなく、**「本棚から本を取り出す速度(メモリー帯域幅)」**が限界に達しているからです。
「道路が広ければ(メモリ帯域が速ければ)」、もっと多くの車が通れますが、今回の実験では 500 台が限界でした。
🏆 最大の成果:「1 兆パラメータ」を動かすことに成功
この研究で最も画期的なのは、**「1 兆パラメータ(1 兆ページ)」**という、これまで AMD 上では実証されていなかった超巨大 AI(Kimi-K2.5)を、4 台の GPU で安定して動かしたことです。
- 結果: 1,000 人のユーザーが同時にアクセスしても、**エラーゼロ(100% 成功)**で応答しました。
- 意味: AMD の GPU なら、世界最高峰の巨大 AI も、ビジネスで使えるレベルで運用できることが証明されました。
📝 まとめ:この研究が私たちに教えてくれること
- 「一つの設定ですべて」はダメ: AI の種類に合わせて、サーバーの設定(ブロックサイズや最適化ツールのオンオフ)を細かく変える必要があります。
- AMD は使える: 1 兆パラメータ級の巨大 AI も、AMD の最新 GPU で安定して動かせます。
- ボトルネックは「読み取り速度」: 計算能力よりも、メモリからデータを読み出す速度が重要で、そこが限界に達すると、どんなに頑張っても速くなりません。
- 必要な部分だけ読めば速い: 巨大な AI でも、必要な部分だけを担当させる(MoE)ことで、効率的に動かせることがわかりました。
この論文は、AI 開発者や企業にとって、「AMD の GPU を使うなら、こう設定すれば失敗しない」という**「実用マニュアル」**のような役割を果たしています。