Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

该论文通过在 AMD Instinct MI325X 集群上对四种不同架构的大语言模型进行基准测试与部署研究,揭示了架构感知优化(如 MLA 模型需特定配置、AITER 运行时需选择性启用)对推理性能的关键影响,并证实了模型在大规模并发下的高吞吐量与稳定性。

Athos Georgiou

发布于 Thu, 12 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇技术报告就像是一份**“在 AMD 新显卡上跑超级大模型”的实战指南和体检报告**。

想象一下,你开了一家超级繁忙的**“知识快餐店”**(这就是大语言模型,LLM)。以前,大家只关心怎么把厨房(训练模型)建得更大,现在大家更关心怎么让顾客(用户请求)吃得更快、更顺畅,而且不能把厨房挤爆。

这篇报告就是作者 Athos Georgiou 在AMD 最新的 MI325X 显卡集群(相当于 8 个超级大冰箱,总共有 2TB 的内存空间)上,测试了 4 种不同“配方”的超级大模型,看看它们到底能跑多快。

以下是用大白话和比喻对这篇报告的解读:

1. 核心发现:没有“万能钥匙”,得“看菜下饭”

以前大家可能觉得,只要显卡够强,跑什么模型都差不多。但这篇报告告诉你:完全不是这么回事!

  • 比喻:这就好比你有 8 辆顶级跑车(8 张显卡)。
    • Llama 3.1(一种“密集型”模型)就像开一辆重型卡车,它需要宽阔的马路(大内存块),而且可以顺便把货物卸在路边的仓库里(KV 缓存卸载)。
    • DeepSeek 或 Kimi(一种“稀疏 + 压缩型”模型)就像开一辆F1 赛车,它走的是专用赛道(需要特殊的块大小设置),而且绝对不能把货物卸在路边,必须一直背在身上(不能卸载缓存),否则就会翻车。
  • 结论:如果你用跑卡车的配置去跑 F1 赛车,车不仅跑不快,甚至可能根本发动不了。必须根据模型的“性格”(架构)来调整设置。

2. 明星选手:AMD 的 MI325X 显卡表现如何?

AMD 这次带来的 MI325X 显卡,就像是一个拥有巨大冰箱(2TB 内存)和超快传送带(6TB/s 带宽)的超级厨房

  • 内存大:以前跑那种“万亿参数”的超级大模型(比如 Kimi-K2.5,有 1 万亿个参数),通常需要把数据从冰箱搬到外面的冷库(CPU 内存),这很慢。但 MI325X 的冰箱太大,所有模型都能直接塞进冰箱里,不需要去冷库搬东西,速度自然快了很多。
  • 带宽快:传送带转得飞快,能同时处理很多订单。

3. 四大模型大比拼(谁跑得快?)

作者测试了 4 种模型,结果很有趣:

  • Llama-3.1-405B(大胖子)
    • 特点:全身都是肌肉(4050 亿参数全都要用),是个“大胃王”。
    • 表现:虽然它很重,但因为配置得当,它跑得也不慢,和 DeepSeek 差不多快。
  • DeepSeek V3.2(聪明的小个子)
    • 特点:虽然总共有 6850 亿参数,但每次只动 370 亿(像是一个有很多专家,但每次只叫几个专家出来干活)。
    • 表现:因为它只动脑子少,所以跑起来很轻松,速度和那个“大胖子”Llama 几乎一样快!这证明了**“少即是多”**。
  • Qwen3-VL-235B(全能多面手)
    • 特点:既能看又能读(图文模型),而且很聪明(只动 220 亿参数)。
    • 表现它是全场冠军! 在图文任务中,它的速度是 Kimi 的 6.5 倍!因为它既聪明(参数少),又能利用显卡的特殊加速功能。
  • Kimi-K2.5(巨无霸)
    • 特点:1 万亿参数的超级巨兽。
    • 表现:虽然它很大,但因为它是“特殊车型”(MLA 架构),在 AMD 显卡上有些限制(比如不能用某些加速功能,只能开 4 辆车而不是 8 辆),所以速度相对慢一些,但依然能稳定运行,没有崩溃。

4. 关键瓶颈:不是引擎不够强,是路太窄

报告发现了一个惊人的现象:不管模型是胖是瘦,当并发用户数达到500 人左右时,速度就上不去了,像堵车了一样。

  • 比喻:这就像高速公路。你的车(显卡计算能力)可能能跑 300 码,但收费站(内存带宽) 只有 5 个车道。当车多了,大家都在排队过收费站,引擎再强也没用。
  • 结论:现在的瓶颈不是显卡算得慢,而是数据搬运太慢。所以,那些能减少数据搬运的模型(比如只激活少量参数的 MoE 模型)反而更有优势。

5. 一个神秘的“加速器”:AITER

AMD 有一个叫 AITER 的加速工具,就像给显卡装了一个涡轮增压

  • 对于某些模型(如 DeepSeek):这个涡轮是必须的,没有它,车就跑不动(性能差很多)。
  • 对于某些模型(如 Llama):装上这个涡轮,速度只快一点点(3-5%),但会让车速表变得忽快忽慢(数据波动大),反而不好控制。
  • 对于 Kimi:这个涡轮完全不能用,用了会直接熄火(报错),因为它的引擎接口不匹配。

6. 稳定性:100% 不翻车

最让人放心的是,在测试中,无论来了 1000 个用户同时点餐,系统没有一次崩溃,所有请求都成功处理了。这说明 AMD 的这套组合拳(MI325X + vLLM 软件)非常稳定,适合真正用来做生意。

总结:这对我们意味着什么?

  1. AMD 显卡能用了:这篇报告证明了 AMD 的 MI325X 显卡完全可以用来跑目前世界上最先进、最大的 AI 模型,而且性能很强劲。
  2. 不能“一刀切”:如果你想部署 AI,不能随便套用一个配置。必须搞清楚你的模型是“密集型”还是“稀疏型”,是“普通注意力”还是“压缩注意力”,然后针对性地调整设置。
  3. 未来趋势:未来的大模型会越来越“聪明”(参数总量巨大,但每次只动一小部分),这样在同样的硬件上,它们能跑得更快、更省资源。

一句话总结:AMD 的新显卡是个好舞台,但要想演出精彩,导演(部署人员)必须根据每个演员(模型)的特点来设计剧本,不能拿演话剧的剧本去演歌剧。