Each language version is independently generated for its own context, not a direct translation.
这篇技术报告就像是一份**“在 AMD 新显卡上跑超级大模型”的实战指南和体检报告**。
想象一下,你开了一家超级繁忙的**“知识快餐店”**(这就是大语言模型,LLM)。以前,大家只关心怎么把厨房(训练模型)建得更大,现在大家更关心怎么让顾客(用户请求)吃得更快、更顺畅,而且不能把厨房挤爆。
这篇报告就是作者 Athos Georgiou 在AMD 最新的 MI325X 显卡集群(相当于 8 个超级大冰箱,总共有 2TB 的内存空间)上,测试了 4 种不同“配方”的超级大模型,看看它们到底能跑多快。
以下是用大白话和比喻对这篇报告的解读:
1. 核心发现:没有“万能钥匙”,得“看菜下饭”
以前大家可能觉得,只要显卡够强,跑什么模型都差不多。但这篇报告告诉你:完全不是这么回事!
- 比喻:这就好比你有 8 辆顶级跑车(8 张显卡)。
- 跑Llama 3.1(一种“密集型”模型)就像开一辆重型卡车,它需要宽阔的马路(大内存块),而且可以顺便把货物卸在路边的仓库里(KV 缓存卸载)。
- 跑DeepSeek 或 Kimi(一种“稀疏 + 压缩型”模型)就像开一辆F1 赛车,它走的是专用赛道(需要特殊的块大小设置),而且绝对不能把货物卸在路边,必须一直背在身上(不能卸载缓存),否则就会翻车。
- 结论:如果你用跑卡车的配置去跑 F1 赛车,车不仅跑不快,甚至可能根本发动不了。必须根据模型的“性格”(架构)来调整设置。
2. 明星选手:AMD 的 MI325X 显卡表现如何?
AMD 这次带来的 MI325X 显卡,就像是一个拥有巨大冰箱(2TB 内存)和超快传送带(6TB/s 带宽)的超级厨房。
- 内存大:以前跑那种“万亿参数”的超级大模型(比如 Kimi-K2.5,有 1 万亿个参数),通常需要把数据从冰箱搬到外面的冷库(CPU 内存),这很慢。但 MI325X 的冰箱太大,所有模型都能直接塞进冰箱里,不需要去冷库搬东西,速度自然快了很多。
- 带宽快:传送带转得飞快,能同时处理很多订单。
3. 四大模型大比拼(谁跑得快?)
作者测试了 4 种模型,结果很有趣:
- Llama-3.1-405B(大胖子):
- 特点:全身都是肌肉(4050 亿参数全都要用),是个“大胃王”。
- 表现:虽然它很重,但因为配置得当,它跑得也不慢,和 DeepSeek 差不多快。
- DeepSeek V3.2(聪明的小个子):
- 特点:虽然总共有 6850 亿参数,但每次只动 370 亿(像是一个有很多专家,但每次只叫几个专家出来干活)。
- 表现:因为它只动脑子少,所以跑起来很轻松,速度和那个“大胖子”Llama 几乎一样快!这证明了**“少即是多”**。
- Qwen3-VL-235B(全能多面手):
- 特点:既能看又能读(图文模型),而且很聪明(只动 220 亿参数)。
- 表现:它是全场冠军! 在图文任务中,它的速度是 Kimi 的 6.5 倍!因为它既聪明(参数少),又能利用显卡的特殊加速功能。
- Kimi-K2.5(巨无霸):
- 特点:1 万亿参数的超级巨兽。
- 表现:虽然它很大,但因为它是“特殊车型”(MLA 架构),在 AMD 显卡上有些限制(比如不能用某些加速功能,只能开 4 辆车而不是 8 辆),所以速度相对慢一些,但依然能稳定运行,没有崩溃。
4. 关键瓶颈:不是引擎不够强,是路太窄
报告发现了一个惊人的现象:不管模型是胖是瘦,当并发用户数达到500 人左右时,速度就上不去了,像堵车了一样。
- 比喻:这就像高速公路。你的车(显卡计算能力)可能能跑 300 码,但收费站(内存带宽) 只有 5 个车道。当车多了,大家都在排队过收费站,引擎再强也没用。
- 结论:现在的瓶颈不是显卡算得慢,而是数据搬运太慢。所以,那些能减少数据搬运的模型(比如只激活少量参数的 MoE 模型)反而更有优势。
5. 一个神秘的“加速器”:AITER
AMD 有一个叫 AITER 的加速工具,就像给显卡装了一个涡轮增压。
- 对于某些模型(如 DeepSeek):这个涡轮是必须的,没有它,车就跑不动(性能差很多)。
- 对于某些模型(如 Llama):装上这个涡轮,速度只快一点点(3-5%),但会让车速表变得忽快忽慢(数据波动大),反而不好控制。
- 对于 Kimi:这个涡轮完全不能用,用了会直接熄火(报错),因为它的引擎接口不匹配。
6. 稳定性:100% 不翻车
最让人放心的是,在测试中,无论来了 1000 个用户同时点餐,系统没有一次崩溃,所有请求都成功处理了。这说明 AMD 的这套组合拳(MI325X + vLLM 软件)非常稳定,适合真正用来做生意。
总结:这对我们意味着什么?
- AMD 显卡能用了:这篇报告证明了 AMD 的 MI325X 显卡完全可以用来跑目前世界上最先进、最大的 AI 模型,而且性能很强劲。
- 不能“一刀切”:如果你想部署 AI,不能随便套用一个配置。必须搞清楚你的模型是“密集型”还是“稀疏型”,是“普通注意力”还是“压缩注意力”,然后针对性地调整设置。
- 未来趋势:未来的大模型会越来越“聪明”(参数总量巨大,但每次只动一小部分),这样在同样的硬件上,它们能跑得更快、更省资源。
一句话总结:AMD 的新显卡是个好舞台,但要想演出精彩,导演(部署人员)必须根据每个演员(模型)的特点来设计剧本,不能拿演话剧的剧本去演歌剧。
Each language version is independently generated for its own context, not a direct translation.
这是一份关于在 AMD Instinct MI325X GPU 上进行大语言模型(LLM)推理优化的技术报告摘要。该报告由 Athos Georgiou 撰写,发表于 2026 年 2 月。
1. 研究背景与问题 (Problem)
随着大语言模型(LLM)从研究原型走向生产部署,模型规模已从数十亿参数扩展到万亿参数。然而,在 AMD 加速卡上进行系统性的 LLM 推理基准测试仍然稀缺。
- 核心挑战:不同架构的模型(如 Dense、MoE、MLA)对内存层级、并行策略和内核优化的需求截然不同。现有的通用部署配置往往无法适配所有架构,甚至导致性能低下或错误。
- 硬件环境:AMD Instinct MI325X 基于 CDNA 3 架构,提供单卡 256GB HBM3e 显存和 6.0 TB/s 带宽,是大规模推理的有力候选,但缺乏针对前沿模型(特别是万亿参数模型)的深入评估。
- 软件生态:ROCm 栈(特别是 vLLM 和 AITER 运行时)已成熟,但针对不同架构(如 MLA 与 GQA)的具体配置约束(如 Block Size、KV Cache 卸载、AITER 兼容性)尚不明确。
2. 方法论 (Methodology)
研究团队在 8 卡 AMD Instinct MI325X 集群(总显存 2TB)上,使用 vLLM v0.14.1 框架进行了系统性的跨架构基准测试。
- 测试模型:涵盖了三种主要架构家族的四种前沿模型:
- Kimi-K2.5 (1T 总参数,32B 活跃参数,MoE + MLA)
- DeepSeek V3.2 (685B 总参数,37B 活跃参数,MoE + MLA)
- Llama-3.1-405B (405B 总参数,Dense + GQA)
- Qwen3-VL-235B (235B 总参数,22B 活跃参数,MoE + GQA,多模态)
- 工作负载:
- 并发扩展:从单请求到 1,000 并发用户。
- 压力测试:长输出生成、长上下文预填充、多图像视觉工作负载。
- 饱和测试:细粒度扫描(500-1000 并发)以确定吞吐量饱和点。
- 优化技术:
- 量化:根据模型限制使用 FP8 (Llama, DeepSeek)、BF16 (Qwen3-VL) 和 INT4 QAT (Kimi-K2.5)。
- 内核加速:启用 AMD AITER 运行时,但针对不同模型进行了严格的兼容性测试(如 Kimi-K2.5 因头数限制和 MXFP4 硬件要求必须禁用 AITER)。
- KV Cache 管理:测试了 KV Cache 卸载(Offloading)和 FP8 KV Cache 的兼容性。
3. 关键贡献 (Key Contributions)
- 首个跨架构 MI325X 基准测试:提供了从单请求到 1,000 并发用户的首个学术级跨架构评估,覆盖了 Dense GQA、MoE+GQA 和 MoE+MLA 三种架构。所有模型在 17,406 次请求中保持了 100% 的 HTTP 成功率。
- 架构感知优化的必要性:证明了“一种配置通用所有”的假设是错误的。
- MLA 模型(DeepSeek, Kimi):在 ROCm 栈上强制要求
block-size 1,且不支持 KV Cache 卸载。
- GQA 模型(Llama, Qwen):受益于 KV Cache 卸载和标准 Block Size。
- AITER 的作用:对于 MLA 模型,AITER 是生产级推理的必需品(Triton 回退方案性能极低);对于 GQA 模型,AITER 仅带来 3-5% 的吞吐量提升,但显著增加了测量方差(2-16 倍)。
- 万亿参数模型部署:首次在 MI325X (CDNA 3) 上成功部署并基准测试了 1 万亿参数模型(Kimi-K2.5),使用 INT4 QAT 量化,在 4 卡 TP=4 配置下实现了 7,327 tok/s 的吞吐量。
- 活跃参数驱动吞吐量:实证表明,在前沿规模下,每 Token 的活跃参数数量(Active Parameters)比总参数数量更能决定推理吞吐量。
- 工作负载依赖的吞吐量饱和:所有模型在特定工作负载下表现出共同的吞吐量饱和点(约 500 并发),证实了瓶颈在于内存带宽而非计算能力。
4. 主要结果 (Results)
- 吞吐量表现:
- 文本工作负载:Llama-3.1-405B (Dense+GQA) 和 DeepSeek V3.2 (MoE+MLA) 达到了几乎相同的峰值吞吐量(约 15,900 tok/s),尽管 DeepSeek 的活跃参数仅为 Llama 的 9%。
- 视觉工作负载:Qwen3-VL-235B (MoE+GQA) 达到了 47,873 tok/s,是 Kimi-K2.5 (MoE+MLA, 7,327 tok/s) 的 6.5 倍。这归因于 Qwen 更少的活跃参数、GQA 架构对 KV 卸载的支持以及 AITER 的启用。
- AITER 消融实验:在 Llama-3.1-405B 上进行的对照实验显示,AITER 在高并发下仅带来 3-5% 的吞吐量提升,但导致测量方差增加 2-16 倍。这证实了 AMD 文档中提到的 2-3 倍加速主要针对 MoE 和 MLA 内核,而非通用注意力机制。
- 饱和行为:
- 短序列工作负载(500 输入/100 输出)的饱和点约为 500 并发。
- 长序列工作负载(2048 输入/512 输出)的饱和点提前至 100-200 并发。
- 即使在 1,000 并发下,所有模型仍保持 100% 请求成功率,vLLM 通过排队机制优雅地处理过载,而非拒绝请求。
- 资源利用:GPU 的 FLOPs 利用率极低(MoE 模型仅 0.4%-3%,Dense 模型约 14%),而硬件利用率接近 100%,进一步证实了推理是内存带宽受限(Memory-Bandwidth Bound)的。
5. 意义与启示 (Significance)
- 部署指导:生产环境必须实施“架构感知”的配置逻辑。不能为所有模型使用相同的 vLLM 标志。例如,MLA 模型必须禁用 KV 卸载并设置
block-size 1,且需根据头数限制决定是否启用 AITER。
- 硬件选型:AMD MI325X 凭借 256GB 单卡显存和 48 TB/s 聚合带宽,能够轻松容纳万亿参数模型而无需 CPU 卸载,是极具竞争力的推理平台。
- 模型选择:对于吞吐量敏感的场景,应优先选择活跃参数少且架构对硬件友好的模型(如 GQA+MoE),而非单纯追求总参数量。
- 未来方向:指出了多节点扩展、流水线并行、推测解码(Speculative Decoding)以及流式推理延迟(TTFT/ITL)作为未来研究的方向。
总结:该报告填补了 AMD 硬件上前沿 LLM 推理基准测试的空白,揭示了不同模型架构在 ROCm 栈上的细微但关键的配置差异,并证明了在正确配置下,AMD Instinct MI325X 能够高效支撑从 235B 到 1T 参数的各类模型推理。