Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

本文针对 MXFP4 和 NVFP4 微量化格式在 LLM 推理中面临的精度瓶颈,提出了结合块级 Hadamard 变换与格式特定优化的 MR-GPTQ 算法,并辅以高性能 GPU 内核,在 NVIDIA B200 和 RTX5090 上实现了显著加速,同时使 FP4 量化的精度达到或超越现有最先进水平。

Vage Egiazarian, Roberto L. Castro, Denis Kuznedelev, Andrei Panferov, Eldar Kurtic, Shubhra Pandit, Alexandre Marques, Mark Kurtz, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型(LLM)做一场“减肥手术”,试图让它们在更小的体积下跑得更快,同时还能保持聪明。

为了让你轻松理解,我们可以把大语言模型想象成一个超级庞大的图书馆,里面装满了无数的知识(权重)和读者的提问(激活值)。

1. 背景:为什么要“减肥”?

现在的 AI 模型太大了,就像一座巨大的图书馆,占用了太多的空间(显存),而且搬运书籍(计算)非常慢。
为了解决这个问题,科学家们发明了量化(Quantization)技术。这就好比把图书馆里原本用精装大书(高精度浮点数,如 FP16)记录的知识点,全部换成袖珍小册子(低精度,如 4 位)

  • 目标:把书变小,让图书馆能塞进更多书,或者让搬运工(GPU)跑得更快。

2. 新工具:MXFP4 和 NVFP4

最近,NVIDIA 和 AMD 推出了新的硬件,支持一种叫**微缩放浮点数(Microscaling FP4)**的新格式。

  • 比喻:以前我们是用整数(INT4)做袖珍书,现在有了两种新的“特殊纸张”:
    • NVFP4:像是一种精密的便签纸。它把书分成小堆(每堆 16 页),每堆共用一个“比例尺”(Scale),这个比例尺写得比较详细(E4M3 格式)。
    • MXFP4:像是一种极简的速记纸。它把书分成更大的堆(每堆 32 页),比例尺写得更简单,只保留“是 2 的几次方”这种信息(E8M0 格式,也就是只保留指数,没有尾数)。
  • 承诺:厂商说,用这种新纸张,既能把书缩得更小,又能保持内容清晰,甚至比以前更好。

3. 发现的问题:承诺 vs. 现实

这篇论文的作者们(来自 IST Austria、Yandex、Red Hat 等)发现,虽然新纸张很好,但现有的“装订方法”(量化算法)完全不会用

  • NVFP4 的困境:因为它的小堆太小(16 页),而且比例尺太细,导致那些原本用来处理“异常值”(比如特别重要的关键词)的旧方法失效了。就像你想用细笔去画粗线条,反而画歪了。
  • MXFP4 的困境:因为它把比例尺简化成了“只保留 2 的幂次”,这就像把温度计的刻度全去掉了,只保留“热”和“冷”两个档位。这导致误差巨大,模型变得很“傻”,准确率大幅下降(比如从 90 分掉到 70 分)。

结论:直接拿新纸张用旧方法,效果不仅没变好,反而变差了。

4. 解决方案:MR-GPTQ(微旋转 GPTQ)

为了解决这个问题,作者们发明了一种新的“装订术”,叫 MR-GPTQ

  • 核心魔法:旋转(Rotation)
    • 比喻:想象图书馆里的书,有些章节特别厚(异常值/Outliers),有些特别薄。旧方法试图直接把这些厚书塞进小册子里,结果塞爆了或者看不清。
    • MR-GPTQ 的做法:在把书变成小册子之前,先给书旋转一下角度(使用哈达玛变换 Hadamard Transform)。
    • 效果:旋转后,原本特别厚的章节被“打散”了,均匀地分布到每一页里。这样,原本厚薄不均的书,变得厚薄均匀,非常适合塞进那种“极简速记纸”(MXFP4)里。
  • 针对 MXFP4 的优化:因为 MXFP4 的比例尺太粗糙,MR-GPTQ 还专门设计了一套算法,去“微调”这些比例尺,让它们更贴合实际数据,减少误差。

5. 硬件加速:QuTLASS(不让旋转变慢)

你可能会问:“旋转一下书,会不会太花时间,反而抵消了变小的优势?”

  • 答案:不会。作者们专门为 NVIDIA 最新的 Blackwell 显卡(如 B200, RTX 5090)写了一套超级快的代码库(QuTLASS)
  • 比喻:就像给图书馆装上了自动传送带和智能机器人。它们在搬运书籍的同时,顺便就把书“旋转”好了。这个动作几乎不占用额外时间,甚至因为书变小了,整体速度反而快了好几倍

6. 最终成果:速度与智慧兼得

经过测试,MR-GPTQ 带来了惊人的效果:

  • 准确率:原本 MXFP4 会让模型变笨,现在用 MR-GPTQ 后,它的准确率追平了更精细的 NVFP4,甚至接近原始的大书(FP16)水平。
  • 速度
    • 在 NVIDIA B200 显卡上,推理速度比原来快了 2.2 倍
    • 在 RTX 5090 显卡上,速度更是快了 4 倍
    • 这意味着,以前需要 10 秒才能回答的问题,现在 2-3 秒就能搞定,而且回答得更准。

总结

这篇论文告诉我们:新技术(MXFP4/NVFP4)虽然 promising(有潜力),但如果直接套用旧方法,效果会很差。
作者通过**“旋转数据”(MR-GPTQ)和“定制硬件加速”**(QuTLASS),成功填补了“理论承诺”和“实际性能”之间的鸿沟。
简单一句话:他们发明了一种新魔法,让大模型在变得更小、更轻的同时,不仅没有变傻,反而跑得更快了,就像给图书馆装上了光速传送带,还能把书压缩得更紧凑。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →