MXNorm: Reusing MXFP block scales for efficient tensor normalisation

本文提出了 MXNorm,一种通过复用 MXFP8 矩阵乘法中已计算的块缩放因子来估计均方根(RMS)的归一化方法,该方法在 Llama 3 模型预训练中保持了训练精度,同时显著减少了归一化所需的约简操作并提升了内核执行速度。

Callum McLean, Luke Y. Prince, Alexandre Payot, Paul Balança, Carlo Luschi

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 MXNorm 的新方法,旨在解决人工智能(AI)大模型训练中的一个“速度瓶颈”问题。

为了让你轻松理解,我们可以把训练一个大型 AI 模型(比如 Llama 3)想象成指挥一支庞大的交响乐团演奏一首复杂的交响曲

1. 背景:乐团里的“速度差”

在过去几年里,AI 芯片(就像乐团的指挥台)变得非常强大,特别是处理矩阵乘法(也就是乐团里成千上万个乐手同时演奏主旋律)的速度提升了 80 倍!这就像给乐团装上了火箭推进器。

但是,乐团里还有一些辅助工作,比如“检查音准”和“调整音量平衡”(在 AI 里叫归一化,具体是 RMSNorm)。这些辅助工作原本是为了确保音乐(数据)不会太吵或太轻,保持整体和谐。

问题出在哪里?
虽然主旋律演奏得飞快,但“检查音准”和“调整音量”的速度却提升得很慢(只提升了约 5-9 倍)。这就好比:

乐手们已经能像闪电一样演奏,但指挥家还在慢吞吞地拿着尺子一个个去量音高。结果,整个乐团的节奏被这些慢吞吞的“检查”环节拖累了,导致整体效率上不去。

2. 核心创新:MXNorm(“复用”的智慧)

为了解决这个问题,Graphcore 的研究团队提出了 MXNorm

原来的做法(RMSNorm):
在把乐谱(数据)交给乐手之前,指挥家必须先重新计算一遍每个乐手的音量平均值(计算 RMS),然后再调整。这就像每次演奏前,都要重新拿尺子量一遍,非常耗时。

MXNorm 的做法(“偷梁换柱”):
现在的 AI 芯片为了跑得更快,会把乐谱压缩成一种更小的格式(叫 MXFP 格式)。在压缩乐谱的过程中,芯片已经顺便计算了每个小乐队的“最大音量”(Block Scales,块尺度)。

MXNorm 的聪明之处在于:它不再重新计算音量平均值,而是直接“借用”压缩过程中已经算好的“最大音量”数据,来估算平均值。

生活中的类比:

  • 传统方法:你要统计一个班级学生的平均身高。你必须把全班 50 个人的身高都量一遍,加起来除以 50。
  • MXNorm 方法:你发现班里已经有人为了买校服,把每 10 个人的“最高身高”都记下来了。你不需要重新量所有人,直接把这 5 个“最高身高”拿来算个平均,就能非常准确地估算出全班的平均身高。
    • 结果:你省去了 90% 的测量工作(减少了 32 倍的数据处理量),而且算出来的结果几乎一样准。

3. 实验结果:快且稳

研究人员在 Llama 3 模型(从 1.25 亿参数到 80 亿参数)上测试了这种方法:

  1. 速度提升

    • 在单个计算步骤上,MXNorm 比传统方法快了 2.4 倍
    • 在整个大模型推理中,整体速度提升了 1.3% 到 2.6%
    • 比喻:这就像让交响乐团在保持音准完美的前提下,把整首曲子的演奏时间缩短了,而且不需要更换任何乐器(硬件),只需要换一种指挥技巧(软件算法)。
  2. 稳定性

    • 他们发现,如果用简单的“算术平均”(p=1)来估算,大模型训练容易“翻车”(出现数据爆炸,就像乐团突然有人尖叫,导致整首曲子跑调)。
    • 但如果用“平方平均”(p=2,即 MXNorm 的推荐方案),就能像 RMSNorm 一样稳定,完美地防止了“尖叫”,让大模型训练过程平稳顺利。

4. 总结:为什么这很重要?

这篇论文的核心思想是**“物尽其用,拒绝重复劳动”**。

在 AI 算力越来越强的今天,单纯靠堆硬件已经不够了。MXNorm 告诉我们,通过巧妙地复用计算过程中已经产生的数据(块尺度),我们可以消除那些拖慢速度的“小瓶颈”。

一句话总结:
MXNorm 就像是一个聪明的指挥家,他不再拿着尺子重新测量每个乐手,而是直接利用乐手们为了买衣服已经量好的“最高身高”数据,瞬间算出了平均身高。这让整个乐团(AI 大模型)能跑得更快、更稳,而且不需要花一分钱买新设备。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →