BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization

BATQuant 提出了一种针对 MXFP4 格式的块级仿射变换量化方法,通过限制变换粒度以阻断异常值跨块传播、利用 GPK 分解优化分布并引入可学习截断,显著解决了现有旋转类方法在 MLLM 和 LLM 部署中的性能崩溃问题,在 W4A4KV16 配置下实现了接近全精度的 SOTA 性能。

Ji-Fu Li, Manyi Zhang, Xiaobo Xia, Han Bao, Haoli Bai, Zhenhua Dong, Xianzhi Yu

发布于 2026-03-18
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 BATQuant 的新方法,它的任务是让大型人工智能模型(比如能看图说话的“多模态大模型”)在变得“更小、更快”的同时,依然保持“聪明”。

为了让你更容易理解,我们可以把整个过程想象成给一座巨大的图书馆进行“压缩打包”,以便把它塞进一个小小的背包里带走

1. 背景:为什么要压缩?(背包的困境)

现在的 AI 模型(LLM 和 MLLM)就像一座超级巨大的图书馆,里面装满了海量的知识(参数)。

  • 问题:这座图书馆太大了,普通的手机或边缘设备(小背包)根本装不下,或者搬运起来太慢、太耗电。
  • 解决方案:我们需要把书“压缩”。以前大家习惯把书变成整数格式(比如把复杂的描述变成简单的 0 和 1),这就像把书压缩成黑白线稿。
  • 新趋势:最近出现了一种新的压缩格式叫 MXFP4(微缩放浮点数)。它比黑白线稿更精细,能保留更多细节,就像把书压缩成了带灰度的素描。理论上,这种格式在硬件上运行得更快、更省电。

2. 核心难题:为什么之前的压缩方法会“翻车”?

虽然 MXFP4 格式很好,但直接用它来压缩大模型,效果却惨不忍睹。这就好比用压缩黑白线稿的老方法,去处理带灰度的素描,结果把画弄花了。

论文指出了两个主要“翻车”原因:

  1. “连坐”效应(Outlier Propagation)
    • 比喻:想象图书馆里有些书特别重(数据中的“异常值”或 Outliers)。以前的压缩方法(旋转法)试图把这些重物均匀地分摊到所有书架上。但在 MXFP4 这种“分块打包”的格式下,这种分摊反而把重物从一个包扔到了另一个包,导致原本轻飘飘的包突然被压垮了,而原本重的包也没变轻。
    • 结果:每个小包的“承重标尺”(缩放因子)都乱了,导致压缩后的数据失真。
  2. “两头堵”现象(Bimodal Distribution)
    • 比喻:压缩后的数据分布变得很奇怪,要么特别轻,要么特别重,中间空荡荡的。就像把人群强行分成“极瘦”和“极胖”两类,中间没有普通人。
    • 结果:这导致我们宝贵的“压缩空间”(量化范围)被浪费了,很多中间细节没地方放,信息丢失严重。

3. BATQuant 的解决方案:聪明的“分块打包”

BATQuant 就像一位精明的打包专家,它提出了三个绝招:

绝招一:就地解决,互不干扰(Block-wise Affine Transformation)

  • 做法:它不再试图把重物从 A 包搬到 B 包。相反,它只在每个小包裹内部进行整理。
  • 比喻:如果某个包裹里有一块大石头(异常值),它就在这个包裹内部把石头磨碎、重新摆放,让它适应包裹的大小,而不是把石头扔给隔壁的包裹。
  • 效果:每个包裹的“承重标尺”都能准确反映自己内部的情况,不会互相干扰。

绝招二:全球通用 + 私人定制(Global and Private Kronecker, GPK)

  • 做法:为了不让打包规则太复杂(节省内存),它设计了一套“组合拳”。
    • 全球通用(Global):所有包裹都使用同一套基础的整理工具(共享矩阵)。
    • 私人定制(Private):每个包裹再根据自己的特殊情况,加一点点独特的微调(私有矩阵)。
  • 比喻:就像给所有学生发同一本通用的教科书(省空间),但允许每个学生根据自己的弱点,在课本旁边写几行个性化的笔记(保持灵活性)。这样既省了钱,又保证了每个人都能学好。

绝招三:智能裁剪(Block-wise Learnable Clipping)

  • 做法:即使整理过了,偶尔还是会有个别“超级大块头”数据。BATQuant 会动态地给每个包裹设定一个“最大承重线”,把那些实在塞不进去的极端数据“切掉”一点。
  • 比喻:就像打包行李时,如果有个东西实在太大,就把它切掉一点点边角,只要不影响整体结构就行,确保它能塞进包里。

4. 成果:小身材,大智慧

经过实验,BATQuant 在Qwen3(通义千问系列)等模型上取得了惊人的效果:

  • 在极端压缩下(W4A4):也就是把模型压缩到只有原来的 1/4 甚至更小,它依然能恢复 96.43% 的原始智能水平。
  • 对比:以前的方法在这种极端压缩下,模型可能会“变傻”甚至完全失效(比如看图说话时把直线看成曲线,或者数错交点),而 BATQuant 依然能精准识别。
  • 应用场景:无论是做数学题、逻辑推理,还是看图说话、识别文档,它都表现得比现有最好的方法都要好。

总结

BATQuant 就像是为 AI 模型设计的一套智能分块打包系统。它不再强行把整个模型“揉成一团”,而是尊重每个小部分的特性,在局部进行精细调整,既节省了空间(内存和算力),又完美保留了模型的“灵魂”(推理和识别能力)。这让未来的 AI 模型能够更轻松地运行在手机、汽车等小型设备上。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →