Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats

本文全面评估了专为昇腾 NPU 设计的 HiFloat(HiF8 和 HiF4)格式,揭示了其在处理高方差数据及 4 比特量化场景下相比传统整数格式的优势,并验证了其与先进后训练量化框架的兼容性,为昇腾 NPU 上的高效大模型推理提供了新方案。

Pengxiang Zhao, Hui-Ling Zhen, Xing Li, Han Bao, Weizhe Lin, Zhiyuan Yang, Manyi Zhang, Yuanyong Luo, Ziwei Yu, Xin Wang, Mingxuan Yuan, Xianzhi Yu, Zhenhua Dong

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给华为的“昇腾(Ascend)”AI 芯片(NPU)寻找一套更聪明、更省钱的“压缩打包”方案,以便让超大的语言模型(LLM)能跑得更快、更省电。

想象一下,你有一个巨大的图书馆(大语言模型),里面堆满了书(数据)。以前,为了搬运这些书,我们需要用巨大的卡车(高精度数据,如 BF16),但这太占地方、太费油了。现在的目标是用小货车(低精度数据)把书运走,但绝不能把书弄坏(不能丢失太多智能)。

这篇论文就是在这个背景下,测试了几种不同的“打包箱”(数据格式),看看哪种最管用。

1. 核心问题:怎么把书“压缩”得又好又小?

以前大家主要用两种打包箱:

  • 整数箱(INT): 就像把书按页码整齐排列,每页厚度一样。优点是整齐,缺点是如果书里有特别厚或特别薄的(数据波动大),这种箱子就装不下或者浪费空间。
  • 浮点箱(Float): 就像一种智能箱子,能根据书的大小自动调整内部隔板。优点是能装各种大小的书,缺点是如果书都很小,这种箱子的隔板设计反而有点浪费。

随着模型越来越大,我们需要把箱子做得更小(从 8 位降到 4 位)。这时候,传统的“整数箱”在 4 位时彻底崩了,因为格子太少,稍微大一点的书就装不下了。

2. 主角登场:HiFloat(HiF8 和 HiF4)

华为提出了一种新的打包箱系列,叫 HiFloat。它结合了上述两种箱子的优点,专门为华为的芯片设计。

HiF8(8 位版本):灵活的“智能收纳盒”

  • 特点: 它像是一个可以变形的盒子。对于大多数普通的书(权重数据),它很紧凑;对于偶尔出现的“巨无霸”书(激活值中的异常值),它能瞬间变大。
  • 发现:
    • 对于“体重”固定的书(权重): 传统的整数箱(INT8)其实更整齐、更省空间,因为书的大小很均匀。
    • 对于“体重”多变的书(激活值): HiF8 这种智能盒子更厉害,因为它能容纳那些突然变大的书,不会把书挤坏。
    • 结论: 在 8 位时代,最好的策略是混合使用:用整数箱装权重,用 HiF8 装激活值。

HiF4(4 位版本):绝招“三层套娃”

这是论文最精彩的部分。当箱子被压缩到只有 4 位(非常非常小)时,传统的整数箱直接“碎”了,模型完全变傻。

  • HiF4 的绝招: 它采用了一种三层套娃的缩放结构。
    • 第一层(大框): 管 64 本书,给一个大概的缩放比例。
    • 第二层(中框): 把 64 本分成 8 组,每组再给个微调比例。
    • 第三层(小框): 再把 8 本分成 4 本,最后给个精细比例。
  • 比喻: 想象你要把一群身高差异巨大的人(数据)塞进一个极小的电梯里。
    • 普通整数法: 强行把高个子压扁,矮个子撑开,结果大家都变形了(模型崩溃)。
    • HiF4 法: 它先给所有人分小组。高个子小组用“高个子模式”,矮个子小组用“矮个子模式”,最后再统一调整。这样,无论数据怎么波动,都能被精准地“塞”进小箱子里,而且几乎不损失原貌

3. 实验结果:谁赢了?

作者把这套新箱子(HiFloat)和市面上其他流行的箱子(如 NVIDIA 的 NVFP4、通用的 MXFP)进行了对比测试:

  1. 8 位测试(W8A8):

    • 大家表现都不错。HiF8 和最好的整数箱(INT8)打成平手,或者稍微好一点点。这说明 HiF8 是个很成熟的方案。
  2. 4 位测试(W4A4)—— 真正的硬仗:

    • 整数箱(INT4): 直接崩盘。模型准确率暴跌,几乎没法用。
    • 普通浮点箱(MXFP4): 还能跑,但损失很大,模型变笨了。
    • HiF4: 大获全胜! 即使在极端的 4 位压缩下,它依然保持了模型 97% 以上的智能(准确率)。它不仅能处理权重,还能处理那些最难搞的“记忆缓存”(KV Cache),让模型在长对话中也能保持清醒。

4. 总结:这对我们意味着什么?

这篇论文告诉我们一个核心道理:在极度压缩(低比特)的世界里,死板的规则(整数)行不通,灵活的层级结构(HiFloat)才是王道。

  • 对于华为昇腾芯片: HiFloat 是量身定做的“神器”,能让芯片在运行大模型时,既省内存又跑得快,还能保持极高的智商。
  • 对于普通用户: 这意味着未来我们在手机或本地电脑上运行超大的 AI 模型时,可能会更流畅、更省电,而且模型不会变傻。

一句话总结:
这篇论文就像是在说,当我们要把大象(大模型)装进冰箱(低比特芯片)时,传统的“硬塞”方法(整数量化)会把大象挤坏,而华为发明的HiFloat(特别是 HiF4) 就像一套智能变形压缩服,让大象能完美地缩进冰箱里,出来时依然活蹦乱跳。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →