Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给华为的“昇腾（Ascend）”AI 芯片（NPU）寻找一套更聪明、更省钱的“压缩打包”方案，以便让超大的语言模型（LLM）能跑得更快、更省电。

想象一下，你有一个巨大的图书馆（大语言模型），里面堆满了书（数据）。以前，为了搬运这些书，我们需要用巨大的卡车（高精度数据，如 BF16），但这太占地方、太费油了。现在的目标是用小货车（低精度数据）把书运走，但绝不能把书弄坏（不能丢失太多智能）。

这篇论文就是在这个背景下，测试了几种不同的“打包箱”（数据格式），看看哪种最管用。

1. 核心问题：怎么把书“压缩”得又好又小？

以前大家主要用两种打包箱：

整数箱（INT）： 就像把书按页码整齐排列，每页厚度一样。优点是整齐，缺点是如果书里有特别厚或特别薄的（数据波动大），这种箱子就装不下或者浪费空间。
浮点箱（Float）： 就像一种智能箱子，能根据书的大小自动调整内部隔板。优点是能装各种大小的书，缺点是如果书都很小，这种箱子的隔板设计反而有点浪费。

随着模型越来越大，我们需要把箱子做得更小（从 8 位降到 4 位）。这时候，传统的“整数箱”在 4 位时彻底崩了，因为格子太少，稍微大一点的书就装不下了。

2. 主角登场：HiFloat（HiF8 和 HiF4）

华为提出了一种新的打包箱系列，叫 HiFloat。它结合了上述两种箱子的优点，专门为华为的芯片设计。

HiF8（8 位版本）：灵活的“智能收纳盒”

特点： 它像是一个可以变形的盒子。对于大多数普通的书（权重数据），它很紧凑；对于偶尔出现的“巨无霸”书（激活值中的异常值），它能瞬间变大。
发现：
- 对于“体重”固定的书（权重）： 传统的整数箱（INT8）其实更整齐、更省空间，因为书的大小很均匀。
- 对于“体重”多变的书（激活值）： HiF8 这种智能盒子更厉害，因为它能容纳那些突然变大的书，不会把书挤坏。
- 结论： 在 8 位时代，最好的策略是混合使用：用整数箱装权重，用 HiF8 装激活值。

HiF4（4 位版本）：绝招“三层套娃”

这是论文最精彩的部分。当箱子被压缩到只有 4 位（非常非常小）时，传统的整数箱直接“碎”了，模型完全变傻。

HiF4 的绝招： 它采用了一种三层套娃的缩放结构。
- 第一层（大框）： 管 64 本书，给一个大概的缩放比例。
- 第二层（中框）： 把 64 本分成 8 组，每组再给个微调比例。
- 第三层（小框）： 再把 8 本分成 4 本，最后给个精细比例。
比喻： 想象你要把一群身高差异巨大的人（数据）塞进一个极小的电梯里。
- 普通整数法： 强行把高个子压扁，矮个子撑开，结果大家都变形了（模型崩溃）。
- HiF4 法： 它先给所有人分小组。高个子小组用“高个子模式”，矮个子小组用“矮个子模式”，最后再统一调整。这样，无论数据怎么波动，都能被精准地“塞”进小箱子里，而且几乎不损失原貌。

3. 实验结果：谁赢了？

作者把这套新箱子（HiFloat）和市面上其他流行的箱子（如 NVIDIA 的 NVFP4、通用的 MXFP）进行了对比测试：

8 位测试（W8A8）：
- 大家表现都不错。HiF8 和最好的整数箱（INT8）打成平手，或者稍微好一点点。这说明 HiF8 是个很成熟的方案。
4 位测试（W4A4）—— 真正的硬仗：
- 整数箱（INT4）： 直接崩盘。模型准确率暴跌，几乎没法用。
- 普通浮点箱（MXFP4）： 还能跑，但损失很大，模型变笨了。
- HiF4： 大获全胜！ 即使在极端的 4 位压缩下，它依然保持了模型 97% 以上的智能（准确率）。它不仅能处理权重，还能处理那些最难搞的“记忆缓存”（KV Cache），让模型在长对话中也能保持清醒。

4. 总结：这对我们意味着什么？

这篇论文告诉我们一个核心道理：在极度压缩（低比特）的世界里，死板的规则（整数）行不通，灵活的层级结构（HiFloat）才是王道。

对于华为昇腾芯片： HiFloat 是量身定做的“神器”，能让芯片在运行大模型时，既省内存又跑得快，还能保持极高的智商。
对于普通用户： 这意味着未来我们在手机或本地电脑上运行超大的 AI 模型时，可能会更流畅、更省电，而且模型不会变傻。

一句话总结：
这篇论文就像是在说，当我们要把大象（大模型）装进冰箱（低比特芯片）时，传统的“硬塞”方法（整数量化）会把大象挤坏，而华为发明的HiFloat（特别是 HiF4） 就像一套智能变形压缩服，让大象能完美地缩进冰箱里，出来时依然活蹦乱跳。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于华为昇腾（Ascend）NPU 上低比特推理格式 HiFloat (HiF8 和 HiF4) 的综合评估论文的技术总结。

1. 研究背景与问题 (Problem)

随着大语言模型（LLM）规模的指数级增长，计算吞吐量和内存带宽成为主要瓶颈。量化（Quantization）是缓解这些瓶颈的关键技术。

现有挑战： 现有的量化研究主要集中在基于整数（Integer-based, 如 INT8/INT4）的方法上。然而，LLM 中的激活值（Activations）和 KV Cache 往往具有长尾分布（Long-tailed distributions）和显著的异常值（Outliers）。
整数量化的局限： 在极低比特（如 4-bit）下，均匀分布的整数量化（Uniform Integer Quantization）由于步长固定，难以同时兼顾高动态范围的异常值和密集分布的常规值，导致精度急剧下降甚至模型崩溃。
浮点格式的需求： 虽然微缩放（Microscaling, MX）格式（如 MXFP）和 NVIDIA 的 NVFP4 提供了新的浮点方案，但针对昇腾 NPU 硬件特性定制的 HiFloat 格式家族（HiF8 和 HiF4）在**训练后量化（PTQ）**场景下的表现尚未得到全面评估。

2. 方法论 (Methodology)

本文对 HiFloat 格式家族进行了系统性的数学定义、分布分析和端到端性能评估。

2.1 HiFloat 格式设计

HiF8 (8-bit):
- 机制： 引入动态前缀码（Dynamic Prefix Code），根据数值大小动态分配指数（Exponent）和尾数（Mantissa）的比特位。
- 特点： 支持正常数（Normal）和非规格化数（Subnormal），通过隐式位恢复最大化精度。
- 优化： 针对权重分布较窄的特点，提出了**每通道缩放（Per-channel scaling）**策略（HiF8 scaled），将张量范围对齐到 HiF8 的高密度区域，减少比特浪费。
HiF4 (4-bit):
- 机制： 采用三级分层缩放结构（Three-level Hierarchical Scaling）。
  - Level 1: 64 个元素共享一个 8-bit 的 E6M2 缩放因子。
  - Level 2: 每 8 个元素有一个 1-bit 的 E1M0 缩放因子。
  - Level 3: 每 4 个元素有一个 1-bit 的 E1M0 缩放因子。
  - 元素本身采用 E1M2 格式。
- 优势： 通过多层级缩放，能够隔离局部异常值，同时在局部保持高精度。

2.2 评估框架

基准模型： Qwen3-8B 和 openPangu-7B。
量化对象： 权重（Weights）、激活值（Activations）、KV Cache。
对比基线：
- 整数：INT8, INT4。
- 浮点/微缩放：MXFP8/MXFP4, NVFP4, E4M3, E5M2。
协同策略： 评估 HiFloat 与主流 PTQ 框架（如 SmoothQuant, SVDQuant）的兼容性。
指标： 信噪比（SQNR）、困惑度（Perplexity）、多项任务准确率（MMLU, GSM8K 等）。

3. 关键发现与贡献 (Key Contributions & Findings)

3.1 数据分布决定格式选择

权重（Weights）： 权重分布通常集中在狭窄范围内（如 $[2^{-9}, 2^{-5}]$ $[2^{- 9}, 2^{- 5}]$ ）。
- 结论： INT8 优于浮点格式。因为浮点格式将比特浪费在极少出现的极端指数上，导致在核心分布区域的量化粒度变粗。INT8 的均匀分布提供了更高的表示密度。
激活值（Activations）： 具有高度动态性和异常值。
- 结论： 浮点格式（HiF8/MXFP8）优于 INT8。浮点格式的对数间距和动态范围能更好地容纳异常值，避免 INT8 因零点和步长过大导致的分辨率崩溃。

3.2 4-bit regimes 下的范式转移

整数崩溃： 在 4-bit 下，INT4 无论是否配合 SmoothQuant/SVDQuant，均出现灾难性的精度损失（Accuracy Collapse），无法处理高方差数据。
分层浮点的胜利：
- HiF4 和 NVFP4 通过分层缩放机制，成功在 4-bit 下保持了模型完整性。
- HiF4 表现优异： 在 Qwen3-8B 上，仅使用 RTN（最近邻舍入）的 W4A4 配置下，HiF4 保留了 BF16 基线 96.5% 的精度；结合 SmoothQuant 后，精度损失进一步缩小至 2.7%。

3.3 KV Cache 量化

Key States： 分布复杂且多峰，需要分层浮点格式（HiF4/NVFP4）来捕捉局部变化。
Value States： 分布相对稳定，但 4-bit 下仍需分层结构优于单层 MXFP4。
端到端性能： 在 W4A4 + KV Cache 4-bit 的极端压力下，HiF4 表现出最强的鲁棒性，显著优于 MXFP4 和 NVFP4。

3.4 算法协同

HiFloat 与 SmoothQuant 和 SVDQuant 完全兼容。
这些异常值抑制策略（Outlier-mitigation strategies）与 HiFloat 的固有表示能力产生协同效应，进一步提升了压缩效果。

4. 实验结果 (Results)

场景	格式对比	关键结果
W8A8 (权重 + 激活)	INT8 vs HiF8/MXFP8	INT8 在权重上略优；HiF8 配合 SmoothQuant 后在 openPangu-7B 上达到 BF16 基线水平。
W4A4 (权重 + 激活)	INT4 vs HiF4/NVFP4	INT4 完全失效（精度损失 >60%）。HiF4 和 NVFP4 保持高可用性，HiF4 在 openPangu-7B 上精度损失仅 2.7%。
KV Cache (4-bit)	MXFP4/NVFP4/HiF4	在 W4A4 + KV4 组合下，HiF4 在 Qwen3-8B 上精度损失控制在 3.15% (Q16KV4) 和 3.92% (QKV4)，优于所有其他 4-bit 格式。
长文本 (LongBench)	全链路 4-bit	HiF4 在长上下文任务中表现最佳，证明了其在误差累积场景下的稳定性。

5. 意义与结论 (Significance)

硬件适配性： HiFloat 是专为昇腾 NPU 设计的格式，其分层结构（特别是 HiF4）在硬件层面具有高效性，无需复杂的浮点乘法即可通过整数加法和移位实现解码。
理论洞察： 论文明确了“数值表示”是模型鲁棒性的决定性因素。在 8-bit 下，应根据数据类型（权重用 INT，激活用 FP）混合使用格式；而在 4-bit 下，分层浮点结构（Hierarchical Floating-point） 是解决精度崩溃的唯一可行方案。
工业价值： 证明了 HiF4 是实现全链路 4-bit 推理（包括权重、激活和 KV Cache）的可行且鲁棒的解决方案，为在资源受限的 NPU 上部署大规模 LLM 提供了新的技术路径。

总结： 该论文不仅验证了 HiFloat 格式在昇腾 NPU 上的有效性，还通过详尽的对比实验确立了分层浮点量化在极低比特（4-bit）场景下的核心地位，解决了传统整数量化在 LLM 推理中精度崩溃的痛点。