Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats

この論文は、Ascend NPU 向けに設計された HiFloat 形式(HiF8 および HiF4)を評価し、特に 4 ビット領域での精度低下の回避や、既存の量子化フレームワークとの完全な互換性を実証することで、LLM の高効率推論を実現する解決策を提示しています。

Pengxiang Zhao, Hui-Ling Zhen, Xing Li, Han Bao, Weizhe Lin, Zhiyuan Yang, Manyi Zhang, Yuanyong Luo, Ziwei Yu, Xin Wang, Mingxuan Yuan, Xianzhi Yu, Zhenhua Dong

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎒 1. 背景:AI の「荷物が重すぎる」問題

最近の AI(LLM)は非常に賢いですが、その分「荷物(データ)」が重すぎて、動かすのに巨大なエネルギーとメモリが必要です。
これを解決するために、研究者たちは**「量子化(Quantization)」**という技術を使います。

  • イメージ: 高解像度の写真(元のデータ)を、画質を少し落としてファイルサイズを小さくすること。
  • 従来の方法: 荷物を「整数(1, 2, 3...)」という箱に詰め替えるのが主流でした。しかし、AI のデータには「極端に大きい数字」や「極端に小さい数字」が混じっていることが多く、整数の箱では詰めきれない(精度が落ちる)という問題がありました。

🧩 2. 新登場!「HiFloat」という新しい箱

この論文では、Huawei の Ascend という AI チップ(NPU)向けに開発された**「HiFloat(ハイフロート)」**という新しい詰め方(データ形式)を評価しました。
これは「浮動小数点(小数点の位置が動く数字)」の一種ですが、AI の特性に合わせて工夫されています。

🔹 HiF8(8 ビット版):「8 個の箱」

  • 特徴: 数字の大きさに合わせて、箱の「整数部分」と「小数部分」の比率を自動で変えることができます。
  • 発見:
    • 重み(Weight): AI の「知識」そのもの(重み)は、ほとんどが「0 に近い小さな数字」の集まりです。これには**「整数(INT8)」**の方が、無駄なく細かく詰められるため、HiFloat よりも優秀でした。
    • 活性化(Activation): AI が計算している途中の「一時的な思考」は、突然大きな数字が出たりします。これには、大きさを柔軟に扱える**「HiFloat」の方が得意**でした。
    • 結論: 「知識(重み)」は整数で、「思考(活性化)」は浮動小数点で、使い分けるのがベストです。

🔹 HiF4(4 ビット版):「4 個の箱」

ここが今回の最大の発見です。

  • 問題: 箱をさらに小さくして「4 ビット」にすると、整数(INT4)では**「荷物が崩壊」**します。極端な数字が入ると、箱が溢れてしまい、AI がバカになってしまいます。
  • HiF4 の解決策: **「3 段階のピラミッド構造」**を採用しました。
    • イメージ:
      • 大きな荷物を運ぶトラック(ブロック全体)
      • 中に入る大きな箱(サブブロック)
      • 一番細かい小箱(マイクロブロック)
      • このように**「全体・中・細部」の 3 つのレベルでスケール(大きさの基準)を変える**ことで、極端な数字があっても、他の数字の精度を犠牲にせずに収容できます。
  • 結果: 4 ビットという極限の環境でも、HiF4 は AI の性能をほぼ維持しました。他の方法(整数や、他の浮動小数点)はここで崩壊しましたが、HiF4 は生き残りました。

🏗️ 3. 具体的な実験結果:なぜ HiF4 がすごいのか?

研究者たちは、Qwen3-8B や openPangu-7B という最新の AI モデルを使ってテストしました。

  • 8 ビットの場合:
    • 重みには「整数(INT8)」、活性化には「HiF8」を使うと、元の AI とほぼ同じ性能が出ました。
  • 4 ビットの場合(超圧縮):
    • 整数(INT4)は、AI が全くまともに動かないレベルで精度が落ちました(「壊滅的」)。
    • HiF4 は、元の AI の 97% 以上の性能を維持しました。
    • さらに、AI が長い文章を記憶する「KV キャッシュ(メモリの役割)」まで 4 ビットで圧縮しても、HiF4 は安定して動きました。

💡 4. 重要な教訓:「万能な箱」は存在しない

この研究から得られた最大の教訓は、**「データの種類によって、最適な詰め方が違う」**ということです。

  • 狭い範囲のデータ(重み): 均一な「整数の箱」が得意。
  • 変動が激しいデータ(活性化): 柔軟な「浮動小数点の箱」が得意。
  • 極限の圧縮(4 ビット): 単一の箱では無理で、**「3 段階のピラミッド構造(HiF4)」**が唯一の解決策。

🚀 まとめ

この論文は、**「HiFloat(特に HiF4)」**という新しい技術が、AI をより小さく、より速く、かつ低コストで動かすための「鍵」になることを証明しました。

特に、**「4 ビットという極限の圧縮でも、HiF4 のピラミッド構造なら AI を壊さずに動かせる」**という点は、今後の AI 普及(スマホや PC での実行など)にとって非常に大きな進歩です。

一言で言うと:

「AI の荷物を小さく詰め替える際、『重み』には整数の箱、『思考』には柔軟な箱を使い分け、さらに『4 ビット』という超圧縮では『3 段階のピラミッド構造』の箱を使うのが最強だと証明しました!」

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →