BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization

BATQuant は、MXFP4 形式における既存の回転ベース手法が抱えるアウライヤー伝搬と分布の非効率性という課題に対し、ブロック単位のアフィン変換と GPK 分解、ブロック単位学習クリッピングを導入することで、大規模言語モデルやマルチモーダルモデルの W4A4KV16 量子化において最先端の性能を達成する手法です。

Ji-Fu Li, Manyi Zhang, Xiaobo Xia, Han Bao, Haoli Bai, Zhenhua Dong, Xianzhi Yu

公開日 2026-03-18
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🍳 料理の例え:AI を「4 種類の調味料」で味付けする

普段、私たちが使っている最新の AI(LLM や MLLM)は、**「高品質な食材(高精度なデータ)」**を使って作られています。しかし、このままでは重すぎて、スマホや車などの小さな機械(エッジデバイス)には入りきりません。

そこで、**「量子化(Quantization)」**という技術を使って、AI の「味付け(データ)」を簡素化します。

  • 元の状態(BF16): 100 種類以上の調味料で、繊細な味付けが可能。
  • 量子化後(MXFP4): たった4 種類の調味料(例:塩、砂糖、醤油、酢)だけで味を再現しようとする。

【問題点:これまでの方法では失敗していた】
これまでの技術(回転法など)は、「4 種類の調味料」に置き換える際、**「全体を混ぜて均一にする」**という方法をとっていました。

  • 失敗の理由: 料理には「激辛(外れ値)」のような強烈な味を持つ部分があります。全体を混ぜてしまうと、**「激辛の味が、他の淡白な部分にまで移ってしまい、全体が変な味になる」**という現象が起きました。また、調味料の配分が偏って、4 種類の調味料の能力をフルに使えていない状態(二峰性分布)になっていました。

【BATQuant の解決策:ブロックごとの「個別の味付け」】
この論文で提案されている**「BATQuant」**は、全く違うアプローチをとります。

  1. ブロックごとの管理(ブロック単位のアフィン変換):
    料理を「32 個ずつ」の小さな皿(ブロック)に分けます。そして、**「その皿の中だけで」**調味料のバランスを調整します。

    • メリット: 「激辛の味」が隣の皿に飛び散るのを防ぎます。それぞれの皿が持つ「個性(外れ値)」を、その皿専用のスケールで正確に捉えることができます。
  2. 賢い圧縮(GPK 分解):
    「32 個の皿それぞれに、個別のレシピ(パラメータ)を用意する」のは、メモリの負担が大きすぎます。
    そこで BATQuant は、**「全員共通のベースレシピ(グローバル)」「皿ごとの微調整用レシピ(プライベート)」**に分けて管理します。

    • 例え: 全員に「塩の量」を決める共通のルール(グローバル)を与えつつ、辛いのが好きな人だけ「唐辛子を少し足す(プライベート)」という仕組みです。これにより、**「必要な情報だけを残し、メモリの無駄を激減」**させています。
  3. 余計なものを切る(クリッピング):
    もし、その皿の中に「規格外に巨大な食材(極端な外れ値)」が入っていたら、無理に 4 種類の調味料で再現しようとせず、**「適度な大きさに切って(クリップ)」**しまいます。これにより、調味料の配分が狂うのを防ぎます。


🏪 倉庫の例え:荷物の積み替え

AI のデータは、巨大な倉庫に積み込まれた**「箱(データ)」**だと想像してください。

  • 従来の方法: 倉庫全体を一度に回転させて、箱を均等に並べ直そうとしました。しかし、**「重すぎる箱(外れ値)」**が他の軽い箱の上に落ちて、棚が崩れてしまいました(性能の低下)。
  • BATQuant の方法:
    • 倉庫を**「小さな区画(ブロック)」**に分けます。
    • 各区画ごとに、**「その区画に合った積み方」**を考えます。重箱は重箱の区画で、軽い箱は軽い箱の区画で管理します。
    • さらに、**「共通の積み方マニュアル」「区画ごとの微調整マニュアル」**を組み合わせることで、倉庫の広さ(メモリ)を節約しつつ、荷崩れを防ぎます。

🌟 この技術がすごい点(結果)

この「BATQuant」を使うと、以下のような驚くべき成果が得られました。

  • 4 種類の調味料でも、ほぼ元の味(性能)を再現:
    従来の方法では、4 種類の調味料(4 ビット)にすると AI の頭がバカになってしまい、計算ミスや変な回答(ハルシネーション)が多発していました。しかし、BATQuant では、**「元の高性能な AI の 96% 以上」**の性能を維持できました。
  • 多様なタスクで活躍:
    文章の理解だけでなく、**「画像を見て推理する」**ような難しいタスク(例:図形の交差点を数える、列車の番号を読み取る)でも、従来の方法では失敗していたものが、正しく答えられるようになりました。

まとめ

BATQuantは、**「AI を小さく圧縮する際、全体を無理やり均一にせず、小さなブロックごとに『その場にあった調整』を行うことで、外れ値による崩壊を防ぎ、メモリの無駄も省く」**という、とても賢い新しい技術です。

これにより、高性能な AI が、もっと手軽なデバイス(スマホや車など)で、遅延なく、正確に動く未来が近づいたと言えます。

自分の分野の論文に埋もれていませんか?

研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。

Digest を試す →