Pretraining Large Language Models with NVFP4

本論文は、ランダム・アダマール変換や確率的丸めなどの手法を組み合わせることで、120 億パラメータモデルを 10 兆トークンで NVFP4 精度で安定して学習させ、FP8 ベースラインと同等の性能を達成する新しいアプローチを提案し、大規模言語モデルの学習効率向上に貢献することを示しています。

NVIDIA, Felix Abecassis, Anjulie Agrusa, Dong Ahn, Jonah Alben, Stefania Alborghetti, Michael Andersch, Sivakumar Arayandi, Alexis Bjorlin, Aaron Blakeman, Evan Briones, Ian Buck, Bryan Catanzaro, Muya Chang, Jinhang Choi, Mike Chrzanowski, Eric Chung, Victor Cui, Steve Dai, Bita Darvish Rouhani, Carlo del Mundo, Deena Donia, Burc Eryilmaz, Henry Estela, Abhinav Goel, Oleg Goncharov, Yugi Guvvala, Robert Hesse, Russell Hewett, Herbert Hum, Ujval Kapasi, Brucek Khailany, Mikail Khona, Nick Knight, Alex Kondratenko, Ronny Krashinsky, Ben Lanir, Simon Layton, Michael Lightstone, Daniel Lo, Paulius Micikevicius, Asit Mishra, Tim Moon, Deepak Narayanan, Chao Ni, Abhijit Paithankar, Satish Pasumarthi, Ankit Patel, Mostofa Patwary, Ashwin Poojary, Gargi Prasad, Sweta Priyadarshi, Yigong Qin, Xiaowei Ren, Oleg Rybakov, Charbel Sakr, Sanjeev Satheesh, Stas Sergienko, Pasha Shamis, Kirthi Shankar, Nishant Sharma, Mohammad Shoeybi, Michael Siu, Misha Smelyanskiy, Darko Stosic, Dusan Stosic, Bor-Yiing Su, Frank Sun, Nima Tajbakhsh, Shelby Thomas, Przemek Tredak, Evgeny Tsykunov, Gandhi Vaithilingam, Aditya Vavre, Rangharajan Venkatesan, Roger Waleffe, Qiyu Wan, Hexin Wang, Mengdi Wang, Lizzie Wei, Hao Wu, Evan Wu, Keith Wyss, Ning Xu, Jinze Xue, Charlene Yang, Yujia Zhai, Ruoxi Zhang, Jingyang Zhu, Zhongbo Zhu

公開日 2026-03-06
📖 2 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

超高性能 AI を「4 ビット」で動かす革命:NVIDIA の新技術「NVFP4」の解説

この論文は、**「巨大な AI(大規模言語モデル)を、これまでよりずっと少ない計算資源で、かつ精度を落とさずに訓練する方法」**を NVIDIA が発見したことを報告しています。

具体的には、AI の計算に使われる数字の「桁数(ビット数)」を、従来の 8 ビットから4 ビットに減らしても、AI の賢さはほとんど変わらないことを実証しました。

これをわかりやすく、日常の例えを使って解説します。


1. 背景:AI は「重すぎる」

今の最先端の AI は、まるで**「100 人の天才学者が 1 日中、図書館の全書籍を読みながら議論している」**ようなものです。

  • 問題点: この作業には、莫大な電気代、巨大な計算機、そして何年もかかる時間が必要です。
  • これまでの解決策: 8 ビット(FP8)という「少し簡略化したメモ帳」を使うことで、作業を速くしてきました。
  • 今回の挑戦: さらに**「4 ビット」**という、もっと小さなメモ帳(半分のサイズ)を使えないか?という試みです。

4 ビットにすると何が得られる?

  • 計算速度が2〜3 倍にアップ。
  • 必要なメモリ(作業机の広さ)が半分になる。
  • 電気代が激減。

しかし、難所がありました
4 ビットという狭いメモ帳に、複雑な数値を書き込むと、**「重要な数字が丸められて消えてしまう(精度低下)」**という問題が起きました。特に、AI が学習する過程で「極端に大きな数字(アウトレイヤー)」が現れると、メモ帳がパンクして AI がバカになってしまいました。


2. 解決策:NVFP4 と「4 つの魔法」

NVIDIA は、単にビット数を減らすだけでなく、**「4 つの工夫(魔法)」**を組み合わせることで、この問題を解決しました。

① 重要な部分は「高級ノート」で書く(混合精度)

  • 例え: 料理を作る際、下ごしらえは安価な紙にメモしますが、**「最後の味付け(仕上げ)」**だけは、高価で正確なレシピ帳を使います。
  • 技術: AI の計算の大部分は 4 ビットで処理しますが、**「最も敏感で重要な最後の数層」**だけは、従来の高精度(BF16)のまま残します。これにより、全体の精度が保たれます。

② 数字を「シャッフル」して均す(ランダム・アダマール変換)

  • 例え: 教室で、ある生徒だけが「100 点」で、他の全員が「10 点」だとします。この「100 点」だけだと、平均値の計算が狂ってしまいます。
    そこで、**「全員の名前をランダムに入れ替えて、点数を分散させる」**ことを考えます。そうすれば、極端な「100 点」も全体に溶け込み、計算が安定します。
  • 技術: 数字の並びをランダムに混ぜることで、極端な大きな数字(アウトレイヤー)を均し、4 ビットの狭い範囲に収まりやすくします。

③ 前後で「同じルール」を使う(2 次元スケーリング)

  • 例え: 料理のレシピ(前向き計算)と、その料理を分析する手順(後ろ向き計算)で、「計量カップのサイズ」がバラバラだと、味がおかしくなります。
    「前も後ろも、同じ 16 個のブロック単位で計量する」というルールを徹底しました。
  • 技術: AI が学習する際、前向きと後ろ向きで数値の扱い方がズレると学習が崩壊します。これを防ぐために、ブロックのサイズを統一しました。

④ 四捨五入を「サイコロ」で決める(確率的丸め)

  • 例え: 「1.4」を整数にするとき、いつも「1」にすると、少しずつ「小さくなる」誤差が溜まります。
    そこで、「1.4」なら、サイコロを振って「1」か「2」にランダムに決めることにします。長期的に見れば、誤差が相殺されて正確になります。
  • 技術: 数字を丸める際、決定的なルールではなく「確率」を使うことで、学習の方向性が偏るのを防ぎます。

3. 実験結果:「4 ビット」は本当に成功した?

NVIDIA は、120 億個のパラメータを持つ巨大な AI を、10 兆個の単語で学習させました。これは、4 ビット精度での学習としては世界最長の記録です。

  • 結果:
    • 正解率: 8 ビット(FP8)で学習した AI と、4 ビット(NVFP4)で学習した AI の正解率はほぼ同じでした。
    • 例え: 8 ビットで勉強した学生が「MMLU(高度な知識テスト)」で 62.62 点を取ったのに対し、4 ビットで勉強した学生は62.58 点。差はほぼゼロです。
    • 損失(エラー): 学習中の誤差も、8 ビットとほとんど変わらない曲線を描きました。

結論:
「4 ビットで巨大な AI を作っても、賢さは落ちない」ということが証明されました。


4. 比較:NVFP4 vs 従来の 4 ビット(MXFP4)

実は、4 ビットの形式には「MXFP4」という別の規格もありました。

  • MXFP4: 従来の方法。
  • NVFP4: 今回の新しい方法(より細かいブロック、より正確なスケーリング)。

結果:
NVFP4 の方が、少ないデータ量で同じレベルの性能を出せました。

  • 例え: MXFP4 で同じ成績を出すには、NVFP4 より36% 多いデータ(余計な勉強時間)が必要でした。
  • 意味: NVFP4 の方が、時間とコストの節約において圧倒的に優れていることがわかりました。

まとめ:未来への扉

この技術(NVFP4)は、**「AI 開発の民主化」**をもたらす可能性があります。

  • 以前: 最先端の AI を作るには、超巨大なデータセンターと莫大な予算が必要だった。
  • 今後: この技術を使えば、より少ない計算資源で、より速く、より安く、同じくらい賢い AI を作れるようになります。

まるで、**「高級レストランの味を、家庭用のコンロと安価な食材でも再現できるようになった」**ようなものです。これにより、未来の AI はもっと身近で、もっと効率的なものになるでしょう。

NVIDIA は、この技術をすでに最新の GPU(Blackwell アーキテクチャ)でサポートしており、Transformer Engine というソフトウェアを通じて利用可能になっています。