Not all tokens are needed(NAT): token efficient reinforcement learning

この論文は、大規模言語モデルの強化学習において、Horvitz-Thompson 再重み付けを用いて生成トークンの一部のみで偏りのない勾配を推定する「NAT(Not All Tokens Are Needed)」フレームワークを提案し、計算コストやメモリ使用量を削減しながらフルトークン学習と同等の性能を達成することを示しています。

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、人工知能(AI)が「長い思考プロセス」を学ぶ際の**「もったいないな」を解消する**画期的な方法について書かれています。

タイトルは**「NAT(Not All Tokens are Needed)」、つまり「すべての単語(トークン)が必要じゃない」**というものです。

以下に、難しい専門用語を避け、日常の例え話を使って簡単に解説します。


🧠 背景:AI は「考えすぎ」で疲れている

最近の AI(大規模言語モデル)は、数学の問題や複雑なタスクを解くとき、人間のように「ステップバイステップ」で考えることができます(これを「思考の連鎖」と呼びます)。

しかし、ここで大きな問題が起きます。
AI が長い文章を生成して学習する際、「生成したすべての単語」に対して、AI は「正解だったか間違っていたか」を振り返り、脳(メモリ)をフル回転させて修正しようとするのです。

  • 例え話:
    料理のレシピを覚えるために、料理人が「玉ねぎを切る」「炒める」「塩を振る」「火を止める」「盛り付ける」という 100 の手順をすべて記録しました。
    味見をした結果、「塩が少し足りなかった」という評価が返ってきました。
    従来の AI は、「玉ねぎを切った瞬間」から「盛り付け」まで、すべての 100 の手順を頭の中で 1 回ずつやり直して、どこを直せばいいか計算します。

    でも、よく考えてみてください。「塩を振る」直前の手順や、盛り付けの最後の数歩は、味(正解)に直接関係ないかもしれません。なのに、AI はそれらすべてを計算し直しているのです。これでは、計算リソース(GPU メモリや時間)が大量に無駄遣いされてしまいます。

💡 解決策:NAT(Not All Tokens are Needed)

この論文が提案する「NAT」は、**「すべての手順を振り返る必要はないよ!」**という考え方です。

AI が生成した長い文章の中から、「本当に学習に必要そうな部分」だけをランダムに選び出し、その部分だけを使って学習(修正)するという方法です。

🎯 2 つの新しい「選び方」

論文では、この「選び方」を 2 つの簡単な方法で実現しました。

  1. ランダムな抜き取り(URS):

    • 文章全体から、サイコロを振って「ここは勉強する」「ここは飛ばす」を決めます。
    • 効果: 計算量は減りますが、AI が「前の文脈」を読み飛ばせないため、メモリの節約効果は限定的です。
  2. ランダムな「途中まで」切り取り(RPC):

    • これが今回の主役です。
    • 「この文章は、前半の 50% までしか読まないで勉強しよう!」と、先頭から連続した部分だけをランダムに切り取って学習します。
    • 例え話: 料理のレシピを学ぶとき、「玉ねぎを切る」から「炒める」までだけを見て、「塩を振る」以降は最初から読まないことにします。
    • すごい点: これなら、AI は「後半の文」を頭の中に一度も展開(メモリに展開)する必要がなくなります。つまり、メモリの圧迫が劇的に減ります。

⚖️ 重要なポイント:「偏り」をなくす魔法

「後半を捨てちゃっていいの?AI が変な方向に学習しない?」と心配になるかもしれません。
ここで、この論文の**「魔法の重み付け(ホーヴィッツ=トンプソン推定)」**が登場します。

  • 仕組み:
    「後半を捨てた分、前半の学習結果を少しだけ『重く』して評価する」という計算を行います。
    • 例:「100 回中 50 回しか後半を見ていないなら、その 50 回の学習結果を 2 倍の重みで評価する」
  • 結果:
    数学的に証明されている通り、「すべてを見た場合」と「一部だけを選んで重み付けした場合」の学習結果は、長期的には全く同じになります。
    つまり、**「質を落とさずに、コストだけ下げる」**ことが可能になったのです。

📊 実際の効果:どれくらい速くなる?

実験結果(Qwen3-8B という AI モデルを使った場合)によると:

  • メモリ使用量:18% 削減(ピーク時のメモリが圧迫されにくくなり、より大きなモデルや長い文章を扱えるようになります)。
  • 学習時間:29% 短縮(1 ステップあたりの計算が速くなりました)。
  • 性能: 数学の問題を解く正解率は、従来の「すべて見る方法」と全く同じレベルを維持しました。

🌟 まとめ

この論文が伝えたかったことはシンプルです。

「AI に長い思考プロセスを学ばせる際、すべての単語を丁寧に振り返る必要はありません。ランダムに『前半だけ』を切り取って、少し計算を工夫すれば、同じように賢くなりながら、計算コストとメモリを大幅に節約できます。」

これは、AI がもっと複雑で長い思考(例:数時間かかるような研究やプログラミング)をできるようになるための、**「賢い節約術」**と言えます。これにより、より高性能な AI を、より安く、速く作れるようになるでしょう。