Sparsity Forcing: Reinforcing Token Sparsity of MLLMs

本論文は、異なるトークン予算で複数のロールアウトを実行し、効率性と正答性を組み合わせた報酬に基づいて強化学習を行う「Sparsity Forcing」というポストトレーニング手法を提案し、MLLM の推論メモリを最大 3 倍、デコード速度を最大 3.3 倍向上させながら、精度を維持したままトークン削減率を 20% から 75% まで引き上げることに成功したことを報告しています。

Feng Chen, Yefei He, Lequan Lin, Chenhui Gou, Jing Liu, Bohan Zhuang, Qi Wu

公開日 2026-03-02
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が画像や動画を見る時、いかにして『無駄な情報』を捨てて、もっと速く、もっと安く、でも賢く答えられるようにするか」**という問題に対する新しい解決策を提案しています。

タイトルは**「スパースティ・フォーシング(Sparsity Forcing)」、つまり「あえて情報を絞り込む力」**です。

以下に、専門用語を排し、身近な例えを使って解説します。


🎒 1. 問題:AI は「荷物が重すぎる」

Multimodal Large Language Models(MLLMs)という最新の AI は、画像や動画を見ながら質問に答えることができます。しかし、高解像度の画像や長い動画を見ると、AI の頭(メモリ)には**膨大な数の「トークン(情報の断片)」**が詰め込まれてしまいます。

  • 例え話:
    Imagine 想像してください。ある探偵(AI)が事件現場(画像)を調べる時、**「地面の砂粒一つ一つ、空の雲の形、遠くの車のナンバープレートまで、すべてをメモして持ち運ぶ」**とします。
    これでは、探偵は重すぎて動けず、答えを出すのに時間がかかりすぎます。これが現在の AI が抱える「計算コストが高すぎる」という問題です。

🛠️ 2. 既存の解決策の限界

これまで、この問題を解決するために「必要なものだけ選ぶ」方法が試されてきました。

  • 既存の方法: 「AI が自然に『あ、これは重要だ』と感じるものだけ残す」方法です。
  • 限界: しかし、これは AI の「自然な癖」に頼っているだけなので、「半分くらい捨てれば大丈夫」というラインまでしか減らせません。 さらに捨てようとすると、AI が「え?あの重要な情報がない!」と混乱して、間違った答えを出してしまいます。

💡 3. 新しい解決策:「スパースティ・フォーシング」

この論文が提案するのは、AI に**「あえて、もっと少ない情報で正解を出す練習」**をさせる新しいトレーニング方法です。

🎮 仕組み:「試行錯誤のゲーム」

この方法は、AI に対して**「同じ質問に対して、あえて情報量を変えて何回も答えさせて、一番良い組み合わせを見つける」**というゲームをさせます。

  1. 複数のシナリオを作る:

    • A さん(AI):「情報の 80% を見て答えなさい」
    • B さん(AI):「情報の 30% しか見てはいけない」
    • C さん(AI):「情報の 10% しか見てはいけない」
    • ...と、それぞれ異なる「情報量(予算)」で答えさせます。
  2. 評価と報酬:

    • もし C さん(10% しか見ていない)が正解を出せたら、**「すごい!少ない情報で正解できた!」**として、ご褒美(報酬)をあげます。
    • もし B さん(30%)が正解でも、C さんが正解なら、C さんのほうが**「より効率的」**なので、C さんにより大きなご褒美をあげます。
    • もし誰も正解できなければ、「もっと情報が必要だ」と判断します。
  3. 学習:
    この「少ない情報で正解する」成功体験を繰り返すことで、AI は**「どの情報が本当に重要で、どれを捨てても大丈夫か」**を自ら学び取ります。

🧠 例え話:「料理の味見」

  • 従来の AI: 鍋の中にあるすべての具材(野菜、肉、スパイス)をすべて口に入れて味見してから、「これはカレーだ」と言います。
  • スパースティ・フォーシング: 「具材を 10% しか口に入れちゃいけない」というルールで練習させます。最初は失敗しますが、練習を繰り返すうちに**「カレーの味は、実は『玉ねぎ』と『スパイス』の 2 種類だけあればわかるんだ!」と気づきます。
    結果、
    「必要なものだけ」**を選んで食べるようになり、胃袋(メモリ)も空くし、食べる時間(処理速度)も劇的に短縮されます。

🚀 4. どれくらいすごい?(成果)

この方法を試した結果、驚くべき効果が得られました。

  • 情報の削減: 画像や動画の情報を**「75% も減らしても」**、AI の性能はほとんど落ちませんでした。
    • (例:100 個の情報を 25 個に減らしても、正解率は同じ!)
  • 速度アップ: 答えを出すまでの時間が**「最大 3.3 倍速」**になりました。
  • メモリ節約: 必要なメモリ容量が**「最大 3 分の 1」**になりました。

🌟 まとめ

この論文は、AI に**「無駄な荷物を捨てて、身軽に走る方法」**を教える新しいトレーニング法を紹介しています。

  • 昔: 「全部見てから考えろ」→ 重くて遅い。
  • 今: 「あえて捨てて、必要なものだけ見ろ」→ 軽くて速い、でも賢い。

これにより、スマホやタブレットのような性能の低い端末でも、高画質な動画や複雑な画像をリアルタイムで理解できるようになる未来が近づいています。まるで、**「重たいリュックを捨てて、軽装で山を登る」**ような、スマートな AI の進化です。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →