Bridging Draft Policy Misalignment: Group Tree Optimization for Speculative Decoding

本論文は、推論時の木構造と訓練時の単一パスの不一致という課題を解決し、ターゲットモデルによる受諾長を直接最適化する「Group Tree Optimization (GTO)」を提案することで、既存の最先端手法 EAGLE-3 を凌駕する推論速度向上を実現したことを報告しています。

Shijing Hu, Jingyang Li, Zhihui Lu, Pan Zhou

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、AI(大規模言語モデル)が文章を書くスピードを劇的に上げるための新しい技術「GTO」について書かれています。

専門用語を避け、**「優秀な指揮者と、その指示に従う見習い」**という物語を使って、わかりやすく説明しましょう。

🎭 物語:指揮者と見習いの「ズレ」

AI が文章を書くとき、通常は**「1 文字ずつ、慎重に確認しながら」**進みます。これはとても正確ですが、非常に時間がかかります。

これを加速するために、**「見習い(ドラフトモデル)」という存在がいます。見習いは「次は『りんご』、その次は『美味しい』ってなるはず!」と、数文字先まで先読みして提案します。そして、「指揮者(ターゲットモデル)」**が「あ、見習いの予想は的中したね!」と確認し、一度に複数の文字を確定させます。これが「スペキュレイティブ・デコーディング(推測的デコーディング)」という技術です。

❌ 従来の問題点:「練習と本番」の不一致

これまでの技術には、大きな**「ズレ」**がありました。

  • 練習(トレーニング): 見習いは「一番確実な 1 本の道」だけを練習させられていました。「次は『りんご』が 90% 確実だから、それだけを選べ」という**「単一の道」**の練習です。
  • 本番(デコーディング): しかし、実際の現場では、見習いは**「木のような分岐路」**を作ります。「『りんご』かもしれないし、『みかん』かもしれないし、『バナナ』かもしれない」と、複数の可能性を並べて、指揮者が「どれが一番良さそうか」を選んで確認します。

ここが問題!
見習いは「一番確実な 1 本」だけを練習して上手になりましたが、本番では「複数の選択肢から選ぶ」ことが求められています。
まるで、**「一本道のマラソン練習しかしていない選手に、森の中で分岐路を判断するトレイルランニングをさせられた」**ような状態です。練習と本番がズレているため、見習いがせっかく頑張っても、指揮者の期待通りに機能せず、スピードアップの効果が半減していました。


✨ 新しい解決策:GTO(グループ・ツリー最適化)

この論文の著者たちは、この「ズレ」を解消する新しい方法**「GTO」**を提案しました。

1. 練習方法を変える:「木」全体を評価する

GTO では、見習いの練習方法を変えます。

  • 以前: 「1 本の道」が正解かどうかだけを見る。
  • GTO: 「木全体(複数の分岐路)」を見て、**「指揮者が最終的に何文字まで認めてくれるか(受け入れ長さ)」**を評価基準にします。

つまり、「一番確実な道」だけでなく、「もし『みかん』を選んだらどうなるか」「『バナナ』ならどうなるか」という**「木全体のパフォーマンス」**を練習でシミュレーションし、それを最大化するように訓練します。これにより、練習と本番が完全に一致します。

2. 安定した学習:「グループ対決」

「木全体」を評価するのは計算が難しく、学習が不安定になりがちです。そこで GTO は**「グループ対決」**という工夫をします。

  • 見習いの「今の木」と、「過去の優秀な見習い(リファレンス)」が作った木を、似たような文脈でグループごとに比較します。
  • 「今の木の方が、リファレンスより 1 文字多く受け入れられた!」という**「差分」**を評価して褒めます。
  • これにより、文脈の難易度による偏りを取り除き、安定して上手くなるように導きます。

🚀 結果:どれくらい速くなった?

この新しい練習方法(GTO)を取り入れた結果、以下のような素晴らしい成果が出ました。

  • 受け入れられる文字数が増えた: 指揮者が一度に認める文字数が、これまでの最高峰の技術(EAGLE-3)よりも7.4% 増えました。
  • 処理速度が向上: 結果として、AI の回答生成速度が7.7% 速くなりました。
  • どんな分野でも効果的: 会話、プログラミング、数学の問題など、あらゆる分野で効果がありました。

💡 まとめ

この論文が伝えたかったことはシンプルです。

「AI の『見習い』を、本番と同じ『木のような思考』で練習させれば、もっと速く、賢く動けるようになる」

これまでの技術は「一本道の練習」をしていましたが、GTO は「森での迷路攻略」を練習させることで、AI の推論スピードをさらに引き上げました。これは、AI が私たちに回答を返すまでの待ち時間を短縮し、より快適な体験をもたらすための重要な一歩です。