原著者： Guanghan Wang, Gilad Turok, Yair Schiff, Marianne Arriola, Volodymyr Kuleshov

公開日 2026-06-02✓ Author reviewed ⓘ

📖 1 分で読めます☕ さくっと読める

原著者： Guanghan Wang, Gilad Turok, Yair Schiff, Marianne Arriola, Volodymyr Kuleshov

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

ある非常に才能のある芸術家を想像してみてください。その芸術家は、白紙のキャンバスから始めて、細部を少しずつ描き加えていくことで傑作を描き上げます。これが**拡散言語モデル（Diffusion Language Models: DLMs）**の仕組みです。従来のAIライターが、レンガを積み上げるように一単語ずつ文章を構築していくのとは異なり、これらのモデルは「ノイズ」（古いテレビの砂嵐のようなもの）から始まり、それを段階的に「デノイズ（ノイズ除去）」していくことで、一貫した物語や解決策を浮かび上がらせます。

この論文は、これらの芸術家に難しいパズル（数学の問題や論理ゲームなど）をより上手く解かせるための新しい学習手法であるd2を紹介しています。以下に、その仕組みを簡単な比喩を用いて解説します。

問題点：「盲目の」批評家

AIに推論を教えるために、研究者たちは**強化学習（RL）**を使用します。これは、AIがパズルを解こうとするゲームのようなもので、「批評家」（報酬システム）がスコアを与えます。AIが良いスコアを獲得すれば、モデルはその行動を繰り返すように学習します。

しかし、ここには落とし穴があります。拡散モデルにおいて、効果的に学習するためには、AIがその特定の単語の連なりを生成する確率が「どの程度であったか」を正確に知る必要があります。

従来のAI（自己回帰型）の場合： これは手紙を書くようなものです。最初に何を書き、次に何を書き、その次に何を書いたのかが明確に分かります。そのため、「尤度（ゆうど／もっともらしさ）」を計算するのは簡単で高速です。
拡散AIの場合： これは、石の塊から彫刻が浮かび上がってくる様子を見ているようなものです。AIは何千もの微細な調整を行います。最終的な彫刻の正確な確率を知るためには、理論上、彫刻のプロセスにおけるすべてのフレームを巻き戻して再生しなければなりません。学習のステップごとにこれを行うことは、計算量的に不可能（遅すぎてコストがかかりすぎる）なのです。

この「スコア」を正確に計算できなかったため、以前の手法は推測に頼っており、結果として推論能力が低くなっていました。

解決策：d2（スマートなスコアキーパー）

著者らは、非常に効率的なスコアキーパーとして機能するフレームワークd2を開発しました。これは、動画を毎回再生することなく、AIのプロセスの「尤度」を算出します。彼らは、2種類の異なる芸術家に対して、2つの異なるツールを用意しました。

ツール1：d2-AnyOrder（「魔法の鏡」）

一部の拡散モデルは特殊で、最終的な画像をどのような順序でも प्रकटさせることができます。目から描き始めて、次に鼻、次に背景を描いても、あるいはその逆でも、正しく機能します。

比喩： 魔法の鏡を想像してみてください。絵が描かれる過程をステップごとに観察する代わりに、完成した絵をパッと見るだけで、アーティストが各ステップで何を（どのような確率で）出力したかを、一度にすべて即座に把握できるのです。
結果： d2-AnyOrderと呼ばれるこのツールは、たった一度のコンピュータ・パス（計算）で完璧なスコアを算出します。これは驚異的に正確であり、AIの学習を極めて高速化させます。

ツール2：d2-StepMerge（「チャンク戦略」）

有名なLLaDAのような、ほとんどの主要な拡散モデルは、任意の順序で描くことはできず、特定のシーケンスに従う必要があります。彼らには「魔法の鏡」がありません。

比喩： 動画を一度にすべて見ることはできないため、動画を**チャンク（塊）**に分割します。すべてのフレームを監視する代わりに、10秒間のセグメントごとに動画を観察します。各セグメントのスコアを推定し、それらを合算します。
結果： d2-StepMergeと呼ばれるこのツールは、近似値を用いるものです。完璧ではありませんが、著者らは数学的にエラーが小さく制御可能であることを証明しました。これは、わずかな正確さを犠牲にする代わりに、大幅なスピードアップを実現しており、標準的なモデルにとって実用的なものとなっています。

結果：初心者からグランドマスターへ

研究者らは、これらのツールをAIにとって最も困難なパズルでテストしました：

論理ゲーム： 数独（Sudoku）とCountdown（数学ゲーム）。
数学問題： GSM8KおよびMATH500（数学的推論の標準的なベンチマーク）。

成果：

追加の「カンニングペーパー」（教師あり微調整）なしで： d2フレームワークは、従来のどの手法よりも優れた推論能力をモデルに教え込みました。
競合への勝利： 数独とCountdownのテストにおいて、d2で学習したモデルはそれぞれ**92%および56%**に近いスコアを達成し、22%や42%付近で停滞していた従来の一流の手法を圧倒しました。
数学の習熟： 複雑な数学ベンチマークにおいて、d2は新たな「SOTA（最先端）」の記録を樹立しました。これは、拡散モデルが従来のテキスト生成モデルと同等の推論能力を持ちつつ、より高速で制御しやすいという利点を持っていることを証明しています。

まとめ

この論文は次のように述べています。「我々は、拡散AIモデルに明確に思考させる方法を見つけた。」

従来のAIの成果を採点する方法は、あまりにも遅く、不正確であったことに気づきました。
彼らはd2という新しい採点システムを発明しました。これは、特殊なモデルに対しては完全に正確であり、標準的なモデルに対してはスマートに効率的です。
この新しいシステムを用いることで、AIモデルは答えを事前に教わることなく、論理や数学のパズルを以前よりも大幅に上手く解けるようになりました。

要するに、d2は拡散モデルに対して、自分自身の思考プロセスを正確に「振り返る」能力を与え、ミスから学び、真の推論エキスパートへと進化させることを可能にしたのです。

技術要約: d2: 拡散言語モデルにおける推論能力の向上：軌跡尤度推定によるアプローチ

問題提起

拡散言語モデル（DLM）、特にマスク型DLMは、その制御可能性と並列生成能力により、自己回帰（AR）モデルに代わる競争力のある選択肢として台頭しています。しかし、RL（強化学習）を通じてそれらの推論能力を強化することは依然として困難です。RLはARモデルにおいて推論を誘発するための標準的な手法となっていますが、DLMへの適用は容易ではありません。核心的な困難は、方策勾配（policy gradient）の定式化にあります。トークンの位置ごとに尤度が綺麗に分解できるARモデルとは異なり、拡散の軌跡（trajectory）の正確な尤度を計算することは計算量的に困難です。ナイーブにこれらの尤度を計算しようとすると、 $T$ 回のフォワードパス（ $T$ は拡散ステップ数）が必要となり、GRPO（Group Relative Policy Optimization）のような標準的な方策勾配法を用いるには計算コストが極めて高くなります。既存の近似手法はしばしば大きなバイアスを導入し、結果として不適切な方策更新を招きます。

手法

著者らは、マスク型DLMに特化した推論フレームワークである d2 を提案します。このフレームメントは、サンプリング軌跡の尤度の正確な推定を明示的に必要とする、GRPOの目的関数から導出された新しい方策勾配アルゴリズムを中心としています。計算上のボトルネックに対処するため、本論文ではモデルのアーキテクチャに応じた一連の推定器を提案しています。

1. 理論的基礎

著者らは、時間潜在変数（time latents）にわたって尤度を周辺化し、重要度サンプリングを用いることで、マスク型DLMのためのGRPOスタイルの目的関数を導出しました。導出された勾配分解（定理3.1）は、現在のモデル $\pi_\theta$ と古いモデル $\pi_{old}$ の間の軌跡尤度の比に依存します。ここでの鍵となる課題は、 $\pi(x_{0:T})$ をいかに効率的に評価するかです。

2. 推定器

d2フレームワークは、モデルのアーキテクチャに基づいた2つの具体的な推定器を提供します。

d2-AnyOrder (正確な推定器):
- 対象: Any-order decoding (AO-dLLMs) をサポートするDLM。これらのモデルは、アテンションマスクが特定の因果関係（独立なマスクと順序の因果性）を遵守している限り、任意の順序でトークンをデコードできます。
- メカニズム: 特定の位置エンコーディングとアテンションマスクを持つ長さ $2L$ のシーケンス（クリーンなトークンとマスクされたトークンの結合）を構築します。これにより、モデルは単一のフォワードパスですべてのトークンの条件付き尤度を計算できます。
- 制限: 標準的なマスク型DLM（LLaDAなど）は、ネイティブではany-order decodingをサポートしていません。彼らの学習目的関数は、この推定器がバイアスなしで動作するために必要なアテンション特性を保証していません。
d2-StepMerge (近似的な推定器):
- 対象: any-order decodingをサポートしていない標準的なマスク型拡散モデル（MDM）。
- メカニズム: ブロック複合尤度（block composite likelihood）に着想を得たこの推定器は、 $T$ ステップの軌跡を $N$ 個の連続する時間セグメントに分割することで、軌跡の尤度を近似します。すべてのステップを評価する代わりに、各セグメント内でアンマスクされたトークンの尤度を、セグメントごとの単一フォワードパスを用いて評価します。
- トレードオフ: フォワードパスの回数を $T$ から $N$ へと削減します。本論文では、近似誤差（KLダイバージェンス）に関する理論的な上限（定理4.1）を提示しており、誤差が $N$ の増加に伴って単調に減少することを示し、計算量とバイアスのトレードオフを定量化しています。

主な貢献

d2フレームワーク: 正確な軌跡尤度推定に依存するGRPO目的関数を導出した、マスク型DLMのための原理的なRLポストトレーニングフレームワーク。
d2-AnyOrder: AO-dLLMのための、単一パスによる正確な尤度推定器。バイアスのない尤度推定が、RLの設定において既存のベースラインを大幅に上回ることを実証した。
d2-StepMerge: 解析的に誤差が抑えられた、標準的なMDMのための決定論的なマルチパス推定器。diffu-GRPOのような従来の手法と比較して、優れた効率性と精度のトレードオフを提供する。
実証的検証: 教師ありのChain-of-Thought (CoT) ファインチューニングに頼ることなく、推論ベンチマークにおいてSOTA（State-of-the-Art）の性能を達成したことを示す広範な実験。

実験結果

著者らは、論理推論（Countdown, Sudoku）および数学的推論（GSM8K, MATH500）のベンチマーク、ならびにコーディングタスクと毒性制御においてd2を評価しました。

AO-dLLMにおける性能: any-order decodingをサポートするモデル（Eso-LM, Set Diffusion, およびカスタムのAny-Order Causal LLaDA）に適用した場合、d2-AnyOrder はDDPOやdiffu-GRPOといったベースラインを大幅に上回りました。例えば、Qwen3-1.7BベースのGSM8Kにおいて、diffu-GRPOの精度が63%であったのに対し、d2-AnyOrderは67%の精度を達成しました。
標準的なMDMにおける性能: 標準的なマスク型DLMである LLaDA-8B-Instruct に適用した場合、d2-StepMerge ( $N=16$ $N = 16$ ) は以下の通り、新たなSOTAを記録しました：
- Sudoku: 91.9% (SFTを用いたd1の22.1%に対し)
- Countdown: 56.6% (d1の42.2%に対し)
- GSM8K: 85.0% (d1の82.1%に対し)
- MATH500: 41.6% (wd1の39.0%に対し)
  特に、これらの結果は追加のCoTデータを用いた教師ありファインチューニングを行わずに達成されました。
汎用性: 本手法は他のアーキテクチャ（Dream 7B）やタスク（HumanEval, MBPP）にも汎用性が高く、diffu-GRPOと比較して優れた長さの汎化性能を示しました。
アブレーション解析: 実験により、正確な尤度（d2-AnyOrder）は近似値よりも高い忠実度の信号を提供すること、および最適な $N$ （例：16）を用いたd2-StepMergeが、極端な値と比較して計算コストと精度のバランスをより良く取れることが確認されました。

意義と主張

本論文は、正確な軌跡尤度推定が、DLMにおける推論のためのRLの成功の中心であると主張しています。著者らは、従来のメソッドが最適な性能を発揮できなかったのは、バイアスのある、あるいは計算コストの高い尤度推定に依存していたためであると述べています。

理論的貢献: マスク型DLMのためのGRO目的関数の初の厳密な導出を行い、ステップマージ戦略における近似誤差の理論的境界を確立しました。
実用的影響: d2は、適切にRLで訓練されれば、大規模な教師ありCoTデータがなくても、拡散モデルが自己回帰モデルに匹敵、あるいはそれを凌駕する推論能力を獲得できることを証明しました。
今後の展望: 著者らは、d2-AnyOrderは優れているものの、その適用範囲は現在、any-order decoding用に特別に訓練されたモデルに限定されていると指摘しています。彼らは、exact estimatorを最大限に活用するために、より強力で汎用的なany-order dLLMの開発が自然な次のステップであると考えています。

結論として、d2は論理および数学的推論タスクにおいてDLMの新たなSOTAを確立し、拡散ベースの言語モデルの推論の可能性を解き放つための、尤度推定戦略の有効性を検証しました。

d2: Improving Reasoning in Diffusion Language Models via Trajectory Likelihood Estimation