原著者： Chien Van Nguyen, Chaitra Hegde, Van Cuong Pham, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen

公開日 2026-05-14✓ Author reviewed ⓘ

📖 1 分で読めます☕ さくっと読める

原著者： Chien Van Nguyen, Chaitra Hegde, Van Cuong Pham, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

長い複雑な物語を書くことを想像してみてください。それには二つの方法がありますが、どちらも重大な欠点があります。

「一語ずつ」の作家（自己回帰モデル）: この作家は非常に賢く正確です。書く前に一語一語を慎重に考え、物語が完璧に整合性を取るよう保証します。しかし、彼らは遅いです。一語を書き終え、メモを確認し、次の語について考え、それを記述する必要があります。過ちを犯すことを恐れているため、スピードを上げることができません。
「バッチ書き」の作家（拡散モデル）: この作家は、一度に一文全体を書こうとします。非常に速いです！しかし、複数の語を同時に推測し、それぞれを慎重に確認しないため、論理的な誤りを犯したり、筋を失ったり、意味不明な文章を書いたりすることがよくあります。

Orthrusは、両者の長所を組み合わせる新しいフレームワークです。これにより、慎重な作家の精度を失うことなく、一文全体を一度に書くことができる「二重の声」システムを実現します。

その仕組みを、簡単な比喩を用いて説明します。

「建築家と建設業者」の比喩

AI モデルを、建築家と建設業者という二人の作業員がいる建設現場だと考えてください。

建築家（凍結された LLM）: これは、元々高度に訓練された超賢いモデルです。建物がどのようにあるべきかを正確に知っている専門家です。彼らは「凍結」されており、このプロセス中に変化したり新しいことを学んだりすることはありません。完璧な設計図を提供するだけです。
建設業者（拡散モジュール）: これはチームに追加された新しい軽量な作業員です。彼の仕事は、レンガ（トークン）を素早く敷き詰めることです。

彼らがどのように協力するか:

舞台設定（プリフィリング）: まず、建築家がプロンプト（指示）全体を読み、完璧で高忠実度の「記憶マップ」（KV キャッシュと呼ばれる）を作成します。このマップには、物語の残りを構築するために必要なすべての文脈が含まれています。
並列スプリント（生成）: 建築家が一語ずつレンガを敷くのではなく、建設業者が建築家のマップを見て、一度にレンガ一列分（例えば 32 個）をすべて同時に敷き詰めようとします。
安全確認（コンセンサス）: ここが魔法の部分です。建設業者の作業が承認される前に、建築家が即座に建設業者のバッチをチェックします。
- 建設業者が建築家の完璧な論理に従って次の語を正しく推測した場合、建築家は「素晴らしい！そのままにしよう」と言います。
- 建設業者が誤って推測した場合、建築家は「いや、それは正しくない」と言い、その特定の語を即座に修正します。
- このプロセスは次のバッチについても繰り返されます。

なぜこれが画期的なのか

メモリの無駄なし: 通常、二つのモデルが動作する場合、二組のメモリのノートが必要になります。Orthrus は巧妙で、建設業者と建築家が全く同じ記憶マップを共有します。建設業者は独自のノートを作る必要はなく、建築家のものを見るだけです。これにより、膨大なコンピュータメモリが節約されます。
品質の低下なし: 建築家（元の賢いモデル）がすべての語について最終決定権を持っているため、物語は建築家が語一語ずつ書いた場合と全く同じ品質です。「ドリフト」や品質の低下は発生しません。
圧倒的な速度: 建設業者に一度に 32 個のレンガを敷かせ、それを即座に確認するだけで済むため、Orthrus は遅い一語ずつの方法に比べて最大 7.8 倍高速です。

結果

この論文は、数学の問題解決（MATH-500）、コード作成、論理パズルの解答などの難しいタスクでこれをテストしました。

速度: 標準的なモデルよりも大幅に高速でした。
精度: 元の遅いモデルと同等の精度でした。
効率性: モデルパラメータのごく一部（約 16%）のトレーニングのみで済み、既存の AI システムに追加する際のコストと手間が大幅に削減されました。

要するに、Orthrusは、物語の次の 30 語を即座に推測できる速読家を雇うようなもので、その横には即座に誤りを修正する厳格な編集者が立っています。その結果、驚異的な速度で書かれながら、完璧に正確な物語が完成します。

技術的サマリー：Orthrus – 双視点拡散によるメモリ効率のよい並列トークン生成

1. 問題定義

自己回帰（AR）型大規模言語モデル（LLM）は、高忠実度な生成と堅牢な推論能力により、自然言語処理において現在支配的な地位を占めています。しかし、デコーディング段階において根本的な非効率性を抱えています。すなわち、トークン生成が厳密に逐次的であることです。プリフィリング段階ではプロンプトを並列処理できますが、生成段階では $N$ 個のトークンを生成するために $N$ 回の異なるフォワードパスが必要です。この逐次的な依存関係はメモリ帯域幅のボトルネックを生み出し、ハードウェアの未活用と高い推論遅延を引き起こします。

一方、拡散言語モデル（DLM）は、トークンのブロックを同時にノイズ除去することで、ネイティブな並列生成を提供します。しかし、既存の DLM は以下の重大な課題に直面しています：

性能の低下： 「条件付きドリフト」により、同規模の AR モデルよりも性能が劣ることが多く、特に複雑な推論タスクにおいて顕著です。これは、条件付き独立性の仮定が厳密な因果的依存関係を違反することに起因します。
トレーニングコスト： ベースラインの整合性を達成するには、数百億トークン規模の膨大なトレーニングデータセットや、継続的なプリトレーニングが必要となることが多いです。
アーキテクチャの乖離： 事前学習済みの AR モデルを拡散フレームワークに適応させる際、ベース重みが変更され、元のモデルの正確な予測分布が破壊され、その推論能力に一致しないことがよくあります。

核心的な課題は、AR モデルの高忠実度な因果的条件付けと、拡散モデルの並列デコーディング速度を、いずれも犠牲にすることなく統合することです。

2. 手法：Orthrus アーキテクチャ

Orthrus は、単一のトランスフォーマー内でこれらのパラダイムを統合する双アーキテクチャフレームワークを提案します。AR バックボーンを置き換えるのではなく、Orthrus は凍結された事前学習済みの AR モデルに、軽量で学習可能な拡散モジュールを付加します。

2.1 統合された双視点アテンション

このアーキテクチャは、共有キー・バリュー（KV）キャッシュ上で動作する 2 つの異なるアテンションパスを導入します：

凍結された AR ヘッド（青いパス）： このパスは厳密に凍結されたままです。その唯一の機能は、プリフィリング段階中にコンテキストを処理し、高忠実度な因果的 KV 表現（ $K_{AR}, V_{AR}$ ）を構築することです。これは正確な予測分布のための「教師」として機能します。
学習可能な拡散ヘッド（赤いパス）： AR 対応ヘッドから初期化された軽量モジュールが、AR アテンションヘッド alongside に注入されます。これは高速な並列生成のために特別に設計されています。

2.2 トレーニング：双パスブロックマスキング

トレーニングは、拡散ビューの並列予測を、凍結された AR モデルの正確なターゲット分布に整合させることに焦点を当てます。

データ構築： 系列に対して、長さ $K$ のランダムなブロックが選択されます。ブロックの最初のトークンは可視の「アンカー」として保持され、続く $K-1$ 個のトークンは <mask> トークンに置き換えられます。
アテンションメカニズム： 拡散ヘッドは、特殊なブロックマスク（ $M_{diff}$ $M_{d i f f}$ ）を使用して、これらの破損したブロックを処理します。このマスクは以下の 2 つのルールを強制します：
1. 因果的コンテキスト： ブロック内の位置は、ブロックアンカーに先行するクリーンな AR コンテキストに対して因果的にアテンションします。
2. 双方向ブロック： 同じマスクされたブロック内の位置は、相互に双方向にアテンションし、並列コンテキスト集約を可能にします。
目的： 拡散ヘッドは、凍結された AR ヘッドの完全な予測分布に対する前方 KL 発散を最小化します。勾配は拡散モジュールのみを通過し、AR バックボーンは変更されません。

2.3 推論：モデル内コンセンサスによる正確な分布一致

Orthrus は、コンセンサスメカニズムを通じて分布のドリフトなしに並列生成を実現します：

並列投影： 拡散ヘッドは現在のアンカートークンと $K-1$ 個のマスクを受け取り、1 つのフォワードパスで処理し、 $K$ 個の候補トークンを同時に投影します。
構造的検証： 投影されたブロックは即座に凍結された AR ヘッドにルーティングされます。AR ヘッドは完全に埋められたブロックを視認するため、 $K$ 個の位置すべてに対する正確なターゲット確率を 1 つのパスで計算します。
コンセンサスとコミットメント： アーキテクチャは厳密な左から右への評価を行います。投影されたトークンは、凍結された AR ヘッドの貪欲予測と一致する場合にのみ受け入れられます。インデックス $j$ で乖離が発生した場合、システムは $j-1$ までの同期されたプレフィックスをコミットし、正確な AR 修正トークンを追加し、キャッシュを切り捨てます。これにより損失のない推論が保証され、出力がベースモデルの予測分布と厳密に一致することが確保されます。

3. 主要な貢献

新規双アーキテクチャフレームワーク： Orthrus は、標準的な AR トランスフォーマー内に並列拡散モジュールを埋め込み、両方のビューが重複する履歴 KV キャッシュの保存をゼロとして共有 KV キャッシュ上で動作できるようにします。
損失のない推論保証： モデル内コンセンサスメカニズムを採用することで、Orthrus はベース LLM の正確な予測分布を維持し、以前の拡散適応法を上回る厳密に損失のない生成を確保します。
大幅な推論加速： 拡散ヘッドをネイティブに活用して並列トークン生成を行うことで、Orthrus は逐次的なボトルネックを打破し、最大7.8 倍の高速化を実現します。
極限のパラメータおよびメモリ効率： 統合は軽量です。並列機能は、10 億トークン未満（単一の 8xH200 ノードで 24 時間未満）でモデルパラメータの合計のわずか**約 16%**を微調整することで注入されます。

4. 実験結果

著者らは、数学的推論（GSM8K、MATH-500、AIME）およびコード生成（HumanEval、MBPP）のベンチマークにおいて、Qwen3 モデルファミリー（1.7B、4B、8B パラメータ）に対して Orthrus を評価しました。

効率性： Orthrus は 8B モデルで平均フォワードパスあたりのトークン数（TPF）5.39 を達成し、タスクと温度設定に応じて3.07 倍から 7.83 倍の高速化を実現しました。
精度： 性能低下を伴う適応法とは異なり、Orthrus はベース Qwen3-8B モデルの正確なゼロショット精度を達成しました。例えば、MATH-500 において、Orthrus は 86.2% の精度に達しましたが、Fast-dLLM-v2 などの最先端の拡散適応法は 11.1 ポイントの低下（86.2% のベースラインに対し 75.1%）を記録しました。
スペキュレイティブデコーディングとの比較： 外部のスペキュレイティブデコーディング手法（EAGLE-3、DFlash）と比較して、Orthrus は dragger モデル用の別個の冗長 KV キャッシュを維持する必要がないため、著しく高い平均受容長（MATH-500 で 11.7、DFlash は 7.9、EAGLE-3 は 3.5）を達成しました。

5. 意義と主張

本論文は、Orthrus が自己回帰生成の忠実度と拡散ベースの並列性の間のトレードオフを根本的に調和させると主張しています。

構造的統合： 並列生成を逐次的制約から切り離しつつ、凍結された高忠実度な AR 表現に根ざすことで、Orthrus は他の拡散アプローチを悩ませる「分布のドリフト」を排除します。
スケーラビリティとプラグアンドプレイ： このフレームワークは、高品質な既存のオープンソース AR モデルにシームレスに適応可能な、非常にスケーラブルなソリューションとして提示されています。これにより、卓越した推論能力を犠牲にすることなく並列スループットを解放できます。
生産環境での実現可能性： $O(1)$ のメモリキャッシュオーバーヘッドと最小限のパラメータ追加により、Orthrus は大規模な拡散モデルを最初から再トレーニングする計算コストを回避し、高スループット LLM 展開への実用的でメモリ効率の良い道を提供します。

著者らは、Orthrus が厳密に損失のない推論加速を実現し、並列生成の忠実度における新たな最先端を提供すると結論付けています。

Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion