Duel-Evolve: Reward-Free Test-Time Scaling via LLM Self-Preferences

本論文は、外部の報酬モデルや正解ラベルを必要とせず、LLM 自身によるペアワイズ比較とベイズ Bradley-Terry モデル、Double Thompson Sampling を組み合わせた「Duel-Evolve」という進化最適化アルゴリズムを提案し、MathBench や LiveCodeBench などのタスクにおいて既存手法を大幅に上回るテスト時スケーリング性能を実証しています。

Sweta Karlekar, Carolina Zheng, Magnus Saebo, Nicolas Beltran-Velez, Shuyang Yu, John Bowlan, Michal Kucer, David Blei

公開日 2026-02-27
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

論文「DUEL-EVOLVE」の解説:AI が「勝者」を決めるだけで、天才的な答えを見つける方法

この論文は、**「AI(大規模言語モデル)が、正解がわからない問題でも、自分自身で『どっちが上手い?』と比べるだけで、どんどん賢くなっていく」**という新しい方法を提案しています。

従来の方法では、AI が作った答えが「良いか悪いか」を判断するために、人間が作った採点表や、正解を知っている別の AI(報酬モデル)が必要でした。しかし、数学の難問やプログラミングのコードのように、「正解が一つしかない」あるいは「正解がわからない」場合、この採点表を作るのはとても大変です。

そこで登場するのが、この論文の主人公**「DUEL-EVOLVE(デュエル・エボリューション)」**です。


🎯 核心となるアイデア:「勝者決定戦(デュエル)」で進化させる

この方法を理解するために、**「料理のコンテスト」**を想像してみてください。

1. 従来の方法(スコアリング方式)の限界

昔ながらの方法は、料理人が作った料理を、**「10 点満点で採点する審査員」**が評価します。

  • 「この料理は 8.5 点」「次は 9.0 点」と、具体的な点数がつきます。
  • 問題点: 料理の味を数値で正確に測る審査員(採点モデル)を作るのは大変です。特に「数学の証明」や「複雑なコード」のように、正解が一つしかない場合、点数をつける基準を作るのはほぼ不可能です。

2. DUEL-EVOLVE の方法(ペア比較方式)

DUEL-EVOLVE は、点数をつけさせません。代わりに、**「2 つの料理を並べて、『どっちが美味しそう?』と選ばせる」**という戦い(デュエル)を繰り返します。

  • 審査員: 料理人自身(AI 自身)が審査員になります。「A と B を比べたら、B の方が美味しそうだな」と判断します。
  • 勝者: 点数はつきませんが、「A より B が勝った」という事実だけが蓄積されます。

🔄 3 つのステップで「進化」する仕組み

このシステムは、まるで**「進化のゲーム」**のように 3 つのステップをぐるぐる回します。

ステップ 1: 戦い(デュエル)

AI は、これまで作った料理(答え)を 2 つ選び、「どっちが勝つ?」と戦わせます。

  • AI 自身に「A と B、どっちが正解に近いと思う?」と聞きます。
  • 結果は「A が勝った」「B が勝った」のどちらかです。

ステップ 2: 順位付け(ベイジアン・ブラッドリー・テリーモデル)

ここが魔法のところです。AI は「A が勝った」「B が勝った」というバラバラな戦いの結果を集めて、**「誰が本当のチャンピオンか?」**を統計的に計算します。

  • 「A は B に勝ったが、C には負けた。B は D に勝った…」という情報を全部繋ぎ合わせ、**「A は 70% の確率でチャンピオン候補だ」**という信頼度(確率)を計算します。
  • これにより、点数がなくても「誰が優れているか」の全体像が見えてきます。

ステップ 3: 進化(新しい料理を作る)

チャンピオン候補(上位の料理)を見て、AI は**「じゃあ、もっと美味しい料理を作ろう!」**と新しい料理(答え)を生み出します。

  • 「前の料理 A は塩味が強すぎたから、今回は減らそう」といったように、勝った料理の特徴を参考にしながら、より良い答えを提案します。

この「戦って、順位を決めて、新しいものを作る」というサイクルを繰り返すことで、AI は正解がわからなくても、**「正解に限りなく近い答え」**にたどり着いていきます。


🚀 なぜこれがすごいのか?(実験結果)

この方法は、**「数学の難問(MathBench)」「プログラミングのコンテスト(LiveCodeBench)」**でテストされました。

  • 数学: 従来の最高の方法より20% 以上も正解率が高くなりました。
  • プログラミング: 従来の反復的な方法より12% 以上も改善されました。

最大の特徴:

  • 正解のラベルが不要: 正解が何かわからなくても大丈夫です。
  • 採点モデルが不要: 「良い点数」をつける AI を事前に訓練する必要がありません。
  • AI 自身で判断: すべてを AI 自身が行うため、人間の手間がほとんどかかりません。

💡 まとめ:AI による「自己進化」の物語

この論文は、**「AI に『正解』を教えるのではなく、『比較』を教えるだけで、AI は自ら進化できる」**ことを示しました。

まるで、**「正解がわからない山登り」**をしているような状況です。

  • 昔は、「標高計(スコア)」がないと、どこが頂上かわからず、迷走していました。
  • でも、DUEL-EVOLVE は「左の道と右の道、どっちが上に見える?」と自分自身に問いかけ、「上に見える道」をたどることで、いつの間にか頂上(正解)に到達するという、とても賢い方法を見つけました。

これは、AI が人間に頼らず、**「自分自身で判断し、自分自身で成長する」**ための強力な新しい道筋を示した画期的な研究です。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →