Duel-Evolve: Reward-Free Test-Time Scaling via LLM Self-Preferences

本文提出了 Duel-Evolve,一种无需外部奖励模型或人工评分函数的测试时扩展方法,它通过利用大语言模型自身的成对偏好结合贝叶斯 Bradley-Terry 模型与双重汤普森采样,在数学和代码等离散输出空间优化任务中显著超越了现有基线方法。

Sweta Karlekar, Carolina Zheng, Magnus Saebo, Nicolas Beltran-Velez, Shuyang Yu, John Bowlan, Michal Kucer, David Blei

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DUEL-EVOLVE 的新方法,它能让大语言模型(LLM)在没有“标准答案”或“外部打分员”的情况下,自己通过“互相比拼”来进化出更好的回答。

为了让你轻松理解,我们可以把整个过程想象成一场**“没有裁判的武林大会”**。

1. 核心问题:没有裁判,怎么变强?

通常,我们要训练一个 AI 去解题(比如做数学题或写代码),需要一个“裁判”来打分。

  • 传统方法:AI 生成 10 个答案,裁判(人类或另一个模型)给每个答案打分(比如 80 分、90 分),然后 AI 挑高分的继续改进。
  • 现实困境:在很多复杂任务中(比如证明一个数学定理,或者写一段没人知道正确答案的代码),我们根本不知道哪个是“满分”,也没有人愿意花时间去给每个答案打分。这时候,传统的“打分法”就失效了。

2. DUEL-EVOLVE 的解决方案:让 AI 自己“打擂台”

既然没有裁判打分,作者想出了一个绝妙的主意:让 AI 自己当裁判,通过“二选一”来决胜负。

这就好比武林大会,我们不需要给每个武林高手打分(这很难),只需要让他们两两对决

  • 对决(Duel):把两个答案(A 和 B)放在一起,问 AI:“你觉得哪个更好?”
  • 优势:让人类或 AI 判断"A 比 B 好”通常比给 A 打 85 分、给 B 打 82 分要容易得多,也准确得多。

3. 进化过程:如何从“乱打”到“高手”?

DUEL-EVOLVE 就像是一个智能的武林盟主,它通过三个步骤来组织这场大会:

第一步:组建“候选人池” (Evolution)

AI 先生成一大堆可能的答案(就像招兵买马,招来一群武林高手)。

第二步:安排“擂台赛” (Dueling)

这是最精彩的部分。AI 不会随机乱比,它会用一种聪明的策略(论文里叫Double Thompson Sampling,你可以理解为**“智能猜拳”**):

  • 它不会让两个明显很弱的选手去比(浪费体力)。
  • 它也不会让两个明显最强的选手去比(因为已经知道谁强了)。
  • 它专门挑那些“看起来都很强,但谁更胜一筹还不确定”的选手去对决。
  • 通过这种“精准打击”,它能用最少的时间,搞清楚谁才是真正的“武林盟主”。

第三步:统计与进化 (Bayesian Model)

所有的对决结果(A 赢了 B,B 赢了 C...)会被收集起来,输入到一个**“智慧大脑”**(贝叶斯 Bradley-Terry 模型)中。

  • 这个大脑能根据所有零碎的对决结果,推算出每个选手的真实实力排名,甚至能算出“这个选手有多大的可能是冠军”。
  • 然后,AI 会挑选出实力最强的几位选手作为“师父”,让它们生成新的、更厉害的答案(就像师父带徒弟,青出于蓝而胜于蓝)。

4. 为什么这个方法这么牛?

论文在两个领域做了测试:数学推理代码生成

  • 数学题:就像在迷宫里找出口。以前没有地图(标准答案),AI 很容易迷路。DUEL-EVOLVE 让 AI 自己走不同的路,然后互相问“你觉得哪条路更像出口?”,最后汇聚成一条最正确的路。结果:准确率比以前的方法高了 20% 以上!
  • 写代码:就像让 AI 写程序。以前如果代码跑不通,AI 不知道哪里错了。现在,AI 写两个版本,自己比一比:“这个版本处理边界情况更好”,“那个版本运行更快”。结果:准确率提高了 12% 以上。

5. 总结:核心亮点

  1. 不需要“标准答案”:它不需要知道正确答案是什么,只需要知道"A 比 B 好”就够了。
  2. 不需要“外部裁判”:它自己生成答案,自己当裁判,完全自给自足。
  3. 越练越强:它通过不断的“互相比拼”和“优胜劣汰”,能在计算资源有限的情况下,找到比传统方法好得多的解决方案。

一句话总结:
DUEL-EVOLVE 就像是一个聪明的武林盟主,它不依赖外部打分,而是通过让 AI 生成的答案们两两 PK,利用“谁比谁强”的简单判断,一步步筛选出最完美的解决方案。这是一种让 AI 在没有标准答案的荒野中,也能自己进化成高手的巧妙方法。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →