Ranking Reasoning LLMs under Test-Time Scaling

该论文正式化了测试时扩展下的密集基准排名问题,推出了开源库 Scorio 以实施多种统计排名方法,并通过在多个数学基准上的实验验证了这些方法在不同预算下对贝叶斯金标准的可靠性。

Mohsen Hariri, Michael Hinczewski, Jing Ma, Vipin Chaudhary

发布于 Thu, 12 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在解决一个**“如何公平地给一群正在参加数学奥林匹克竞赛的 AI 选手打分”**的难题。

想象一下,你是一位裁判,面前有 20 个不同的 AI 模型(选手),你要在四场高难度的数学竞赛(AIME, HMMT 等)中给它们排名。

1. 核心问题:AI 的“运气”与“实力”

以前,我们给 AI 打分就像看它跑一次 100 米。如果它跑得快,就是第一名。
但现在的 AI 很聪明,也很“随机”。就像让一个运动员跑 100 米,他可能因为状态好跑得快,也可能因为鞋带松了跑得慢。

现在的做法是**“测试时扩展”(Test-time Scaling):让同一个 AI 对同一道题跑 80 次**(采样 80 次),看看它到底能解出多少道题。

  • 问题出现了:如果你只让它跑 1 次(预算低),排名可能很不准;如果你让它跑 80 次(预算高),排名就稳了。
  • 核心挑战:在资源有限(只能跑几次)的情况下,哪种统计方法能最准确地排出名次? 不同的统计方法(比如看胜率、看贝叶斯概率、看投票)可能会给出完全不同的排名。

2. 论文做了什么?(Scorio 工具箱)

作者开发了一个叫 Scorio 的开源工具箱,里面装满了各种“裁判规则”。他们把这 20 个 AI 放在 4 个数学竞赛里,让它们跑了 80 次,然后看看:

  • 如果只跑 1 次,哪种裁判规则排出的名次最接近“跑满 80 次”的黄金标准
  • 随着跑的次数增加,这些规则是不是越来越准?

3. 主要发现(用比喻解释)

🏆 黄金标准:贝叶斯平均 (BayesU@80)

如果把所有 80 次尝试的结果都加起来算平均分,这就是最靠谱的“真实实力”。论文把这种方法定为**“黄金标准”**。

  • 结论:当预算充足(跑很多次)时,大多数聪明的裁判规则(如 Bradley-Terry 模型、图论方法等)都能和这个黄金标准达成高度一致(93%~95% 的相似度)。

💰 低预算挑战:只跑 1 次怎么办?

这是最实用的场景:你没钱让 AI 跑 80 次,只能让它跑 1 次。这时候该信谁?

  • 最佳策略:使用**“贝叶斯 + 贪婪先验” (BayesR0@N)**。
    • 比喻:这就像在考试前,先让 AI 用“最保守、最死板”的方式(贪婪解码)做一遍题,把这次的结果当作**“预习笔记”**。
    • 效果:当你只让 AI 跑 1 次随机题时,结合这个“预习笔记”,排名的稳定性提高了 16%~52%。
    • 风险:如果“死板方式”和“随机方式”完全不一样(比如死板方式做错了,但随机方式蒙对了),这个“预习笔记”反而会误导裁判,让排名产生偏差。

📉 难度与偏差

  • 简单题:AI 们都能做对,死板方式和随机方式差不多,用“预习笔记”很稳。
  • 难题(如 HMMT):AI 们经常做不对,死板方式可能完全卡住,而随机方式偶尔能“灵光一闪”解出来。这时候如果强行用死板方式做“预习”,反而会拉低那些偶尔灵光一闪的 AI 的排名。

🎲 类别排名(不仅仅是做对/做错)

论文还尝试了更复杂的评分:不仅看做对没,还看解题格式(有没有框起来)、解题速度自信度等。

  • 发现:引入这些额外信号(比如“解题格式”)能让排名在单次尝试中更稳定(自我一致性高),但可能会偏离“真正做对题”这个核心目标。就像给运动员打分,如果太看重“姿势优美”,可能会忽略他其实没跑完全程。

4. 总结与建议

这篇论文告诉我们要**“看菜吃饭”**:

  1. 如果你预算充足(能跑很多次):随便选一种主流统计方法,大家排出来的名次都差不多,“平均准确率”(BayesU)是最简单、最靠谱的标准。
  2. 如果你预算紧张(只能跑很少几次):
    • 推荐使用 BayesR0@N(结合贪婪解码的贝叶斯方法)。
    • 但是,使用前要先做个小测试:看看“死板模式”和“随机模式”排出来的名次是否一致。如果一致,大胆用;如果不一致,小心被带偏,直接用普通贝叶斯方法更稳妥。
  3. 工具:作者把这套复杂的裁判规则做成了 Scorio 库, anyone 都可以拿来用,让 AI 评测变得更科学、更透明。

一句话总结
在 AI 评测中,“多跑几次”是硬道理,但在只能跑几次时,**“参考一下它最稳的表现”**能帮你排得更准,前提是它最稳的表现和它随机发挥的表现不能差太远。