Predicting LLM Reasoning Performance with Small Proxy Model

本文提出了 rBridge 方法,通过结合预训练目标与任务对齐(利用前沿模型的推理轨迹作为金标准)对负对数似然进行加权,成功使参数量不超过 10 亿的小代理模型能够有效预测 10 亿至 320 亿参数大模型的推理性能,从而显著降低了推理导向预训练的数据集筛选成本。

Woosung Koh, Juyoung Suk, Sungjun Han, Se-Young Yun, Jamin Shin

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何用小模型预测大模型能力”的聪明办法,特别是针对那些需要“深度思考”**(比如做数学题、写代码、逻辑推理)的任务。

我们可以把这篇论文的核心思想想象成**“用微型机器人测试巨型机器人的设计图纸”**。

1. 背景:为什么我们需要“替身”?

想象一下,你想建造一个超级强大的巨型机器人(比如 320 亿参数的大模型),让它能解决复杂的数学难题或写复杂的代码。

  • 问题:训练这个巨型机器人非常烧钱耗时(就像造一艘航空母舰)。如果你要测试 100 种不同的“燃料配方”(训练数据),难道要造 100 艘航母来试错吗?这根本做不到。
  • 传统做法:人们通常会造一个小一点的机器人(比如 10 亿参数的小模型)来当“替身”。如果小机器人用某种燃料跑得好,我们就认为大机器人用这种燃料也会跑得好。
  • 新发现:但是,作者发现了一个大坑:对于“思考”类任务,小机器人根本靠不住!
    • 就像让一个小学生去解微积分,他可能完全乱猜,甚至方向都搞反了。
    • 而让一个大学生(大模型)去解,他就能稳扎稳打地进步。
    • 这就导致用小模型去预测大模型在“推理”任务上的表现,就像是用温度计去测量风速,完全测不准。

2. 核心方案:RBRIDGE(一座“桥梁”)

为了解决这个问题,作者提出了一个叫 RBRIDGE 的新方法。它就像在“小学生”和“大学生”之间架起了一座智能桥梁

这个桥梁有两个核心魔法:

魔法一:找对“参考答案”(对齐预训练目标)

  • 旧方法:以前大家看小机器人做题,是看它**“最后答案对不对”**(比如选 A 还是 B)。但这就像只盯着考试分数,忽略了过程。小机器人因为能力弱,经常瞎蒙,分数波动很大,看不出规律。
  • RBRIDGE 的做法:它不只看答案,而是请一个**“超级学霸”(目前最先进的大模型,Frontier Model)先把解题的详细步骤(推理过程)**写出来。
  • 比喻:这就好比,小机器人不需要自己算出答案,它只需要**“模仿”**超级学霸的解题步骤。如果小机器人写的步骤和学霸很像,说明它学得好;如果步骤乱七八糟,说明它学得差。
  • 效果:因为“步骤”比“最终答案”更容易被小模型理解,所以信号变得非常清晰,不再是一团乱麻。

魔法二:给“关键步骤”加权重(任务对齐)

  • 问题:在解题过程中,有些字很重要(比如“计算余数”),有些字只是格式(比如“换行”、“最终答案是”)。以前的方法把所有字一视同仁,导致重要的信息被噪音淹没。
  • RBRIDGE 的做法:它利用“超级学霸”的**“自信度”**来给每个字打分。
    • 如果学霸对某个步骤非常有把握(比如“这里必须除以 9"),RBRIDGE 就给这个步骤很高的权重
    • 如果学霸只是随便写个格式(比如“换行”),权重就低。
  • 比喻:就像老师批改作业,重点看解题思路(高权重),而不是看字迹是否工整或有没有写“解”字(低权重)。这样,小机器人的表现就能更真实地反映它是否掌握了核心逻辑。

3. 成果:省下的钱和测出的准度

用了 RBRIDGE 之后,效果惊人:

  1. 省钱 100 倍:以前为了选最好的训练数据,可能需要训练很多大模型。现在,用极小的模型(只有目标模型的 1/300 大小)配合 RBRIDGE,就能选出最好的数据。这就像用微型无人机代替大型运输机去侦察,成本降低了 100 多倍。
  2. 预测更准:在 6 个推理 benchmarks(数学、科学、代码等)上,RBRIDGE 预测大模型表现的准确度,比所有旧方法都高。它甚至能准确预测:如果数据量增加,大模型的能力会提升多少。
  3. 举一反三(零样本迁移):最神奇的是,如果你用 RBRIDGE 在数据集 A上训练出了规律,这个规律可以直接**“复制粘贴”数据集 B**上,不需要重新训练。就像你学会了“如何评估汽车引擎”,这套标准可以直接用来评估卡车引擎,不需要重新发明一套理论。

总结

RBRIDGE 就像是一个**“翻译官”“放大镜”**。
它把大模型复杂的“思考过程”翻译成小模型能听懂的语言,并放大那些真正重要的逻辑细节。

一句话总结
以前我们试图用**“小学生的直觉”去预测“博士生的能力”,结果总是失败;现在,我们教小学生“模仿博士生的解题思路”,并“重点考核关键步骤”**,从而用极低的成本,精准地预测出大模型未来的表现。这让 AI 的探索之路变得既便宜又高效。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →