Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning

本文提出了名为 COREA 的协同推理系统,通过引入强化学习校准小语言模型(SLM)的置信度,使其在低置信度时将任务委托给大语言模型(LLM),从而在仅造成极小精度损失的前提下显著降低了复杂推理任务的成本。

Chuang Zhang, Zizhen Zhu, Yihao Wei, Bing Tian, Junyi Liu, Henan Wang, Xavier Wang, Yaxiao Liu

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 COREA 的智能系统,它的核心思想可以用一个生动的比喻来理解:“让聪明的实习生(小模型)先试做,只有当他没把握时,才请老板(大模型)出马。”

在人工智能领域,我们面临一个两难选择:

  • 大语言模型(LLM):像一位博学的教授。他解题能力极强,什么难题都能解决,但“课时费”(计算成本)极其昂贵,而且说话慢(推理时间长)。
  • 小语言模型(SLM):像一位勤奋的实习生。他速度快、便宜,但遇到特别难的题目时,容易犯错,而且往往不知道自己不懂(缺乏自知之明),经常自信地给出错误答案。

这篇论文就是为了解决“如何让实习生既省钱又能保证质量”的问题。


1. 核心痛点:实习生“盲目自信”

以前的方法中,如果让实习生先做题,他往往会过度自信。哪怕题目很难,他也会拍着胸脯说“我肯定对”,然后给出一个错误答案。结果就是:既没省下老板的钱(因为还是得重做),又浪费了时间。

关键问题在于: 实习生需要学会“自我反省”,知道什么时候该说“这题太难了,我不行,请老板来”。

2. 解决方案:COREA 系统(自信校准)

作者设计了一套训练方法,教实习生学会**“诚实”**。

  • 步骤一:先让实习生做题
    当问题进来时,先让实习生(小模型)尝试回答。他不仅要给出答案,还要大声说出自己的信心指数(比如:“我有 80% 的把握”或“我只敢打 30% 的包票”)。

  • 步骤二:设定“门槛”
    系统设定了一个信心分数线(比如 70%)。

    • 如果实习生说:“我有 90% 把握!” -> 直接通过,省钱了!
    • 如果实习生说:“我只敢打 40% 的包票。” -> 立刻转交给教授(大模型)去处理。
  • 步骤三:特殊的“特训”(强化学习)
    这是论文最精彩的部分。作者没有只教实习生“怎么解题”,还专门教他“怎么评估自己的信心”。

    • 以前的训练:做对了给奖励,做错了给惩罚。
    • 现在的特训(COREA)
      • 如果你做对了,且你说“我有 90% 把握”(高信心),奖励加倍
      • 如果你做错了,但你却自信地说“我有 90% 把握”(盲目自信),重罚
      • 如果你做对了,但你却畏畏缩缩说“我只敢打 10% 把握”(过度谦虚),也要罚(因为浪费了让实习生独立解决的机会)。

通过这种“奖惩机制”,实习生学会了**“知之为知之,不知为不知”**。他不再盲目自信,而是能准确判断自己的水平。

3. 效果如何?

实验结果显示,这套系统非常成功:

  • 省钱:在数学题和非数学题的测试中,相比完全依赖“教授”(大模型),这套系统节省了约 17% 到 22% 的成本。这意味着你可以用更少的钱处理同样多的问题。
  • 保质:虽然大部分简单题由实习生搞定,但难题都转交给了教授,所以最终答案的准确率几乎没有下降(只降低了不到 2%)。
  • 通用性:这套方法不仅适用于数学题,也适用于常识推理、科学问答等各种场景。

4. 总结与比喻

想象一下你开了一家法律咨询公司

  • 以前:所有案子,不管多简单,都直接交给资深大律师(大模型)处理。虽然案子都办好了,但律师费贵得吓人,公司快破产了。
  • 现在(COREA):你雇佣了一位初级律师(小模型)。你训练他,让他学会评估案情。
    • 如果是简单的交通违章,初级律师自信地说“我能搞定”,你就让他处理,费用极低
    • 如果是复杂的跨国并购案,初级律师诚实地说“这太难了,我搞不定”,你就立刻转给资深大律师虽然贵,但只付这一单的钱

结论:通过让初级律师学会“诚实评估自己的能力”,你既保留了大律师处理难题的能力,又极大地降低了日常运营成本。这就是 COREA 带来的“性价比”革命。