UpSkill: Mutual Information Skill Learning for Structured Response Diversity in LLMs

本文提出了名为 UpSkill 的训练方法,通过在 GRPO 框架中引入基于令牌级的互信息奖励,有效解决了强化学习验证奖励(RLVR)在提升大模型数学与编程推理能力时抑制响应多样性的问题,从而在保持 pass@1 准确率不下降的同时显著提升了 pass@k 指标。

Devan Shah, Owen Yang, Daniel Yang, Chongyi Zheng, Benjamin Eysenbach

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 UpSkill 的新方法,旨在解决大型语言模型(LLM)在解决问题时的一个核心痛点:“虽然模型很聪明,但让它多试几次,它给出的答案往往都长得一模一样,缺乏多样性。”

想象一下,如果你让一个学生做数学题,让他尝试 5 次。如果这 5 次他都用完全相同的思路、甚至相同的步骤去解题,那么一旦这个思路错了,他 5 次都会错。但如果他能尝试 5 种完全不同的解题思路(比如代数法、几何法、画图法),那么只要其中一种思路对了,他就能做对。

UpSkill 就是教模型学会这种“多策略思考”的技术。

以下是用通俗语言和比喻对这篇论文的解读:

1. 核心问题:模型太“固执”了

现在的语言模型(LLM)在数学和编程任务上表现很好,这主要归功于一种叫“强化学习”的训练方法。但是,传统的训练方法就像是一个只会死记硬背的学生

  • 现象:如果你让模型生成 5 个答案,它往往会生成 5 个几乎一模一样的答案。
  • 后果:在需要多次尝试才能成功的场景(比如写代码跑测试、解复杂的数学题)中,这种“缺乏多样性”是致命的。因为如果那个唯一的思路错了,模型就没有备选方案了。
  • 比喻:这就像一个人去迷宫找出口,他每次进去都走同一条路。如果那条路是死胡同,他走 100 次也出不去。我们需要他每次进去都尝试不同的路线。

2. 解决方案:UpSkill(给模型装上“策略开关”)

UpSkill 的核心思想是:在训练时,给模型引入一个“隐藏开关”(我们叫它 zz),强迫模型根据不同的开关值,走不同的路。

  • 怎么操作?
    想象模型是一个拥有多种“人格”的演员。
    • 当输入是 z=1 时,模型扮演“严谨的数学家”,只写公式推导。
    • 当输入是 z=2 时,模型扮演“直觉派画家”,尝试画图或举例。
    • 当输入是 z=3 时,模型扮演“暴力破解者”,尝试所有可能的数字组合。
  • 训练目标
    论文使用了一种叫**“互信息”(Mutual Information)的数学工具。简单来说,就是给模型一个奖励:“如果你根据开关 zz 的不同,给出了截然不同的答案,我就给你奖励;如果你不管开关怎么变,答案都差不多,我就惩罚你。”**

3. 工作原理:像“分班教学”

为了形象地理解,我们可以把 UpSkill 的训练过程比作**“分班教学”**:

  • 传统训练(没有 UpSkill)
    老师(训练算法)只关心学生能不能做对题。结果,全班 50 个学生都学会了同一种“标准解法”。一旦题目稍微变个花样,全班集体挂科。
  • UpSkill 训练
    老师把学生分成 5 个小组(对应 5 个不同的 zz 值)。
    • 第一组被要求必须用“代数法”解题。
    • 第二组被要求必须用“几何法”解题。
    • ...
    • 老师不仅看谁做对了,还看不同组之间是不是真的在用不同的方法。如果第一组和第五组的答案完全一样,老师就会批评他们“没有发挥小组特色”,并扣掉他们的分数(奖励)。

通过这种训练,模型学会了:“哦,原来针对同一个问题,我可以有 5 种完全不同的思考方式,而且每种方式都能独立运作。”

4. 实验结果:真的有用吗?

作者在著名的数学数据集(GSM8K)上测试了三种不同的模型(Llama, Qwen, R1)。

  • 效果显著
    • 单题准确率(pass@1):基本保持不变(模型没有变笨)。
    • 多题尝试准确率(pass@k):大幅提升!
      • 比如,以前让模型试 5 次,可能只有 1 次做对(因为 5 次思路都一样)。
      • 用了 UpSkill 后,让模型试 5 次,因为 5 次思路不同,只要其中 1 次思路对了就行,成功率从 86% 提升到了 93% 甚至更高。
  • 有趣的现象
    在简单的算术题环境中,作者甚至能看到模型真的学会了不同的策略。比如,有的“开关”让模型专门用加法,有的专门用除法。这证明了模型真的学会了“多样化思考”,而不是随机乱猜。

5. 总结与启示

UpSkill 的精髓在于:
它不需要人类去手动写提示词(Prompt Engineering)告诉模型“请尝试用几何法”,而是通过一种数学奖励机制,让模型自己在训练过程中发现并掌握多种解题策略。

这对我们意味着什么?

  • 更可靠的 AI:在需要高可靠性的场景(如医疗诊断、代码生成、法律分析)中,让 AI 提供多种不同视角的解决方案,能大大降低出错风险。
  • 探索与利用的平衡:它解决了 AI 领域的一个经典难题——如何在“追求正确答案”(利用)和“尝试新路径”(探索)之间找到完美的平衡点。

一句话总结:
UpSkill 就像给语言模型装上了“多面手”的开关,强迫它不要只会一种解题套路,而是学会“兵分多路”,从而在多次尝试中大大提高解决问题的成功率。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →