CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

CLIPO 通过将对比学习机制引入策略优化,解决了传统 RLVR 仅依赖最终答案而忽视中间步骤正确性所导致的幻觉与泛化问题,从而显著提升了大语言模型在推理任务中的鲁棒性与泛化能力。

Sijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 CLIPO 的新方法,它旨在解决当前大语言模型(LLM)在“逻辑推理”训练中遇到的一个核心痛点。

为了让你轻松理解,我们可以把训练一个会解题的 AI 模型,想象成教一个学生参加数学竞赛

1. 现状:传统的“只看结果”教学法 (RLVR)

目前,让 AI 变聪明的主流方法是 RLVR(带可验证奖励的强化学习)。

  • 怎么教? 老师(AI 训练系统)给学生(AI 模型)出一道题,学生写出解题过程。
  • 怎么打分? 老师只看最后的答案对不对。
    • 答案对了,给满分奖励(+1)。
    • 答案错了,给零分惩罚(0)。
  • 问题出在哪?
    这就好比一个学生,虽然最后答案蒙对了,但中间步骤全是胡编乱造、逻辑混乱,甚至抄了答案。
    • 传统方法的缺陷: 因为只看结果,老师不知道学生中间哪一步错了。于是,AI 学会了“走捷径”:它发现只要最后答案凑对了就行,中间步骤可以瞎编(产生幻觉),或者死记硬背答案。
    • 后果: 这种 AI 很脆弱。一旦题目稍微变个花样(比如数字变了,或者换个问法),它就不会做了,因为它没真正学会逻辑,只是记住了“套路”。

2. 核心洞察:成功的“套路”其实是一样的

论文的作者发现了一个有趣的现象:

“幸福的家庭都是相似的,不幸的家庭各有各的不幸。” —— 托尔斯泰

在解题时,所有做对题的“成功路径”,其背后的核心逻辑结构往往是相似的(比如都用了某种特定的公式推导,或者都遵循了某种严谨的步骤)。
做错题的“失败路径”,虽然最后答案错了,但它们中间的错误步骤是杂乱无章、互不相关的(有的算错数,有的逻辑跳跃,有的瞎编)。

3. 解决方案:CLIPO(对比学习 + 策略优化)

CLIPO 就像是一位更聪明的教练,它不再只盯着最终答案,而是引入了**“对比学习”**(Contrastive Learning)机制。

它的教学魔法:

  1. 分组练习: 教练让 AI 针对同一道题,一次性写出 16 种不同的解题过程(Rollouts)。
  2. 寻找“成功者联盟”: 教练把这 16 个答案里,所有做对的答案挑出来。
  3. 核心训练(对比学习):
    • 拉近关系: 教练告诉 AI:“看,这几个做对的答案,虽然写法不同,但它们的内在逻辑结构是高度相似的。你们要互相‘靠拢’,学习这种成功的共同特征。”
    • 推开异类: 教练同时告诉 AI:“那些做错的、或者虽然答案对了但中间步骤胡编乱造的答案,和成功的逻辑结构完全不同。你们要离它们远一点!”
  4. 新的奖励机制:
    • 以前:答案对 = 奖励。
    • 现在:答案对 逻辑结构与其他成功答案相似 = 超级奖励
    • 即使答案对了,如果逻辑结构太“怪异”(像那些失败的尝试),奖励也会打折。

打个比方:

想象你在学跳舞

  • 旧方法 (RLVR): 只要最后你跳到了舞台中央,不管中间动作是乱扭还是标准,都给你鼓掌。结果你学会了一堆乱扭也能到终点的怪招。
  • 新方法 (CLIPO): 教练让你看 10 个跳得好的舞者。他发现,虽然大家衣服不同,但核心舞步的节奏和发力点是一样的。
    • 教练说:“你们要模仿这些成功舞者的核心节奏(拉近成功路径)。
    • 同时,要把那些动作乱扭、节奏混乱的舞者(失败路径)推开。
    • 这样,你学到的不是死记硬背的舞步,而是跳舞的“灵魂”和“规律”

4. 为什么这很厉害?

  • 去伪存真: 它强迫 AI 去理解“为什么这个步骤是对的”,而不是“怎么凑出这个答案”。它自动过滤掉了那些“蒙对答案但逻辑不通”的噪音。
  • 举一反三: 因为 AI 学到了成功的“逻辑结构”(Invariant Structure),当题目变难、或者换个形式(比如把数字换成符号,或者稍微改个条件)时,它依然能认出那个熟悉的逻辑结构,从而解出新题。
  • 通用性强: 论文在数学题、代码生成、逻辑推理等多个领域测试,发现加上 CLIPO 后,AI 的抗干扰能力和泛化能力都大幅提升。

总结

CLIPO 就是给 AI 装上了一双“火眼金睛”。
它不再满足于 AI“蒙对答案”,而是通过对比所有成功的解题路径,提取出它们共同的逻辑精华,并以此作为新的奖励信号。

这就好比从“死记硬背标准答案”进化到了“掌握解题的底层逻辑”,让 AI 真正变得聪明、稳健,且不容易被忽悠