CORE: Concept-Oriented Reinforcement for Bridging the Definition-Application Gap in Mathematical Reasoning

本文提出了 CORE(面向概念的强化学习)框架,通过将显式概念转化为可控制的监督信号,利用概念对齐的测验和概念注入的轨迹来弥补大语言模型在数学推理中“定义”与“应用”之间的差距,从而显著提升其概念理解与泛化能力。

Zijun Gao, Zhikun Xu, Xiao Ye, Ben Zhou

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CORE(概念导向强化)的新方法,旨在解决大语言模型(LLM)在数学推理中的一个核心痛点:“死记硬背”与“真正理解”之间的鸿沟

为了让你轻松理解,我们可以把大语言模型想象成一个正在备考数学竞赛的学生

1. 核心问题:学生只会“套公式”,不懂“为什么”

目前的数学大模型(比如现在的各种 AI 助手)其实很聪明,它们能解出很多难题。但是,它们往往像是在背答案或者找规律,而不是真的理解了数学原理。

  • 比喻:这就好比一个学生,他背下了“勾股定理”的定义(a2+b2=c2a^2 + b^2 = c^2),也能在试卷上默写出来。但是,当题目稍微变个花样,或者把三角形的边长顺序打乱时,他就懵了,因为他不知道这个定理到底是用在什么场景下的,只是机械地套用了公式。
  • 现状:现有的训练方法(RLVR)就像只给学生看“最终答案对不对”。如果答案对了,就给奖励;错了,就惩罚。这导致学生学会了“猜答案”或者“模仿解题步骤”,却忽略了**“我为什么选这个定理?”**这个关键思考过程。

2. 作者发现了什么?(“诊断”环节)

作者们先做了一个有趣的测试:

  1. 让 AI 背出某个数学概念(比如“有理根定理”)。AI 背得滚瓜烂熟,一字不差。
  2. 然后给 AI 一道需要用到这个定理的题,但稍微改动了一下数字或条件。
  3. 结果:AI 虽然背得出来,但在解题时依然犯错。它就像是一个只会背书但不会灵活运用的“书呆子”

这就叫**“定义 - 应用鸿沟”**:知道定义,但不会用。

3. 解决方案:CORE 框架(给 AI 装上“概念导航仪”)

为了解决这个问题,作者提出了 CORE。你可以把它想象成给这个“书呆子”学生请了一位懂得“启发式教学”的私教

这个私教不再只盯着最终答案,而是强迫学生在解题过程中明确说出自己用了哪个概念

CORE 主要做了三件事(三种“私教”策略):

策略一:直接练概念题 (CORE-Base)

  • 比喻:私教不再只给综合试卷,而是专门出了一套**“概念专项练习题”**。
  • 做法:把课本里的概念和对应的练习题配对,让 AI 专门练习这些题。这就像让学生专门练习“如何识别何时使用勾股定理”,而不是盲目刷题。

策略二:失败时“插播”概念提示 (CORE-CR)

  • 比喻:这是最精彩的部分。当学生(AI)在解题过程中卡住或做错时,私教不会直接给答案,而是立刻在耳边提醒:“嘿!这道题其实是在考‘线性无关’这个概念,你想想看!”
  • 做法:如果 AI 的一组尝试都失败了,系统会生成一个新的、带有“概念提示”的解题路径,并告诉 AI:“看,如果你一开始就想到这个概念,就能这样解。”然后让 AI 模仿这个正确的思路。这就像在 AI 迷路时,强行给它指了一条基于正确概念的路。

策略三:潜移默化的“思维对齐” (CORE-KL)

  • 比喻:私教不仅给提示,还要求学生在心里模拟“如果我知道这个概念,我会怎么思考”。
  • 做法:通过一种数学上的“距离”计算(KL 散度),强迫 AI 在没有提示的情况下,其思考过程也要尽可能接近“有提示时”的思考过程。这就像让学生在没有老师提醒的情况下,也要学会像老师一样思考。

4. 效果如何?(“考试”结果)

经过这种“概念导向”的训练后,AI 的表现有了质的飞跃:

  • 不仅会做题,更懂原理:在同样的题目上,AI 不再只是碰运气,而是能准确识别出该用哪个数学概念。
  • 抗干扰能力强:如果把题目里的干扰项(比如无关的废话)加进去,普通的 AI 会被带偏,但经过 CORE 训练的 AI 能稳如泰山,因为它抓住了核心的概念,不会被表面现象迷惑。
  • 举一反三:不仅在练过的题目上变强了,在没见过的、更难的数学竞赛题上,表现也更好。

5. 总结:这不仅仅是数学

这篇论文的核心思想是:教 AI 数学,不能只教它“怎么做”,更要教它“为什么这么做”。

  • 以前的 AI:像是一个模仿秀演员,模仿得惟妙惟肖,但一旦剧本(题目)变了,就演不下去了。
  • CORE 训练后的 AI:像是一个真正理解剧情的演员,即使剧本变了,它也能根据角色的核心逻辑(数学概念)即兴发挥,给出正确的表演。

一句话总结
CORE 就像给 AI 装了一个**“概念导航仪”**,强迫它在解题时时刻关注“我到底在用哪个数学原理”,从而把“死记硬背”变成了“真正理解”,让 AI 从“做题机器”进化为“数学小天才”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →