Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CORE（概念导向强化）的新方法，旨在解决大语言模型（LLM）在数学推理中的一个核心痛点：“死记硬背”与“真正理解”之间的鸿沟。

为了让你轻松理解，我们可以把大语言模型想象成一个正在备考数学竞赛的学生。

1. 核心问题：学生只会“套公式”，不懂“为什么”

目前的数学大模型（比如现在的各种 AI 助手）其实很聪明，它们能解出很多难题。但是，它们往往像是在背答案或者找规律，而不是真的理解了数学原理。

比喻：这就好比一个学生，他背下了“勾股定理”的定义（ $a^2 + b^2 = c^2$ ），也能在试卷上默写出来。但是，当题目稍微变个花样，或者把三角形的边长顺序打乱时，他就懵了，因为他不知道这个定理到底是用在什么场景下的，只是机械地套用了公式。
现状：现有的训练方法（RLVR）就像只给学生看“最终答案对不对”。如果答案对了，就给奖励；错了，就惩罚。这导致学生学会了“猜答案”或者“模仿解题步骤”，却忽略了**“我为什么选这个定理？”**这个关键思考过程。

2. 作者发现了什么？（“诊断”环节）

作者们先做了一个有趣的测试：

让 AI 背出某个数学概念（比如“有理根定理”）。AI 背得滚瓜烂熟，一字不差。
然后给 AI 一道需要用到这个定理的题，但稍微改动了一下数字或条件。
结果：AI 虽然背得出来，但在解题时依然犯错。它就像是一个只会背书但不会灵活运用的“书呆子”。

这就叫**“定义 - 应用鸿沟”**：知道定义，但不会用。

3. 解决方案：CORE 框架（给 AI 装上“概念导航仪”）

为了解决这个问题，作者提出了 CORE。你可以把它想象成给这个“书呆子”学生请了一位懂得“启发式教学”的私教。

这个私教不再只盯着最终答案，而是强迫学生在解题过程中明确说出自己用了哪个概念。

CORE 主要做了三件事（三种“私教”策略）：

策略一：直接练概念题 (CORE-Base)

比喻：私教不再只给综合试卷，而是专门出了一套**“概念专项练习题”**。
做法：把课本里的概念和对应的练习题配对，让 AI 专门练习这些题。这就像让学生专门练习“如何识别何时使用勾股定理”，而不是盲目刷题。

策略二：失败时“插播”概念提示 (CORE-CR)

比喻：这是最精彩的部分。当学生（AI）在解题过程中卡住或做错时，私教不会直接给答案，而是立刻在耳边提醒：“嘿！这道题其实是在考‘线性无关’这个概念，你想想看！”
做法：如果 AI 的一组尝试都失败了，系统会生成一个新的、带有“概念提示”的解题路径，并告诉 AI：“看，如果你一开始就想到这个概念，就能这样解。”然后让 AI 模仿这个正确的思路。这就像在 AI 迷路时，强行给它指了一条基于正确概念的路。

策略三：潜移默化的“思维对齐” (CORE-KL)

比喻：私教不仅给提示，还要求学生在心里模拟“如果我知道这个概念，我会怎么思考”。
做法：通过一种数学上的“距离”计算（KL 散度），强迫 AI 在没有提示的情况下，其思考过程也要尽可能接近“有提示时”的思考过程。这就像让学生在没有老师提醒的情况下，也要学会像老师一样思考。

4. 效果如何？（“考试”结果）

经过这种“概念导向”的训练后，AI 的表现有了质的飞跃：

不仅会做题，更懂原理：在同样的题目上，AI 不再只是碰运气，而是能准确识别出该用哪个数学概念。
抗干扰能力强：如果把题目里的干扰项（比如无关的废话）加进去，普通的 AI 会被带偏，但经过 CORE 训练的 AI 能稳如泰山，因为它抓住了核心的概念，不会被表面现象迷惑。
举一反三：不仅在练过的题目上变强了，在没见过的、更难的数学竞赛题上，表现也更好。

5. 总结：这不仅仅是数学

这篇论文的核心思想是：教 AI 数学，不能只教它“怎么做”，更要教它“为什么这么做”。

以前的 AI：像是一个模仿秀演员，模仿得惟妙惟肖，但一旦剧本（题目）变了，就演不下去了。
CORE 训练后的 AI：像是一个真正理解剧情的演员，即使剧本变了，它也能根据角色的核心逻辑（数学概念）即兴发挥，给出正确的表演。

一句话总结：
CORE 就像给 AI 装了一个**“概念导航仪”**，强迫它在解题时时刻关注“我到底在用哪个数学原理”，从而把“死记硬背”变成了“真正理解”，让 AI 从“做题机器”进化为“数学小天才”。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：CORE (Concept-Oriented REinforcement)

1. 研究背景与问题定义

核心问题：定义与应用的鸿沟 (Definition–Application Gap)
尽管大型语言模型 (LLM) 在解决高难度数学竞赛题方面表现出色，但它们往往缺乏真正的概念性推理 (Conceptual Reasoning) 能力。

现象：模型倾向于利用表面规律（如格式、关键词、步骤模式）进行模式匹配，或者机械地执行数值计算，而不是真正理解并应用数学概念（如线性无关性、连续性、凸性等）。
现有方法的局限：主流的强化学习验证奖励 (RLVR) 流程通常只优化最终答案的正确性（标量奖励）。这种粗粒度的信号无法指导模型在推理的哪个步骤、以何种方式调用特定的数学概念，导致模型学会了“套路”而非“原理”。
诊断发现：通过“健康检查”实验发现，模型能够准确复述概念定义（参数化知识），但在需要应用该概念解决具体问题时却频繁失败。这表明模型存在严重的“知而不会用”的鸿沟。

2. 方法论：CORE 框架

CORE (Concept-Oriented REinforcement) 是一个基于强化学习的训练框架，旨在将显式的数学概念转化为可控的监督信号，从而弥合上述鸿沟。该框架不改变模型架构，而是围绕标准的策略梯度 RL 算法（如 GRPO）构建。

2.1 数据构建 (Dataset Curation)

来源：选用经典教材《高等代数（第三版）》（姚 & 谢，2015），因其具有清晰的“概念 - 练习”对应关系，且经过人工翻译以规避现有英文语料的训练污染风险。
内容：提取了 236 个概念定义、703 个示例和 140 道选择题。
概念探针 (Concept Probes)：利用大模型基于概念定义生成了 1,110 道高质量的概念对齐测验题，用于量化评估模型的概念掌握程度。

2.2 核心训练策略 (Three Training Recipes)

CORE 提出了三种基于概念干预的训练变体，均基于 GRPO 算法：

CORE-Base (标准 RL)：
- 直接使用生成的概念对齐测验题进行标准 GRPO 训练。
- 目的：测试模型能否从概念 - 答案对中隐式地学习概念应用。
CORE-CR (概念引导轨迹替换，Concept-Guided Trajectory Replacement)：
- 触发机制：当一组采样轨迹（Rollout）中所有回答均错误时触发。
- 干预过程：
  1. 构建包含原始问题 $q$ 和对应概念文本 $c_q$ 的提示 $p_c = c_q \oplus q$ 。
  2. 利用该提示重新生成 $K$ 条新的概念引导轨迹。
  3. 用这些新轨迹替换原始失败组中的部分轨迹。
  4. 给予新轨迹额外的奖励加分 ( $r_{bonus}$ )。
- 特点：这是一种显式的纠错机制，直接引入概念知识来修正失败路径。
CORE-KL (概念引导 KL 正则化，Concept-Guided KL-Regularization)：
- 触发机制：同样在概念失败时触发。
- 干预过程：
  1. 生成一条高质量的概念引导参考轨迹 $Y^*$ 。
  2. 引入前向 KL 散度损失项，强制模型在原始问题 $q$ 上的预测分布 $\pi_\theta(\cdot|q, y_{<t})$ 去拟合在概念提示 $p_c$ 下的预测分布 $\pi_\theta(\cdot|p_c, y_{<t})$ 。
- 目的：这是一种隐式约束，鼓励模型在没有显式提示的情况下，内部推理过程也能模仿“概念引导”时的稳健路径。

3. 实验结果

实验在多个模型（Qwen2-Math-7B, DeepSeek-R1-Distill-Qwen-1.5B, Qwen2.5-Math-1.5B, Llama-3-8B-Instruct）上进行了验证。

3.1 性能提升

域内表现 (In-domain)：在基于教材的 Textbook 测试集上，CORE 变体相比 Vanilla 和 SFT 基线有显著提升（例如 Qwen2-Math-7B 在 Textbook 上提升达 9.3%）。
域外泛化 (Out-of-domain)：在 GSM8K, MATH, MMLU-STEM, OlympiadBench 等多样化基准测试中，CORE 均表现出一致的性能提升。
- 例如，CORE-CR 使 DeepSeek-R1-DQ-1.5B 在 MMLU-STEM 上提升 1.3%，在 SVAMP 上提升 1.2%。
- Qwen2.5-Math-1.5B 在 Minerva Math 上提升 3.3%。

3.2 鲁棒性分析

抗干扰能力：在问题前添加无关概念（Distractors）的扰动测试中，CORE 训练的模型比基线模型表现出更强的鲁棒性，准确率下降幅度更小。这表明模型不再依赖表面线索，而是真正理解了核心概念。
概念选择与应用的验证：在诊断子集分析中，超过 50% 的 CORE 成功案例被归类为“概念选择 (Concept-Selection)"，即模型明确调用并正确使用了目标概念，而非依赖启发式猜测。

3.3 消融实验与机制验证

非蒸馏驱动：实验证明，即使使用同量级模型（Qwen2-Math-7B）作为生成器进行自监督训练（无外部专家模型），CORE 依然有效。这排除了性能提升仅源于知识蒸馏的可能性，证实了框架本身的内在有效性。
非 GRPO 伪影：对比随机奖励 GRPO 和增加采样数量的控制实验，证明提升源于 CORE 的概念干预机制，而非 RL 算法本身的随机性或采样压力。
优于过程监督：相比基于验证器的过程奖励 (Process Supervision)，CORE 的显式概念引导干预效果更佳。

4. 关键贡献

提出了“定义 - 应用”鸿沟的量化诊断：通过概念探针实验，首次系统性地量化了 LLM 在数学概念复述与应用之间的巨大差距。
设计了 CORE 框架：提出了一种算法无关、验证器无关的 RL 训练范式，通过概念对齐测验、轨迹替换和KL 正则化三种策略，将显式概念信号注入强化学习过程。
实现了细粒度的概念监督：突破了传统 RLVR 仅关注最终答案的局限，提供了针对推理过程中概念调用的细粒度监督信号。
广泛的泛化性与通用性：在多种架构（Base 和 Instruction-tuned）和不同规模的模型上均验证了有效性，且无需修改模型架构。

5. 意义与展望

理论意义：证明了将显式概念知识引入强化学习循环，可以有效引导模型从“表面模式匹配”转向“深层概念推理”。
实践价值：为提升 LLM 在科学、数学等需要严谨逻辑推理领域的表现提供了可落地的训练方案。
未来方向：该方法论可推广至其他需要原则性推理的领域（如法律、物理、生物），推动 LLM 向具备真正理解能力的智能体发展。

总结：CORE 通过显式地将数学概念作为训练信号，成功解决了 LLM“知其然不知其所以然”的痛点，显著提升了模型在数学推理任务中的准确性、泛化能力和鲁棒性。

CORE: Concept-Oriented Reinforcement for Bridging the Definition-Application Gap in Mathematical Reasoning