Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让人工智能（AI）变得更聪明、更会“动脑筋”的故事。简单来说，作者们发现了一个让 AI 从“死记硬背”进化到“逻辑推理”的秘诀。

我们可以把这项研究想象成教一个学生如何解复杂的数学题，而不是让他背答案。

1. 核心问题：AI 为什么会“假聪明”？

现在的 AI（大语言模型）很厉害，能写诗、写代码，甚至做简单的数学题。但在面对像医学诊断这样需要多步推理的复杂任务时，它们往往容易“翻车”。

现状：AI 就像是一个背书很厉害但不懂原理的学生。如果题目是它以前见过的，它能答对；但如果题目稍微变一下，需要把几个知识点串联起来（比如：症状 A -> 疾病 B -> 药物 C -> 副作用 D），它就开始胡编乱造，或者只猜一个看起来像正确答案的选项，却说不清为什么。
痛点：传统的训练方法（比如让人类专家给 AI 打分）太贵了，而且很难教 AI“思考的过程”，只能教它“最终答案”。

2. 核心创意：把“知识图谱”变成“隐形的阅卷老师”

作者提出了一个绝妙的想法：利用“知识图谱”（Knowledge Graph）作为隐形的奖励模型。

什么是知识图谱？
想象一下，医学知识不是散乱的书籍，而是一张巨大的地铁线路图。
- 站点是具体的概念（如“发烧”、“流感”、“退烧药”）。
- 线路是它们之间的关系（如“发烧” -> 可能由 -> “流感”引起）。
- 这张图是客观、真实、不会撒谎的。
隐形的阅卷老师（奖励模型）：
以前，AI 做完题，人类老师要读半天它的思考过程，然后打分（太慢、太贵）。
现在，作者让 AI 直接对着这张“地铁线路图”走。
- 如果 AI 的推理路径（比如：从“发烧”走到“流感”再走到“退烧药”）和地图上的真实线路重合，系统就给它发糖（奖励）。
- 如果 AI 瞎编了一条不存在的线路，或者跳过了关键站点，系统就扣糖（惩罚）。
- 关键点：这个“阅卷老师”不需要人类，它自动、快速、且永远客观。

3. 训练方法：先背单词，再学造句

作者设计了一个两步走的训练流程，就像教孩子学语言：

第一步：监督微调（SFT）—— 打基础
先给 AI 看大量简单的题目（1-3 步推理），让它把医学知识“背熟”，学会怎么把知识点连成句子。这就像教学生背单词和基础语法。
第二步：强化学习（RL）—— 练逻辑
这是最关键的一步。AI 开始尝试解决更难的题目（4-5 步推理，甚至它没见过的题目）。
- 这时候，“隐形的阅卷老师”（知识图谱） 上线了。
- 它不只看最后的答案对不对，更看 AI 的思考路径是否踩在了知识图谱的正确站点上。
- 通过这种“走对路就给糖”的机制，AI 学会了如何组合已知的知识点，去解决从未见过的新问题。

4. 惊人的成果：小模型打败大模型

实验结果非常令人兴奋：

举一反三：AI 只训练了简单的 1-3 步推理，但在测试中，它能完美解决 4-5 步的复杂难题。这说明它真的学会了“逻辑组合”，而不是死记硬背。
以小博大：作者用的只是一个中等大小的模型（14B 参数），但它打败了像 GPT-5.2 和 Gemini 3 Pro 这样更大、更昂贵的“超级模型”。
- 比喻：这就像是一个受过严格逻辑训练的普通高中生，在解决特定领域的难题时，打败了虽然知识渊博但缺乏逻辑训练的百科全书式天才。
抗干扰：即使把选择题的选项顺序打乱（很多 AI 会因此答错），这个模型依然能稳如泰山，因为它关注的是逻辑链条，而不是选项的位置。

5. 总结：为什么这很重要？

这篇论文告诉我们，让 AI 变聪明的关键，可能不在于把模型做得更大（堆算力），而在于如何让它“脚踏实地”地学习。

以前：我们试图用海量数据和人类反馈去“调教”AI，希望它自己悟出逻辑。
现在：我们给 AI 一个结构化的知识地图，让它在这个地图上练习“走路”。只要走的路径是对的，它就能学会如何把简单的砖块（事实）砌成坚固的大楼（复杂推理）。

一句话总结：
这项研究给 AI 配了一张客观的“真理地图”，教会了它如何一步步脚踏实地地推理，从而让一个中等规模的 AI 在专业领域（如医疗）变得比那些盲目追求“大而全”的超级 AI 更靠谱、更聪明。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心挑战：
尽管大型语言模型（LLM）在数学和编程等结构化推理领域表现接近专家水平，但在**专业科学领域（如医学）进行组合式多跳推理（Compositional Multi-hop Reasoning）**的能力仍然有限。

现有局限： 当前的 LLM 往往依赖表面模式匹配或长文本生成，缺乏将基本公理事实可靠地组合以解决复杂多步问题的能力。
奖励设计的困境： 现有的后训练方法（如 RLHF、DPO）主要优化最终输出与人类偏好的一致性，而非推理过程本身。代理奖励信号（如长度、与专家答案的相似度）容易忽略复杂查询所需的组合细节，导致模型产生“奖励黑客”行为（即优化表面特征而非逻辑），在安全关键领域（如医疗）可能导致风格正确但事实错误的回答。
数据标注瓶颈： 为其他领域构建基于过程监督（Process Supervision）的专家标注数据成本高昂且难以规模化。

研究目标：
提出一种自底向上的学习范式，利用知识图谱（KG）作为隐式奖励模型，通过从 KG 路径中衍生出可验证的奖励信号，引导模型学习如何将基本公理组合起来解决未见过的复杂任务，而无需昂贵的人工标注。

2. 方法论 (Methodology)

作者提出了一种基于 SFT（监督微调）+ RL（强化学习） 的后训练流水线，核心创新在于利用 KG 路径作为奖励信号。

2.1 整体架构

流水线分为三个阶段：

Base Model（基座模型）： 使用 Qwen3 系列模型（实验中使用 8B 和 14B 参数）。
SFT (LoRA)： 使用高质量的 KG 衍生数据进行监督微调，使模型掌握领域内的原子事实和推理结构。
RL (GRPO)： 使用组相对策略优化（Group Relative Policy Optimization），利用从 KG 路径衍生的新型奖励信号进行微调，强化组合推理能力。

2.2 数据构建与公理 grounding

数据源： 基于统一医学语言系统（UMLS）构建的医学知识图谱。
生成策略： 在 KG 中遍历 $n$ 跳路径（ $n$ 代表从起点到终点的跳数），生成多跳推理问答（MCQ）。
训练/测试分离：
- 训练集： 仅包含 1-3 跳 的短路径推理任务（24,660 个样本）。
- 测试集 (ICD-Bench)： 包含 2-5 跳 的复杂任务（3,675 个样本），涵盖 15 个 ICD-10 类别，用于测试零样本泛化能力。
关键设计： 每个问题都配有一个可验证的“真值 KG 路径”（Ground-truth Path），即一系列 (头，关系，尾) 三元组，构成逻辑链条。

2.3 奖励函数设计 (Reward Design)

这是论文的核心贡献。作者设计了复合奖励函数 $R_{total}$ ，旨在平衡结果正确性与过程对齐：

$R_{total}(y) = R_{bin}(\hat{a}, a^*) + R_{path}(r, P)$

二元正确性奖励 ( $R_{bin}$ )：
- 基于最终答案是否正确。
- 采用非对称设计：正确得正分 ( $\alpha$ )，错误得较大的负分 ( $-\beta$ )。这种设计鼓励模型探索正确的替代路径，同时惩罚错误。
路径对齐奖励 ( $R_{path}$ ) - 核心创新：
- 原理： 将 KG 作为隐式奖励模型。检查模型生成的推理轨迹（Reasoning Trace）是否覆盖了真值 KG 路径中的实体和关系。
- 计算： 计算模型推理文本中的 Token 集合与 KG 路径实体 Token 集合的覆盖率（Coverage）。
- 约束： 设置最小命中约束（至少覆盖 2 个不同实体）以防止 trivial 匹配，并引入重复惩罚以防止语言坍缩。
- 优势： 该信号是可验证的、可扩展的，且直接基于领域结构，而非风格模仿。

2.4 训练策略发现

Zero-RL 无效： 直接在基座模型上应用 RL（无 SFT 预热）效果不佳，模型缺乏领域公理基础，无法学习组合逻辑。
SFT+RL 协同： 先用大量数据（~~19k）进行 SFT 建立知识基础，再用少量高质量数据（~~5k）进行 RL 强化组合能力。
奖励组合： 发现“路径对齐 + 负向二元奖励”的组合效果最好，而包含所有奖励（如相似度、思考质量）反而导致性能下降（奖励冲突或黑客行为）。

3. 关键贡献 (Key Contributions)

基于 KG 的隐式奖励模型框架： 提出将知识图谱作为可验证的、可扩展的过程监督器，解决了专业领域过程奖励难以规模化标注的痛点。
路径衍生奖励信号 ( $R_{path}$ )： 设计了一种新颖的奖励机制，通过量化模型推理与真值 KG 路径的对齐程度，强制模型学习“组合逻辑”而非简单的模式匹配。
组合泛化能力 (Compositional Generalization)： 证明了在短路径（1-3 跳）上训练，配合路径奖励，能使模型在未见过的长路径（4-5 跳）任务上实现显著的零样本泛化。
鲁棒性验证： 模型在对抗性扰动（如选项打乱）下表现出极高的稳定性，证明其依赖的是逻辑推理而非表面线索。

4. 实验结果 (Results)

实验在医学领域（ICD-Bench 基准）进行，对比了 Base 模型、仅 SFT 模型、SFT+RL 模型以及前沿大模型。

4.1 组合泛化：从短跳到长跳

现象： 模型仅在 1-3 跳数据上训练，但在 4-5 跳测试集上表现优异。
数据： 相比仅 SFT 模型，SFT+RL 模型在未见过的 4 跳 任务上提升了 7.5%，在 5 跳 任务上提升了 11.1%。
意义： 随着跳数增加，SFT+RL 与 SFT 的差距扩大，证明了模型真正学会了组合推理的逻辑，而非记忆训练数据。

4.2 难度分层表现

高难度任务： 在难度等级 5（Very Hard）的任务中，Base 模型准确率仅为 19.94%（低于随机猜测），SFT 提升至 48.93%，而 SFT+RL 达到 56.75%，性能接近 Base 模型的三倍。
一致性： 在所有难度级别上，SFT+RL 均保持 7-10% 的领先优势。

4.3 领域覆盖与鲁棒性

ICD-10 分类： 在 15 个医学子领域（如血液免疫、循环系统、肿瘤等）中，SFT+RL 均表现出一致的提升，特别是在需要复杂证据组合的高风险领域。
选项打乱测试 (Option Shuffling)： 在打乱选项顺序的压力测试下，SFT+RL 模型准确率仅下降约 1.17%（从 83.62% 到 82.45%），而 GPT-5 等前沿模型通常下降 4-6%。这表明模型不依赖选项位置等表面线索。

4.4 规模效率对比

小模型 vs 大模型： 一个经过精心训练的 14B 参数模型（SFT+RL），在复杂推理任务上超越了 GPT-5.2 和 Gemini 3 Pro 等通用巨型模型，以及 QwQ-Med-3 (32B) 等专门蒸馏模型。
趋势： 随着推理跳数增加，通用大模型的性能停滞或下降，而 14B SFT+RL 模型在 5 跳任务上达到最高准确率（89.33%）。

5. 意义与结论 (Significance & Conclusion)

核心结论：

数据质量优于规模： 在专业领域，高质量的、基于公理（Grounded）的数据和奖励设计，比单纯增加模型参数量更能有效构建推理能力。
KG 作为隐式奖励： 知识图谱不仅是知识库，更是强大的、可扩展的“隐式奖励模型”，能够指导模型学习组合逻辑。
自底向上的学习路径： 先通过 SFT 掌握原子事实，再通过 RL 学习组合逻辑，是通往领域专家级智能的有效路径。

未来展望：
该方法具有领域无关性，可推广至化学、法律等任何能构建结构化 KG 的领域。这项工作为构建可验证、基于第一性原理（First Principles）的超级智能系统提供了一条高效、可扩展的新路径，减少了对昂贵人工标注的依赖。

总结：
这篇论文通过引入“知识图谱即隐式奖励模型”的概念，成功解决了 LLM 在专业领域多跳推理中的泛化难题。它证明了通过结合 SFT 的基础知识注入和基于 KG 路径的 RL 过程监督，小参数模型也能在复杂推理任务上超越更大的通用模型，为构建可信、可解释的 AI 推理系统提供了重要的技术范式。