Each language version is independently generated for its own context, not a direct translation.
1. 研究背景与问题 (Problem)
核心挑战:
尽管大型语言模型(LLM)在数学和编程等结构化推理领域表现接近专家水平,但在**专业科学领域(如医学)进行组合式多跳推理(Compositional Multi-hop Reasoning)**的能力仍然有限。
- 现有局限: 当前的 LLM 往往依赖表面模式匹配或长文本生成,缺乏将基本公理事实可靠地组合以解决复杂多步问题的能力。
- 奖励设计的困境: 现有的后训练方法(如 RLHF、DPO)主要优化最终输出与人类偏好的一致性,而非推理过程本身。代理奖励信号(如长度、与专家答案的相似度)容易忽略复杂查询所需的组合细节,导致模型产生“奖励黑客”行为(即优化表面特征而非逻辑),在安全关键领域(如医疗)可能导致风格正确但事实错误的回答。
- 数据标注瓶颈: 为其他领域构建基于过程监督(Process Supervision)的专家标注数据成本高昂且难以规模化。
研究目标:
提出一种自底向上的学习范式,利用知识图谱(KG)作为隐式奖励模型,通过从 KG 路径中衍生出可验证的奖励信号,引导模型学习如何将基本公理组合起来解决未见过的复杂任务,而无需昂贵的人工标注。
2. 方法论 (Methodology)
作者提出了一种基于 SFT(监督微调)+ RL(强化学习) 的后训练流水线,核心创新在于利用 KG 路径作为奖励信号。
2.1 整体架构
流水线分为三个阶段:
- Base Model(基座模型): 使用 Qwen3 系列模型(实验中使用 8B 和 14B 参数)。
- SFT (LoRA): 使用高质量的 KG 衍生数据进行监督微调,使模型掌握领域内的原子事实和推理结构。
- RL (GRPO): 使用组相对策略优化(Group Relative Policy Optimization),利用从 KG 路径衍生的新型奖励信号进行微调,强化组合推理能力。
2.2 数据构建与公理 grounding
- 数据源: 基于统一医学语言系统(UMLS)构建的医学知识图谱。
- 生成策略: 在 KG 中遍历 n 跳路径(n 代表从起点到终点的跳数),生成多跳推理问答(MCQ)。
- 训练/测试分离:
- 训练集: 仅包含 1-3 跳 的短路径推理任务(24,660 个样本)。
- 测试集 (ICD-Bench): 包含 2-5 跳 的复杂任务(3,675 个样本),涵盖 15 个 ICD-10 类别,用于测试零样本泛化能力。
- 关键设计: 每个问题都配有一个可验证的“真值 KG 路径”(Ground-truth Path),即一系列 (头,关系,尾) 三元组,构成逻辑链条。
2.3 奖励函数设计 (Reward Design)
这是论文的核心贡献。作者设计了复合奖励函数 Rtotal,旨在平衡结果正确性与过程对齐:
Rtotal(y)=Rbin(a^,a∗)+Rpath(r,P)
- 二元正确性奖励 (Rbin):
- 基于最终答案是否正确。
- 采用非对称设计:正确得正分 (α),错误得较大的负分 (−β)。这种设计鼓励模型探索正确的替代路径,同时惩罚错误。
- 路径对齐奖励 (Rpath) - 核心创新:
- 原理: 将 KG 作为隐式奖励模型。检查模型生成的推理轨迹(Reasoning Trace)是否覆盖了真值 KG 路径中的实体和关系。
- 计算: 计算模型推理文本中的 Token 集合与 KG 路径实体 Token 集合的覆盖率(Coverage)。
- 约束: 设置最小命中约束(至少覆盖 2 个不同实体)以防止 trivial 匹配,并引入重复惩罚以防止语言坍缩。
- 优势: 该信号是可验证的、可扩展的,且直接基于领域结构,而非风格模仿。
2.4 训练策略发现
- Zero-RL 无效: 直接在基座模型上应用 RL(无 SFT 预热)效果不佳,模型缺乏领域公理基础,无法学习组合逻辑。
- SFT+RL 协同: 先用大量数据(
19k)进行 SFT 建立知识基础,再用少量高质量数据(5k)进行 RL 强化组合能力。
- 奖励组合: 发现“路径对齐 + 负向二元奖励”的组合效果最好,而包含所有奖励(如相似度、思考质量)反而导致性能下降(奖励冲突或黑客行为)。
3. 关键贡献 (Key Contributions)
- 基于 KG 的隐式奖励模型框架: 提出将知识图谱作为可验证的、可扩展的过程监督器,解决了专业领域过程奖励难以规模化标注的痛点。
- 路径衍生奖励信号 (Rpath): 设计了一种新颖的奖励机制,通过量化模型推理与真值 KG 路径的对齐程度,强制模型学习“组合逻辑”而非简单的模式匹配。
- 组合泛化能力 (Compositional Generalization): 证明了在短路径(1-3 跳)上训练,配合路径奖励,能使模型在未见过的长路径(4-5 跳)任务上实现显著的零样本泛化。
- 鲁棒性验证: 模型在对抗性扰动(如选项打乱)下表现出极高的稳定性,证明其依赖的是逻辑推理而非表面线索。
4. 实验结果 (Results)
实验在医学领域(ICD-Bench 基准)进行,对比了 Base 模型、仅 SFT 模型、SFT+RL 模型以及前沿大模型。
4.1 组合泛化:从短跳到长跳
- 现象: 模型仅在 1-3 跳数据上训练,但在 4-5 跳测试集上表现优异。
- 数据: 相比仅 SFT 模型,SFT+RL 模型在未见过的 4 跳 任务上提升了 7.5%,在 5 跳 任务上提升了 11.1%。
- 意义: 随着跳数增加,SFT+RL 与 SFT 的差距扩大,证明了模型真正学会了组合推理的逻辑,而非记忆训练数据。
4.2 难度分层表现
- 高难度任务: 在难度等级 5(Very Hard)的任务中,Base 模型准确率仅为 19.94%(低于随机猜测),SFT 提升至 48.93%,而 SFT+RL 达到 56.75%,性能接近 Base 模型的三倍。
- 一致性: 在所有难度级别上,SFT+RL 均保持 7-10% 的领先优势。
4.3 领域覆盖与鲁棒性
- ICD-10 分类: 在 15 个医学子领域(如血液免疫、循环系统、肿瘤等)中,SFT+RL 均表现出一致的提升,特别是在需要复杂证据组合的高风险领域。
- 选项打乱测试 (Option Shuffling): 在打乱选项顺序的压力测试下,SFT+RL 模型准确率仅下降约 1.17%(从 83.62% 到 82.45%),而 GPT-5 等前沿模型通常下降 4-6%。这表明模型不依赖选项位置等表面线索。
4.4 规模效率对比
- 小模型 vs 大模型: 一个经过精心训练的 14B 参数模型(SFT+RL),在复杂推理任务上超越了 GPT-5.2 和 Gemini 3 Pro 等通用巨型模型,以及 QwQ-Med-3 (32B) 等专门蒸馏模型。
- 趋势: 随着推理跳数增加,通用大模型的性能停滞或下降,而 14B SFT+RL 模型在 5 跳任务上达到最高准确率(89.33%)。
5. 意义与结论 (Significance & Conclusion)
核心结论:
- 数据质量优于规模: 在专业领域,高质量的、基于公理(Grounded)的数据和奖励设计,比单纯增加模型参数量更能有效构建推理能力。
- KG 作为隐式奖励: 知识图谱不仅是知识库,更是强大的、可扩展的“隐式奖励模型”,能够指导模型学习组合逻辑。
- 自底向上的学习路径: 先通过 SFT 掌握原子事实,再通过 RL 学习组合逻辑,是通往领域专家级智能的有效路径。
未来展望:
该方法具有领域无关性,可推广至化学、法律等任何能构建结构化 KG 的领域。这项工作为构建可验证、基于第一性原理(First Principles)的超级智能系统提供了一条高效、可扩展的新路径,减少了对昂贵人工标注的依赖。
总结:
这篇论文通过引入“知识图谱即隐式奖励模型”的概念,成功解决了 LLM 在专业领域多跳推理中的泛化难题。它证明了通过结合 SFT 的基础知识注入和基于 KG 路径的 RL 过程监督,小参数模型也能在复杂推理任务上超越更大的通用模型,为构建可信、可解释的 AI 推理系统提供了重要的技术范式。