When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给医疗 AI 医生做了一次“体检”和“特训”，目的是搞清楚：到底什么时候给 AI 用“强化学习”（RL）这种高级训练法，才能真正帮到忙？

为了让你更容易理解，我们可以把训练医疗 AI 的过程想象成培养一名“放射科实习生”。

1. 核心问题：我们是在“练内功”还是“练招式”？

现在的医疗 AI（医学视觉 - 语言模型，VLM）通常分三步走：

预训练（Base Model）：让实习生看遍互联网上的各种图片，有个大概印象。
监督微调（SFT）：给实习生看很多标准的“教科书案例”，教他怎么按步骤看病。
强化学习（RL）：让实习生做大量模拟题，做对了给奖励，做错了扣分，逼他“悟”出更优的解题思路。

这篇论文发现了一个大秘密：
很多人以为 RL 能让 AI 突然“开窍”，学会以前不会的看病逻辑。但作者发现，RL 其实更像是一个“精修师”，而不是“启蒙老师”。

SFT（微调） 是**“打地基”**：它负责让 AI 真正看懂病，把原本看不懂的病看懂（扩大“支持范围”）。
RL（强化学习） 是**“练手感”**：它负责让 AI 在已经会看病的基础上，更稳定、更快速地把正确答案选出来（提高“采样效率”）。

2. 三个关键发现（用比喻解释）

作者用了一个叫 MedMNIST 的“模拟考场”（包含 X 光、显微镜、皮肤照片等不同模态），做了三个实验：

发现一：视力好不好，是硬伤

比喻：如果实习生的眼睛（视觉编码器） 根本看不清 X 光片上的阴影，那你给他再好的“解题技巧”（RL）也没用。
结论：很多 AI 的失败是因为“看不清”，而不是“不会想”。SFT 能帮它把眼睛擦亮，但 RL 对提升视力帮助不大。

发现二：心里有数，但嘴上说不出

比喻：有时候实习生心里其实知道正确答案（比如他知道是肺炎），但如果让他只说一次（Greedy Decoding，贪心解码），他可能会因为紧张说错。但如果让他多试几次（Pass@K，比如让他猜 8 次），其中总有一次能蒙对。
结论：AI 的“心里能力”（Pass@K）往往比“实际表现”（Acc@1）强很多。SFT 能同时提升这两者，但 RL 主要是帮它把“心里知道”变成“嘴上说对”，缩小这个差距。

发现三：RL 什么时候才管用？

比喻：
- 情况 A（地基没打好）：如果实习生连基本的病都认不全（Pass@K 很低），你直接让他去搞“强化训练”（RL），他不仅学不会，反而可能因为过度追求高分而变得死板，连原本会做的题都做错了。
- 情况 B（地基打好了）：如果实习生已经能认出大部分病（Pass@K 很高），这时候用 RL 就像给赛车手做最后的高强度特训，能让他把原本 80% 的胜率稳定提升到 90%。
结论：RL 只有在模型已经具备一定“底气”（非平凡的支持）时，才是神助攻。 如果底子太薄，RL 反而可能帮倒忙。

3. 作者提出的“最佳食谱”

基于以上发现，作者给医疗 AI 的开发者们开了一张**“三步走”食谱**：

先体检（Diagnose）：
先别急着上 RL。先让模型做几套题，看看它“心里知道”正确答案的概率（Pass@K）高不高。
补地基（Bridge）：
如果“心里知道”的概率很低（比如低于某个阈值），说明它还没学会。这时候不要用 RL，而是要加数据、做监督微调（SFT），先把它教会，把“支持范围”扩大。
再精修（Sharpen）：
等它已经“心里有数”了，再上 RL。这时候 RL 就像抛光剂，能把它的输出打磨得更精准，让它每次都能把那个正确的答案挑出来。

4. 最终成果：MedBridgeRL

作者用这个“食谱”重新训练了一个叫 OctoMed 的模型。

他们先让模型在大量医疗数据上“补课”（SFT）。
然后在一个精心挑选的、平衡了各种医学影像（CT、MRI、显微镜等）的小数据集上，用 RL 进行“精修”。
结果：这个新模型在 6 个不同的医疗问答测试中，表现都超过了现有的其他顶尖模型，而且特别稳定。

总结

这篇论文告诉我们：别迷信“强化学习”是万能药。

在医疗 AI 领域，先要把“基本功”（SFT）练扎实，确保模型真的“看懂”了病，然后再用 RL 去“优化”它的表现。 如果基本功没打好就急着用 RL，就像让一个连解剖图都看不懂的学生去参加奥数集训，不仅学不会，还可能把原本会的都忘了。

一句话概括：
先教它“会做”，再教它“做对”；顺序反了，效果全废。

Each language version is independently generated for its own context, not a direct translation.

这篇论文《When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains》（强化学习何时帮助医疗视觉语言模型？解耦视觉、SFT 与 RL 的收益）深入探讨了强化学习（RL）在医疗视觉语言模型（VLM）后训练阶段的作用机制。作者通过受控实验，区分了视觉感知能力、监督微调（SFT）和强化学习各自对模型性能提升的贡献，并提出了一个基于“能力边界”的优化策略。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：医疗 VLM 在临床影像分析、报告辅助和决策支持中展现出巨大潜力。为了提升模型的可靠性和推理能力，研究者开始在后训练阶段引入强化学习（特别是基于可验证奖励的 RLVR，如 GRPO）。
核心问题：目前的医疗 VLM-RL 流程通常遵循“预训练 -> SFT -> RL"的模式，但存在以下未解之谜：
- 观察到的性能提升究竟源于视觉感知能力的增强，还是语言侧的对齐？
- 多少收益来自 SFT，多少真正来自 RL？
- 在什么条件下，RL 的投入产出比才是合理的？
- 现有的研究往往假设 RL 能创造新的推理能力，但通用 LLM 领域的研究（如 Yue et al., Zhang et al.）表明 RL 可能主要是重塑输出分布以提高采样效率，而非扩展底层的支持范围（Support）。

2. 方法论 (Methodology)

作者设计了一个受控研究框架，利用 MedMNIST-v2 作为多模态测试床，从三个维度解耦视觉、SFT 和 RL 的影响：

2.1 实验设置

基座模型：Qwen2.5-VL-7B-Instruct ( $M_{Base}$ )。
SFT 模型：使用 OctoMed 进行医疗领域微调 ( $M_{SFT}$ )。
RL 模型：包含现有的 RL 后训练模型 QoQ-Med ( $M_{RL}$ ) 以及作者自行训练的 RL 变体。
评估指标：
- 视觉感知：冻结视觉编码器进行线性探测（Linear Probing），评估特征的可分性。
- 推理能力与支持边界：对比 Accuracy@1（贪婪解码下的准确率）与 Pass@K（采样 K 次中至少一次正确的概率）。Pass@K 代表模型潜在的“支持”（Support），即正确答案是否存在于分布中；Accuracy@1 代表贪婪解码能否提取出该答案。
- 训练策略：使用一致性感知的 GRPO（Consistency-aware GRPO）在少量数据上进行训练，以稳定优化。

2.2 三个核心研究问题 (RQs)

RQ1：医疗 VLM 的视觉表征有多强？
- 通过线性探测评估冻结的视觉编码器在不同模态（放射学、显微镜、可见光）任务上的表现。
RQ2：医疗 VLM 的推理能力边界是什么？
- 通过 Pass@K 曲线分析模型是否存在“潜在支持”（即正确答案存在但贪婪解码无法获取）。
RQ3：RL 何时对医疗 VLM 有帮助？
- 在域内（In-domain）、模态内（Within-modality）和跨模态（Cross-modality）场景下，测试 RL 对 Accuracy@1 和 Pass@K 的影响。

3. 关键发现 (Key Findings)

发现 1：视觉感知瓶颈

基座模型在许多 MedMNIST 任务上已具备可分离的视觉特征，SFT 能进一步提升（特别是在弱数据集上）。
RL 并未显著提升视觉编码器的线性探测准确率。这表明 RL 的主要作用在于采样/对齐，而非增强底层的视觉感知能力。部分数据集仍受限于视觉感知瓶颈，导致下游收益有上限。

发现 2：支持边界与采样效率

Accuracy@1 往往远低于 Pass@K，说明模型分布中存在大量正确答案，但贪婪解码未能有效利用（存在巨大的“支持差距”）。
SFT 的作用：同时提升 Accuracy@1 和 Pass@K，意味着 SFT 扩展了模型的知识覆盖范围（Support）并改善了语言对齐。
RL 的作用：RL 后训练的模型（如 QoQ-Med）在 MedMNIST 上并未一致地提升 Accuracy@1，甚至有时降低了 Pass@K。这表明 RL 主要是锐化输出分布（将概率质量集中在已有的正确答案上），而非扩展支持范围。如果基础支持不足，RL 可能导致分布过窄。

发现 3：RL 生效的条件

RL 最有效的场景：当模型已经具备**非平凡的支持（Non-trivial Support，即较高的 Pass@K）**时。
机制：RL 通过锐化分布，将已有的潜在能力转化为更高的 Accuracy@1（提高采样效率），并缩小 Accuracy@1 与 Pass@K 之间的差距。
失效场景：当支持较弱（如大跨度模态迁移或跨模态任务）时，RL 带来的准确率提升有限，甚至可能因过度锐化导致 Pass@K 下降。

4. 提出的解决方案：边界感知食谱 (Boundary-Aware Recipe)

基于上述发现，作者提出了一套分阶段的后训练策略（如图 3 所示）：

诊断支持 (Diagnose Support)：在小验证集上估算 $S_K$ (Pass@K) 和 $A$ (Acc@1)，计算支持差距 $G_K = S_K - A$ 。
桥接支持 (Bridge Support)：如果 $S_K < \tau$ （阈值），说明模型缺乏潜在能力。此时应优先进行监督微调 (SFT)，添加任务相关或模态邻近的数据，以扩展覆盖范围（提升 Pass@K）。
锐化支持 (Sharpen Support)：如果 $S_K \ge \tau$ ，说明模型已有足够能力但采样效率低。此时应用 RL 来优化输出分布，提升 Acc@1，同时监控避免过度锐化导致支持坍塌。

5. 实验结果 (Results)

验证实验：作者在 OctoMed-7B 基础上，使用 PMC-VQA 中精心平衡的 8000 个多模态选择题子集进行 RL 后训练。
基准测试：在六个医疗 VQA 基准（PMC, MMMU, MedX-M, PathVQA, SLAKE, VQA-Rad）上评估。
性能：提出的模型（Ours）在平均性能上达到了 64.91，优于其他基于 Qwen2.5-VL 的医疗 VLM 基线（如 QoQ-Med, MedVLThinker, OctoMed 等），特别是在保持多模态平衡的同时实现了最强的综合表现。
结论：从“已桥接”的检查点（SFT 后）开始进行 RL，能够安全有效地提升准确率，避免了直接对弱支持基座进行 RL 导致的失败模式。

6. 意义与贡献 (Significance)

理论澄清：明确区分了 SFT（扩展支持/覆盖范围）和 RL（锐化分布/提升采样效率）在医疗 VLM 中的不同角色，纠正了"RL 能凭空创造推理能力”的误解。
方法论创新：引入了基于 Pass@K 和 Acc@1 差异的“支持边界”视角，为评估医疗模型提供了更细致的诊断工具。
实践指导：提出了“先桥接，后锐化”的实用食谱，指导研究者在资源有限的情况下，如何高效地组合 SFT 和 RL，避免在模型能力不足时盲目使用 RL。
开源贡献：发布了基于该策略训练的模型及项目页面，为医疗 VLM 的可靠部署提供了新的技术路径。

总结：该论文指出，RL 并非万能药。在医疗 VLM 中，RL 的最佳作用是作为 SFT 之后的“精修”步骤，用于将模型已有的潜在推理能力高效地转化为实际的高准确率输出。只有在模型通过 SFT 建立了足够的“支持”（Pass@K）之后，RL 才能发挥最大效用。