Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给一群“小个子”的医疗 AI 助手做体检，看看它们在资源匮乏（比如没有超级电脑、只能靠普通电脑运行）的偏远诊所里，到底靠不靠谱。

研究者找了 5 个开源的“小模型”（就像 5 个不同性格的实习生），让它们回答 600 道医学考试题。为了测试它们稳不稳，研究者把同一道题用 5 种不同的问法（比如：像医生一样问、像普通人一样问、或者让 AI 扮演医生）反复问它们。

以下是这篇论文的核心发现，用几个生动的比喻来解释：

1. “嘴硬”的实习生：一致性 $\neq$ 正确性

比喻： 想象有一个实习生，你问他“苹果是什么颜色？”，无论你用中文、英文还是方言问，他每次都坚定地回答“蓝色”。

现象： 研究发现，Gemma 2 这个模型就是这种“嘴硬”的实习生。它对同一个问题，无论你怎么问，回答都非常一致（一致性得分最高），但它的回答经常是错的（准确率最低）。
教训： 在医疗领域，“总是给同一个错误答案”比“偶尔给对偶尔给错”更可怕。因为医生可能会觉得：“它每次都这么说，肯定是对的！”从而产生虚假的安全感，导致误诊。
结论： 一个 AI 很“稳定”，不代表它很“聪明”。稳定地犯错，是医疗 AI 最危险的故障模式。

2. “角色扮演”是个坑：别让它演医生

比喻： 如果你让一个实习生“假装成老专家”来回答问题，他可能会因为太想演得像，反而把原本会做的题做错了。

现象： 研究中发现，当提示词让 AI**“扮演一名执业医生”（Roleplay）时，所有模型的表现都变差了**。特别是 Phi-3 Mini，准确率直接暴跌了 20% 以上。
教训： 在医疗 AI 里，越简单直接越好。不要试图通过“扮演专家”来增加权威感，这反而会让小模型“走火入魔”，把原本简单的医学问题搞复杂，导致回答错误。
建议： 直接问问题，别加戏。

3. 个头大不代表靠谱：参数多 $\neq$ 听话

比喻： 就像有些身材高大的员工（大参数模型），虽然力气大，但可能听不懂老板的指令；而有些身材小巧的员工（小参数模型），虽然力气小，但特别听话，让你干啥就干啥。

现象： 最大的模型（Mistral 7B）并没有在所有方面都胜出。相反，Llama 3.2（30 亿参数）表现最均衡：它既比较聪明（准确率最高），又很听话（很少乱回答或答非所问）。
教训： 在资源有限的诊所，不要盲目追求“大模型”。Llama 3.2 这种“小身材、大智慧”的模型，在普通电脑上就能跑，而且既准又稳，是最佳选择。

4. 只有“知识”不够，还得会“听指挥”

比喻： 想象有一个博古通今的教授（Meditron-7B），他脑子里装满了医学书，但他没受过“如何回答考试题”的训练。

现象： 这个专门学过医学知识的模型，在遇到需要按格式回答（比如选 A/B/C/D 或是/否）的问题时，几乎完全崩溃（99% 的情况它要么不说话，要么乱说）。它知道很多，但不会按规矩办事。
教训： 在医疗部署中，“懂医学知识”和“能听懂指令”是两码事。如果你只选了一个懂医学但不会听指令的模型，它在实际工作中就是废的。

总结：给低资源医疗环境的建议

这篇论文告诉我们要给偏远地区的诊所部署 AI 时，不能只看它“答得对不对”（准确率），还要看它“稳不稳”（一致性）以及“听不听话”（指令遵循）。

最佳选手： Llama 3.2。它在准确性、稳定性和听话程度上取得了最好的平衡。
避坑指南：
1. 别信那些“虽然每次都答错，但很坚定”的模型。
2. 别用“扮演医生”这种花哨的提示词。
3. 别以为模型越大越好，小模型在普通电脑上也能干大事。
4. 别只用那些只懂医学知识但不会按格式回答的模型。

一句话总结： 在医疗 AI 的世界里，“靠谱”比“聪明”更重要，而“直接”比“演戏”更有效。 我们需要的是那种既能准确回答问题，又不会因为你换种问法就发疯的“老实人”助手。

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

1. “嘴硬”的实习生：一致性 $\neq$ 正确性

2. “角色扮演”是个坑：别让它演医生

3. 个头大不代表靠谱：参数多 $\neq$ 听话

4. 只有“知识”不够，还得会“听指挥”

总结：给低资源医疗环境的建议

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 关键贡献 (Key Contributions)

4. 主要结果 (Results)

5. 意义与启示 (Significance)

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

1. “嘴硬”的实习生：一致性 ≠\neq= 正确性

2. “角色扮演”是个坑：别让它演医生

3. 个头大不代表靠谱：参数多 ≠\neq= 听话

4. 只有“知识”不够，还得会“听指挥”

总结：给低资源医疗环境的建议

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 关键贡献 (Key Contributions)

4. 主要结果 (Results)

5. 意义与启示 (Significance)

类似论文

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA

1. “嘴硬”的实习生：一致性 $\neq$ 正确性

3. 个头大不代表靠谱：参数多 $\neq$ 听话