Medical concept understanding in large language models is fragmented

⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的“医疗 AI 大模型”做了一次深度体检，结果发现了一个有趣但令人担忧的现象：这些 AI 虽然考试分数很高，但它们对医学知识的理解其实是“支离破碎”的。

为了让你更容易理解，我们可以把医学知识想象成一座巨大的图书馆，而每一个医学术语（比如“失嗅症”）就是图书馆里的一本书。

现在的 AI 大模型（LLM）在回答医学问题、做诊断辅助时表现得很棒，就像是一个超级学霸。但作者们想知道：这个学霸是真的读懂了书里的内容，还是只是靠死记硬背和猜题技巧在蒙答案？

为了搞清楚这一点，作者们没有直接考 AI 做复杂的诊断题，而是把“理解一本书”拆解成了三个简单的层次，就像检查一个人是否真的认识“苹果”：

第一层：认名字（概念身份）
- 比喻：有人问你“红富士”和“苹果”是不是同一种东西？
- AI 的表现：这一层 AI 做得非常好（准确率 90% 以上）。它知道“失嗅症”和“闻不到味道”说的是同一个病。就像它能把所有叫法不同的书都认出来是同一本。
第二层：理关系（概念层级）
- 比喻：有人问你“红富士”属于“水果”还是属于“蔬菜”？或者它和“香蕉”是什么关系？
- AI 的表现：这一层 AI 就有点吃力了（准确率降到 80% 左右）。它虽然知道名字，但有时候搞不清这本书在图书馆的哪个架子上，或者它和别的书是什么从属关系。
第三层：懂含义（概念意义）
- 比喻：有人问你“红富士”具体长什么样、什么味道、怎么吃？（需要看书的详细内容定义）。
- AI 的表现：这一层是最弱的（准确率只有 72%）。而且，这一层非常看心情（受上下文影响大）。如果旁边有人提示“这是苹果”，它就能答对；如果旁边有人故意误导说“这是蔬菜”，它就容易跟着乱猜。

作者们把这三个层次结合起来看，发现了一个更严重的问题：AI 对同一个医学概念的理解是“分裂”的。

比喻：想象你在教一个学生认识“苹果”。
- 57.7% 的时候，学生既知道名字，又知道它是水果，还知道它长什么样（完全理解）。
- 41.3% 的时候，学生知道名字，但不知道它是水果，或者知道它是水果但不知道它长什么样（半懂不懂）。
- 只有 1.1% 的时候，学生完全不知道这是啥。

这意味着什么？
这就好比一个医生，有时候能准确说出病名，有时候能判断出病的分类，但有时候却完全搞不懂这个病到底是怎么回事。这种知识的不连贯性（Fragmentation）非常危险。

论文指出，现在的 AI 主要是靠预测下一个字来学习的（就像我们玩“成语接龙”）。

名字好记：因为书里经常把“失嗅症”和“闻不到味道”放在一起写，AI 很容易学会把它们连起来。
关系难学：因为书里很少明确写“失嗅症属于嗅觉异常”这种逻辑结构，AI 就很难通过“猜字”学会这种深层逻辑。
定义易碎：因为 AI 没有真正“理解”定义，它只是记住了定义长什么样。一旦有人给它错误的提示（比如告诉它“失嗅症不是嗅觉问题”），它就容易跟着错误提示跑偏。

不要只看分数：虽然 AI 在医学考试里能拿高分，但这可能只是因为它擅长“做题技巧”，而不是因为它真的像人类专家那样拥有系统、严谨的医学思维。
需要“地图”辅助：既然 AI 自己脑子里的“医学地图”是破碎的，我们需要给它提供一张标准的医学地图（也就是专业的医学本体库，如 HPO）。当 AI 在思考时，如果给它提供正确的背景知识，它就能变聪明；如果给它错误的信息，它就会变笨。
未来的方向：未来的医疗 AI 不能只靠“大模型”自己瞎猜，必须把大模型的灵活性和医学知识库的严谨性结合起来，才能做出真正安全、可靠的医疗助手。

一句话总结：
现在的医疗 AI 像个博闻强记但逻辑偶尔断线的实习生，它能认出很多术语，但还没完全搞懂它们之间的深层逻辑。我们在使用它时，必须时刻警惕它的“知识碎片”，并给它提供正确的指引，不能盲目相信它的每一个判断。

类似论文