📄 health informatics

Evaluating Large Language Models for Translating Multimodal Phenotype Documentations into Executable EHR Phenotyping Algorithms

本研究评估了前沿大语言模型在将多模态临床表型文档转化为可执行电子健康记录算法方面的表现，发现尽管它们能有效解读结构化文本，但在仅含图表的输入下性能显著下降，最终确定文档质量而非模型能力是主要瓶颈。

原作者： Yan, C., Xin, Y., Su, W.-C., Gangireddy, S., Durbhakula, S., Bruehl, S. P., Dickson, A. L., Li, L., Feng, Q., Malin, B. A., Derr, T., Wei, W.-Q.

发布于 2026-05-22

📖 1 分钟阅读☕ 轻松阅读

CC BY 4.0

原作者： Yan, C., Xin, Y., Su, W.-C., Gangireddy, S., Durbhakula, S., Bruehl, S. P., Dickson, A. L., Li, L., Feng, Q., Malin, B. A., Derr, T., Wei, W.-Q.

原始论文采用 CC BY 4.0 许可（https://creativecommons.org/licenses/by/4.0/）。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

想象你是一位名厨，试图复刻一道名菜，但你没有食谱。相反，你面前是一堆杂乱的笔记：有些写在餐巾纸上，有些画成卡通图，还有些用令人困惑的混合语言写成。你的目标是将这些杂乱的笔记转化为一份精确、分步的操作手册，让机器人厨房能够遵循它完美地烹制这道菜。

本文旨在测试两位“超级智能 AI 厨师”（即大型语言模型，简称 LLMs），看它们能否胜任医学研究中的这项工作。

问题所在：“翻译丢失”的食谱

在医学研究中，科学家使用复杂的规则来定义特定的患者群体（例如"2 型糖尿病患者”）。这些规则通常写在人类可读的文档中，看起来像是故事、流程图和表格的混合体。

为了在医院计算机系统中使用这些规则，人类专家必须手动将它们翻译成计算机语言（SQL）。这就像将一首诗翻译成计算机代码。这个过程耗时漫长、极其枯燥，而且如果由两位不同的专家执行，最终结果可能会有细微差异。研究人员希望看看 AI 能否自动完成这种翻译。

实验：测试 AI 厨师

研究人员挑选了当时最智能的两个 AI 模型（OpenAI 的 GPT o3 和 Anthropic 的 Claude Opus 4.1），并从名为 PheKB 的公共图书馆中，为它们提供了五种不同的“食谱”（即针对肾损伤、心脏病发作和糖尿病等疾病的医学定义）。

他们通过三种不同的方式测试了 AI，就像给厨师提供不同类型的指令：

全套方案：AI 获得了整个文档（包括文本、图表和图示）。
仅故事：AI 仅获得书面文本和表格，没有图片。
仅图片：AI 仅获得图表和流程图，没有任何文字。

结果：什么有效，什么无效

1. “仅图片”的陷阱
当 AI 尝试仅阅读图表（流程图）时，它彻底失败了。这就像要求一位厨师仅通过观察一口锅和一把叉子的图画来烹制一顿复杂的饭菜，而没有文字说明食材或火候。AI 遗漏了关键细节，搞错了时间，并生成了无法执行的指令。

2. “故事”才是王道
当 AI 获得书面文本（即使没有图片）时，它表现得非常好。事实证明，书面文字包含了几乎所有必要的信息。AI 能够理解逻辑并准确地编写计算机代码。

3. AI 是出色的起草者，而非最终编辑
两个 AI 模型在理解规则的全局和逻辑方面都表现出惊人的能力。然而，它们会犯特定类型的错误：

遗漏食材：它们有时会忘记包含特定的医疗代码（例如某种特定药物）。
数字错误：它们可能会搞错阈值（例如，将规则中的“血压超过 150"写成“超过 140"）。
凭空捏造：有时，AI 会编造原始文档中根本不存在的规则或条件（即“幻觉”）。
混淆格式：在查看图表时，它们往往无法弄清楚如何将视觉箭头转化为逻辑上的“如果 - 那么”计算机指令。

核心结论

该论文得出结论：这些 AI 模型尚未准备好取代人类专家。它们无法仅仅查看一份杂乱的文档，就吐出一个完美、立即可用的计算机程序。

然而，它们是极佳的初稿生成器。如果你给它们清晰、结构化的文本，它们可以写出非常好的代码起点。但由于它们可能会犯微妙但危险的错误（例如数字错误或遗漏规则），人类专家必须始终检查它们的工作。

最终教训：
最大的问题不在于 AI 不够聪明，而在于医学文档的撰写方式不利于计算机阅读。如果医生和研究人员将他们的笔记标准化，使其更清晰、更有条理（就像将食谱写成标准格式，而不是潦草地写在餐巾纸上），AI 将变得更有用。在此之前，AI 是一位得力的助手，但人类专家必须始终担任主导。

问题所在：“翻译丢失”的食谱

实验：测试 AI 厨师

结果：什么有效，什么无效

核心结论

技术摘要：评估大型语言模型将多模态表型文档转化为可执行电子健康记录表型算法的能力

类似论文