OpenMedQ: Broad Open Pretraining for Medical Vision-Language Models

OpenMedQ 是一个最先进的医学视觉语言模型,它在包含 335 万个样本的广泛且完全开放的数据集上进行了预训练,在关键基准测试中表现优于 Med-PaLM M 等规模大得多的模型,同时在下游医学分类任务中取得了卓越的性能。

原作者: Ibrahim Gulluk, Max Van Puyvelde, Olivier Gevaert

发布于 2026-06-12
📖 1 分钟阅读☕ 轻松阅读

原作者: Ibrahim Gulluk, Max Van Puyvelde, Olivier Gevaert

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你正在试图教一个机器人理解复杂的医学世界。通常情况下,要做到这一点,你需要两样东西:一个能够阅读医学报告的“大脑”,以及一双能够观察 X 光片、显微镜图像和病理切片的“眼睛”。

长期以来,该领域最优秀的机器人(AI 模型)都像是深藏不露的天才。它们极其聪明,但它们的创造者会隐藏它们的训练书籍(数据)和大脑权重。你无法看到它们是如何学习的,无法复用它们的知识,也无法修正它们的错误。其他模型则像是专门的学徒;它们在某项特定任务(如阅读 X 光片)上表现出色,但读过的书还不够多,无法理解全貌。

OpenMedQ 是该论文给出的答案。它是一个全新的、“开源”的医疗机器人,作者通过收集了有史以来规模最大的开放、免费医学教科书和图像集来训练这个规模的模型。

以下是他们所做的工作及发现的详细拆解,使用了简单的类比:

1. “图书馆”(训练数据)

大多数医学 AI 模型是在一个规模较小、领域较窄的图书库中进行训练的。然而,OpenMedQ 是在一个庞大且多样化的图书馆中进行训练的,该图书馆包含 14 个不同的数据集,约有 335 万个样本

可以这样理解:

  • 其他模型可能只读过关于心脏 X 光片的书。
  • OpenMedQ 则读过了心脏 X 光片、大脑扫描、细胞显微镜切片,甚至还有纯文本形式的医学测验。
  • 至关重要的一点是,这个图书馆里的每一本书都是开放且免费的,供任何人使用。作者并没有隐藏他们的来源。

2. “大脑”与“眼睛”(架构)

该模型的构建方式类似于标准的现代 AI(被称为 LLaVA 式架构)。

  • 眼睛(视觉编码器): 它使用了一个预训练的“眼睛”,该眼睛已经擅长观察医学图像(来自一个名为 BiomedCLIP 的模型)。
  • 大脑(语言模型): 它将这些眼睛连接到一个已经擅长医学文本的大型语言大脑(LLaMA-7B)上。
  • 训练: 他们使用一种称为“下一标记预测”(next-token prediction)的技术,教会了眼睛和大脑如何相互交流。想象一下向机器人展示一张图像和一个问题,然后要求它不断猜测答案中的下一个词,直到它学会其中的模式。

3. “试驾”(结果)

作者对 OpenMedQ 进行了两次主要的测试,以观察它的学习效果。

测试 A:“常识问答”(视觉问答/VQA)
他们根据图像向机器人提问医学问题(例如,“这张 X 光片显示了什么?”)。

  • 结果: OpenMedQ 的得分高于一些规模最大、最昂贵的模型。
  • 类比: 想象 OpenMedQ 是一个拥有 7B 参数大脑(中等规模的大脑)的学生。它与一个巨大的、562B 参数大脑(巨大的超级计算机大脑)进行了一场对抗。尽管 OpenMedQ 的规模大约只有后者的 1/80,但它在某项特定测试(PathVQA)中取得了更高的分数,并在另一项测试(VQA-MED)中达到了顶尖水平。
  • 结论: 这证明了拥有一个广泛且开放的图书库,比仅仅拥有一个巨大的、秘密的大脑更为重要。

测试 B:“专家”考试(图像分类)
他们仅提取了 OpenMedQ 的“眼睛”(视觉部分),并测试了它在 8 个它从未见过的医学图像任务上的表现(如识别超声波中的乳腺癌或胸部 X 光片中的肺炎)。

  • 结果: OpenMedQ 的“眼睛”平均表现优于另外三个顶级医学模型(BiomedCLIP、PMC-CLIP、PubMedCLIP)以及一个从头开始训练的模型。
  • 类比: 这就像是一位看诊范围极广的全科医生,在被要求诊断特定疾病时,由于他们在训练期间见过极其多样化的病例,因此在处理新情况时,比那些只专注于某一狭窄领域的专科医生更能发现模式。

4. “缺陷”(局限性)

作者诚实地说明了机器人在哪些方面仍存在困难。

  • 并非处处完美: 虽然 OpenMedQ 平均表现最好,但它并未在每一个类别中都夺冠。例如,在乳腺超声图像方面,另一个模型仍然略胜一筹。
  • 表面层面: 测试得分(BLEU-1)衡量的是机器人的用词与人类答案的相似度,而不一定代表其医学推理是否 100% 正确。
  • “大模型”在某些领域仍占优势: 那些规模巨大且封闭的模型(如 Med-PaLM M)在涉及放射学和显微镜学的某些特定高难度测试中表现更好。

核心总结

这篇论文的核心信息是:多样性和开放性是强大的工具。你并不一定需要一个秘密的、庞大的超级计算机来构建一个优秀的医学 AI。如果你在一个最广泛、最开放的医学数据集合上训练一个中等规模的模型,你可以击败规模更大、封闭的模型。

作者已经公开了他们的代码、训练配方以及一个交互式演示界面,邀请所有人去检查、复用并改进他们的工作。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →