想象一下，你正在试图教一个机器人理解复杂的医学世界。通常情况下，要做到这一点，你需要两样东西：一个能够阅读医学报告的“大脑”，以及一双能够观察 X 光片、显微镜图像和病理切片的“眼睛”。

长期以来，该领域最优秀的机器人（AI 模型）都像是深藏不露的天才。它们极其聪明，但它们的创造者会隐藏它们的训练书籍（数据）和大脑权重。你无法看到它们是如何学习的，无法复用它们的知识，也无法修正它们的错误。其他模型则像是专门的学徒；它们在某项特定任务（如阅读 X 光片）上表现出色，但读过的书还不够多，无法理解全貌。

OpenMedQ 是该论文给出的答案。它是一个全新的、“开源”的医疗机器人，作者通过收集了有史以来规模最大的开放、免费医学教科书和图像集来训练这个规模的模型。

以下是他们所做的工作及发现的详细拆解，使用了简单的类比：

1. “图书馆”（训练数据）

大多数医学 AI 模型是在一个规模较小、领域较窄的图书库中进行训练的。然而，OpenMedQ 是在一个庞大且多样化的图书馆中进行训练的，该图书馆包含 14 个不同的数据集，约有 335 万个样本。

可以这样理解：

其他模型可能只读过关于心脏 X 光片的书。
OpenMedQ 则读过了心脏 X 光片、大脑扫描、细胞显微镜切片，甚至还有纯文本形式的医学测验。
至关重要的一点是，这个图书馆里的每一本书都是开放且免费的，供任何人使用。作者并没有隐藏他们的来源。

2. “大脑”与“眼睛”（架构）

该模型的构建方式类似于标准的现代 AI（被称为 LLaVA 式架构）。

眼睛（视觉编码器）： 它使用了一个预训练的“眼睛”，该眼睛已经擅长观察医学图像（来自一个名为 BiomedCLIP 的模型）。
大脑（语言模型）： 它将这些眼睛连接到一个已经擅长医学文本的大型语言大脑（LLaMA-7B）上。
训练： 他们使用一种称为“下一标记预测”（next-token prediction）的技术，教会了眼睛和大脑如何相互交流。想象一下向机器人展示一张图像和一个问题，然后要求它不断猜测答案中的下一个词，直到它学会其中的模式。

3. “试驾”（结果）

作者对 OpenMedQ 进行了两次主要的测试，以观察它的学习效果。

测试 A：“常识问答”（视觉问答/VQA）
他们根据图像向机器人提问医学问题（例如，“这张 X 光片显示了什么？”）。

结果： OpenMedQ 的得分高于一些规模最大、最昂贵的模型。
类比： 想象 OpenMedQ 是一个拥有 7B 参数大脑（中等规模的大脑）的学生。它与一个巨大的、562B 参数大脑（巨大的超级计算机大脑）进行了一场对抗。尽管 OpenMedQ 的规模大约只有后者的 1/80，但它在某项特定测试（PathVQA）中取得了更高的分数，并在另一项测试（VQA-MED）中达到了顶尖水平。
结论： 这证明了拥有一个广泛且开放的图书库，比仅仅拥有一个巨大的、秘密的大脑更为重要。

测试 B：“专家”考试（图像分类）
他们仅提取了 OpenMedQ 的“眼睛”（视觉部分），并测试了它在 8 个它从未见过的医学图像任务上的表现（如识别超声波中的乳腺癌或胸部 X 光片中的肺炎）。

结果： OpenMedQ 的“眼睛”平均表现优于另外三个顶级医学模型（BiomedCLIP、PMC-CLIP、PubMedCLIP）以及一个从头开始训练的模型。
类比： 这就像是一位看诊范围极广的全科医生，在被要求诊断特定疾病时，由于他们在训练期间见过极其多样化的病例，因此在处理新情况时，比那些只专注于某一狭窄领域的专科医生更能发现模式。

4. “缺陷”（局限性）

作者诚实地说明了机器人在哪些方面仍存在困难。

并非处处完美： 虽然 OpenMedQ 平均表现最好，但它并未在每一个类别中都夺冠。例如，在乳腺超声图像方面，另一个模型仍然略胜一筹。
表面层面： 测试得分（BLEU-1）衡量的是机器人的用词与人类答案的相似度，而不一定代表其医学推理是否 100% 正确。
“大模型”在某些领域仍占优势： 那些规模巨大且封闭的模型（如 Med-PaLM M）在涉及放射学和显微镜学的某些特定高难度测试中表现更好。

核心总结

这篇论文的核心信息是：多样性和开放性是强大的工具。你并不一定需要一个秘密的、庞大的超级计算机来构建一个优秀的医学 AI。如果你在一个最广泛、最开放的医学数据集合上训练一个中等规模的模型，你可以击败规模更大、封闭的模型。

作者已经公开了他们的代码、训练配方以及一个交互式演示界面，邀请所有人去检查、复用并改进他们的工作。

技术摘要：OpenMedQ：面向医学视觉语言模型的广泛开放预训练

问题陈述

尽管医学基础模型的能力不断提升，但在提供完全开放且经过广泛预训练的基准模型方面仍存在显著差距。大多数已发表的医学视觉语言模型（VLMs）依赖于狭窄的预训练来源，并且通常不公开其权重、训练数据或两者皆不公开。现有的对比编码器（如 BiomedCLIP、PMC-CLIP）是在单一图像-文本对语料库上训练的，而生成式 VLM（如 PMC-VQA、LLaVA-Med）使用的预训练混合数据也同样狭窄。虽然像 BiomedGPT 和 Med-PaLM M 这样的大型模型扩展了数据和参数规模，但它们并不发布权重。因此，从业者缺乏一个既经过广泛预训练，又完全开放用于检查、重用和扩展的透明且可复现的基准。

方法论

作者引入了 OpenMedQ，这是一种旨在通过广泛、开放的预训练来解决上述局限性的医学 VLM。

架构： OpenMedQ 遵循 LLaVA 式架构，由一个视觉编码器和一个语言模型组成。
- 视觉编码器： 一个从 BiomedCLIP 初始化的 ViT-base-patch16-224。
- 语言模型： 一个从 PMC-LLaMA 初始化的 LLaMA-7B 模型。
- 集成： 图像 token 通过线性投影并与文本 token 拼接，进行从左到右的解码。
预训练策略： 该模型使用下一 token 预测进行训练，采用低秩自适应（LoRA）技术，秩为 $r=8$ 。在训练期间，图像和前缀 token 被遮蔽，以专注于下一 token 的交叉熵计算。
训练配置： 图像被调整为 224×224 大小。训练使用 AdamW 优化器，Batch Size 为 64，学习率为 $5\times10^{-5}$ ，并在单张 NVIDIA A100 上运行最多 15 个 epoch。
分类迁移： 为了评估所学视觉特征的质量，将视觉编码器 ( $f_{vis}$ ) 脱离并连接到一个线性头 ( $W \in \mathbb{R}^{2d \times m}$ )。两者在下游数据集上共同进行 100 个 epoch 的微调。这种设置确保了性能差异归因于预训练而非下游架构的变化。

核心贡献

最广泛的开放预训练混合集： OpenMedQ 在迄今为止最广泛的完全开放医学数据集混合集上进行了预训练，包含 14 个数据集，约 335 万个样本。该混合集涵盖：
- 病理学： PathVQA。
- 放射学： VQA-RAD、IU-XRAY、MIMIC-CXR、ROCO、OmniMedVQA。
- 显微镜学： $\mu$ -Bench。
- 混合模态： Slake、PMC-OA、PMC-VQA、VQA-MED。
- 纯文本临床问答： MedQA、MedMCQA、PubMedQA（约 41 万个样本），以保留语言能力。
开放发布： 作者承诺在论文接受后发布模型权重和数据集配方，并提供一个用于定性检查的实时交互式演示。
可复现的基准： 本文建立了一个标准化的下游流程，以便公平地比较预训练数据多样性相对于强基准模型的性能影响。

结果

论文报告了在两个主要任务上的表现：分类迁移和开放式视觉问答（VQA）。

1. 分类迁移

OpenMedQ 的视觉编码器在 8 个未见过的医学分类基准测试（CXR8、MedFMC 子任务、Breast-Ultrasound、CHAOYANG、CBIS-DDSM、Mendeley-CXray）上进行了评估。

性能： OpenMedQ 取得了最高的平均宏 F1 分数 0.757。
对比： 这超越了 BiomedCLIP (0.745)、PMC-CLIP (0.745)、PubMedCLIP (0.746) 以及一个从零开始训练的基准 (0.616)。
具体优势： OpenMedQ 在 MedFMC-chest 和 MedFMC-endo 上取得了绝对领先，在 CXR8 上与 PMC-CLIP 持平，并在其他四个基准测试中仅落后于最佳编码器不超过 0.02。唯一的显著差距出现在 Breast-Ultrasound（0.876 对 0.915）。

2. 开放式 VQA

PathVQA： OpenMedQ 取得了 75.9 的 BLEU-1 分数，超过了前缀微调方法 (70.3) 以及所有三个 Med-PaLM M 变体（参数量高达 562B，得分最高为 72.27），尽管 OpenMedQ 仅使用了 7B 参数。
VQA-MED： 该模型达到了 64.5 的 BLEU-1，略高于 2019 年挑战赛报告的最佳分数 (64.4)。

重要性与主张

论文指出，开放预训练数据的广度是医学 VLM 的关键竞争优势。作者声称，数据多样性是一个可复现的性能杠杆，而专有规模则不然。

效率： OpenMedQ 证明，当在广泛的开放混合集上训练时，一个 7B 参数的模型可以在 PathVQA 上设定新的最先进水平（SOTA），甚至超越了规模大其 80 倍的模型（562B 参数）。
泛化能力： 视觉编码器在平均分类迁移上的卓越表现表明，广泛的预训练比狭窄的单模态预训练能产生更鲁棒的特征表示。
局限性： 作者谦虚地承认其方法存在局限。较大的专有变体（如 Med-PaLM M）在特定基准测试（如 VQA-RAD 和 Slake）上仍然领先。此外，BLEU-1 仅捕捉表面一致性，且狭窄模态的编码器在特定任务（如 Breast-Ultrasound）上仍可能优于 OpenMedQ。

研究结论强调了开放科学的价值，提供了一个透明的基准，供社区进行检查、重用和扩展。

OpenMedQ: Broad Open Pretraining for Medical Vision-Language Models