Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen, Jiaming Liu, Longchao Liu, Dave Van Veen, Syed Jamal Safdar Gardezi, Hongkun Yu, Magdalini Paschali, Zhihong Chen, Jean-Benoit Delbrouck, Eduardo Reis, Robbie Holland, Cesar Truyts, Christian Bluethgen, Yufu Wu, Long Lian, Malte Engmann Kjeldskov Jensen, Sophie Ostmeier, Maya Varma, Jeya Maria Jose Valanarasu, Zhongnan Fang, Zepeng Huo, Zaid Nabulsi, Diego Ardila, Wei-Hung Weng, Edson Amaro Junior, Neera Ahuja, Jason Fries, Nigam H. Shah, Greg Zaharchuk, Marc Willis, Adam Yala, Andrew Johnston, Robert D. Boutin, Andrew Wentland, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, Akshay S. Chaudhari

发布于 2026-03-05

📖 2 分钟阅读☕ 轻松阅读

查看于 arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Merlin（梅林） 的人工智能模型，你可以把它想象成一位拥有“透视眼”和“读心术”的超级放射科医生助手。

为了让你更容易理解，我们用一些生活中的比喻来拆解这项技术：

1. 背景：放射科医生的“苦差事”

想象一下，美国每年要做超过 8.5 亿次 CT 扫描（就像给身体拍 3D 照片）。其中，腹部 CT（检查肚子）占了很大比例。

现状：一张腹部 CT 扫描就像一本厚厚的书，包含 300 多页（切片），每一页都有复杂的器官结构。放射科医生需要一页页翻过，花 20 分钟仔细检查，寻找微小的异常（比如早期的肿瘤或炎症）。
问题：医生太累了，而且人手不足。未来的医生缺口会越来越大，就像图书馆管理员太少，而书却越来越多。
旧 AI 的局限：以前的 AI 就像是一个只看过单页照片的实习生。它只能看 CT 的某一张切片（2D 图像），而且只能看很短的报告。它很难理解整本“书”（3D 体积）的全貌，也很难把图像和复杂的文字报告联系起来。

2. Merlin 是谁？（核心创新）

Merlin 是一个3D 视觉 - 语言基础模型。

3D 透视眼：它不像以前的 AI 那样一页页看，而是能一次性“吞下”整个 3D 的 CT 扫描数据。就像它不仅能看单张照片，还能直接看整个立体的身体模型，理解器官在空间中的真实关系。
读心术（多模态学习）：它不仅看图像，还同时阅读电子病历（EHR）（比如诊断代码）和放射科报告（医生写的文字）。
- 比喻：以前的 AI 是“看图说话”，Merlin 是“看图 + 读病历 + 写报告”。它通过把图像和文字对应起来学习，就像小孩子通过看图片并听大人讲解来认识世界一样。

3. Merlin 是怎么“上学”的？（训练数据）

Merlin 没有像以前那样需要人工一个个标注（比如让人工在图上画圈说“这是肿瘤”），那样太贵太慢了。

自学成才：研究人员利用了医院里现成的“宝藏”：
- 1.5 万+ 次 CT 扫描（包含 600 多万张图像）。
- 180 万+ 个诊断代码（像病历上的标签）。
- 600 万+ 个文字词汇（医生写的报告）。
学习方法：它通过一种“连连看”的游戏来学习。它把 CT 图像和对应的文字报告配对，试图理解“这张图”对应“这段文字”。如果配对了，就给它奖励；配错了，就让它修正。
资源友好：最厉害的是，这样一个强大的模型，竟然只需要一张普通的显卡（GPU） 训练 160 小时就能搞定。这意味着普通医院也能训练自己的 AI，而不需要像谷歌或微软那样拥有超级计算机集群。

4. Merlin 能做什么？（超能力）

论文测试了 Merlin 在 6 大类、752 个具体任务上的表现，它就像一个全能助手：

零样本分类（Zero-shot）：
- 比喻：就像你教它看过“苹果”和“香蕉”的照片，然后给它看一个从未见过的“梨”，它能猜出这是水果。
- 表现：即使没有专门训练过某种病，Merlin 也能根据文字提示（比如“有没有腹水？”），准确判断 CT 里有没有这种病。在 30 种常见腹部疾病的检测中，它的准确率远超旧模型。
预测未来疾病：
- 比喻：就像看一个人的体检报告，能预测他未来 5 年会不会得糖尿病或心脏病。
- 表现：Merlin 能根据现在的 CT 扫描，预测患者 5 年内患 6 种慢性病（如肾病、心脏病）的风险。
写报告：
- 比喻：医生看片子，Merlin 在旁边帮忙起草初稿。
- 表现：它能自动生成放射科报告，描述肝脏、胆囊等器官是否正常。虽然偶尔会漏掉一些小细节，但整体结构非常专业。
3D 分割（画地图）：
- 比喻：它能在 CT 图像里把肝脏、肾脏、脾脏等 20 个器官像切蛋糕一样精准地“抠”出来，画出边界。
- 表现：在数据很少的情况下（比如只有 10% 的标注数据），它的表现比专门训练的模型还要好。
跨模态检索：
- 比喻：就像在图书馆里，你输入“肺积水”，它不仅能找到相关的文字报告，还能直接找到所有有“肺积水”特征的 CT 片子。

5. 为什么它这么强？（关键发现）

研究人员做了很多实验（就像做科学对照实验），发现 Merlin 成功的秘诀：

3D 比 2D 好：一次性看整个 3D 体积，比把 3D 切成 2D 片来看要聪明得多。
图文结合比只看图好：同时学习图像和文字（语言监督），比只看图像（自监督）学得更透彻。
数据拆分很重要：把长报告按器官（如“肝脏部分”、“肾脏部分”）拆开训练，能让它更精准地理解局部特征。
通用性强：Merlin 虽然只在腹部CT 上训练过，但当它去测试胸部CT 时，表现依然吊打那些专门在胸部 CT 上训练的模型。这说明它学到了通用的医学规律，而不仅仅是死记硬背。

6. 总结与意义

Merlin 就像是为医疗 AI 打造的一个“通用大脑”。

对医生：它是得力的助手，能减轻工作负担，减少漏诊，甚至帮医生写报告初稿。
对医院：它不需要昂贵的超级计算机，普通医院也能训练自己的专属模型。
对社会：它利用现有的医疗数据，挖掘出新的健康洞察（比如早期发现疾病标志物），让未来的医疗更精准、更普惠。

这篇论文不仅发布了一个强大的模型，还开源了代码和数据，邀请大家一起加入这个“医疗 AI 革命”，让技术真正服务于人类健康。

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

1. 背景：放射科医生的“苦差事”

2. Merlin 是谁？（核心创新）

3. Merlin 是怎么“上学”的？（训练数据）

4. Merlin 能做什么？（超能力）

5. 为什么它这么强？（关键发现）

6. 总结与意义

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 数据集构建

2.2 模型架构与训练策略

3. 关键贡献 (Key Contributions)

4. 主要结果 (Results)

4.1 零样本性能 (Zero-Shot Performance)

4.2 微调任务性能 (Adapted Tasks)

4.3 外部验证与泛化性

4.4 消融实验结论

5. 意义与影响 (Significance)

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

1. 背景：放射科医生的“苦差事”

2. Merlin 是谁？（核心创新）

3. Merlin 是怎么“上学”的？（训练数据）

4. Merlin 能做什么？（超能力）

5. 为什么它这么强？（关键发现）

6. 总结与意义

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 数据集构建

2.2 模型架构与训练策略

3. 关键贡献 (Key Contributions)

4. 主要结果 (Results)

4.1 零样本性能 (Zero-Shot Performance)

4.2 微调任务性能 (Adapted Tasks)

4.3 外部验证与泛化性

4.4 消融实验结论

5. 意义与影响 (Significance)

类似论文

The Quantification Horizon Theory of Consciousness

Algebras of actions in an agent's representations of the world

Heuristic Multiobjective Discrete Optimization using Restricted Decision Diagrams

PLM-Net: Perception Latency Mitigation Network for Vision-Based Lateral Control of Autonomous Vehicles

Automated Explanation Selection for Scientific Discovery