Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen, Jiaming Liu, Longchao Liu, Dave Van Veen, Syed Jamal Safdar Gardezi, Hongkun Yu, Magdalini Paschali, Zhihong Chen, Jean-Benoit Delbrouck, Eduardo Reis, Robbie Holland, Cesar Truyts, Christian Bluethgen, Yufu Wu, Long Lian, Malte Engmann Kjeldskov Jensen, Sophie Ostmeier, Maya Varma, Jeya Maria Jose Valanarasu, Zhongnan Fang, Zepeng Huo, Zaid Nabulsi, Diego Ardila, Wei-Hung Weng, Edson Amaro Junior, Neera Ahuja, Jason Fries, Nigam H. Shah, Greg Zaharchuk, Marc Willis, Adam Yala, Andrew Johnston, Robert D. Boutin, Andrew Wentland, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, Akshay S. Chaudhari

公開日 2026-03-05

📖 1 分で読めます☕ さくっと読める

閲覧： arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「Merlin（マーリン）」**という、お腹の CT スキャンを専門に理解する新しい AI について紹介しています。

従来の AI は「2 次元の写真」を見るのが得意でしたが、Merlin は「3 次元の立体」をまるごと理解し、さらに医師の診断書（テキスト）も一緒に学習する、画期的な存在です。

これをわかりやすく説明するために、いくつかの比喩を使ってみましょう。

1. Merlin とはどんな AI？

「お腹の CT スキャンをまるごと見る、超能力を持つ魔法使い」

これまでの AI（2 次元モデル）：
従来の AI は、CT スキャンを「パンの輪切り」のように一枚ずつ切り分けて見ていました。一枚一枚はよく見えますが、パンの山全体（3 次元の臓器）のつながりや立体感を理解するのが苦手でした。まるで、100 枚の写真をバラバラに並べて「全体像」を想像しようとしているようなものです。
Merlin（3 次元モデル）：
Merlin は、その「パンの山」をまるごと 3 次元で捉えます。輪切りではなく、立体のまま見て、臓器の形や位置関係を正確に理解します。

2. どうやって勉強したの？（データの特徴）

「医師の『診断書』と『患者の履歴』を同時に読んだ天才」

Merlin は、ただ画像を見るだけでなく、以下の 3 つの情報を組み合わせて学習しました。

CT 画像（3 次元）： 患者のお腹の中の写真。
放射線診断レポート（テキスト）： 医師が書いた「肝臓は正常」「胆嚢に石がある」といった詳細な診断文。
電子カルテ（構造化データ）： 患者の病歴や診断コード（ICD コード）。

比喩：
普通の AI は「画像だけ見て、これ何かな？」と推測するのに対し、Merlin は**「画像を見ながら、医師が書いた『ここは正常だよ』というメモと、患者の『過去に糖尿病だった』という履歴を照らし合わせて勉強する」**というスタイルです。これにより、画像と言葉の関係を深く理解できるようになりました。

3. 何ができるの？（できること）

Merlin は、特別な調整（ファインチューニング）をしなくても、そして少量のデータしかない状況でも、以下のようなことができます。

ゼロショット分類（即興クイズ）：
事前に「この病気は出た」と教えていなくても、「腹水（おなかの中に水が溜まること）はあるか？」と聞けば、画像を見て即座に「ある」「ない」と答えることができます。
未来の病気の予言：
今の CT スキャンを見るだけで、「この人は 5 年後に腎臓病や糖尿病になる可能性が高い」と予測できます。これは、画像の中にまだ顕著な症状が出ていない「小さな兆候」を見つけることができるからです。
レポート作成のサポート：
画像を見て、医師が書くべき診断レポートの草案自动生成できます。「肝臓は正常、胆嚢に石あり」といった文章を、正しい anatomical（解剖学的）な順序で並べてくれます。
臓器の切り分け（セグメンテーション）：
CT 画像の中から、肝臓、腎臓、膵臓などを自動的に色分けして切り分けることができます。

4. なぜこれがすごいのか？

「少ないリソースで、高品質な魔法を生み出した」

計算資源が少なくても可能：
多くの巨大な AI は、何千台もの高性能コンピュータが必要ですが、Merlin は**「高性能な GPU がたった 1 台」**あれば訓練できました。これにより、大企業だけでなく、大学や病院でも自分たちのデータで AI を作れるようになります。
外部のデータでも強い：
学習した病院とは全く異なる病院（異なる機械、異なる患者層）のデータでも、高い精度を維持しました。これは、Merlin が「特定の病院の癖」を覚えているのではなく、「お腹の CT という現象そのもの」を理解している証拠です。
医師の負担を減らす：
医師は毎日何十件もの CT を読み解く必要があります。Merlin は、その「最初の読み解き」や「レポートの草案」を作ることで、医師の時間を節約し、見落としを防ぐアシスタントになります。

まとめ

この論文は、**「Merlin という AI が、3 次元の CT 画像と医師の言葉を組み合わせて学習し、少ない計算資源でも、未来の病気を予測したり、診断レポートを作ったりできることを証明した」**という話です。

まるで、**「お腹の中をまるごと見渡せる魔法使い」**が、医師のパートナーとして登場し、医療の質を高め、医師の働き方を楽にする未来が近づいたことを示しています。

参考情報：

開発元： スタンフォード大学など。
公開： モデル、コード、データセットはすべて GitHub で公開されており、誰でも利用可能です。
対象： 主に「お腹（腹部）」の CT スキャンですが、胸の CT に対しても驚くほど高い性能を発揮しました。

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

1. Merlin とはどんな AI？

2. どうやって勉強したの？（データの特徴）

3. 何ができるの？（できること）

4. なぜこれがすごいのか？

まとめ

Merlin: 腹部 CT 画像のための計算機トモグラフィ・ビジョン・ランゲージ・ファウンデーションモデルとデータセット

1. 背景と問題定義

2. 手法 (Methodology)

データセット

モデルアーキテクチャと学習戦略

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

5. 意義と結論

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

1. Merlin とはどんな AI？

2. どうやって勉強したの？（データの特徴）

3. 何ができるの？（できること）

4. なぜこれがすごいのか？

まとめ

Merlin: 腹部 CT 画像のための計算機トモグラフィ・ビジョン・ランゲージ・ファウンデーションモデルとデータセット

1. 背景と問題定義

2. 手法 (Methodology)

データセット

モデルアーキテクチャと学習戦略

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

5. 意義と結論

関連論文

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach