Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen, Jiaming Liu, Longchao Liu, Dave Van Veen, Syed Jamal Safdar Gardezi, Hongkun Yu, Magdalini Paschali, Zhihong Chen, Jean-Benoit Delbrouck, Eduardo Reis, Robbie Holland, Cesar Truyts, Christian Bluethgen, Yufu Wu, Long Lian, Malte Engmann Kjeldskov Jensen, Sophie Ostmeier, Maya Varma, Jeya Maria Jose Valanarasu, Zhongnan Fang, Zepeng Huo, Zaid Nabulsi, Diego Ardila, Wei-Hung Weng, Edson Amaro Junior, Neera Ahuja, Jason Fries, Nigam H. Shah, Greg Zaharchuk, Marc Willis, Adam Yala, Andrew Johnston, Robert D. Boutin, Andrew Wentland, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, Akshay S. Chaudhari

Publicado 2026-03-05

📖 5 min de leitura🧠 Leitura aprofundada

Ver no arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um médico radiologista muito talentoso, mas que está sobrecarregado. Ele precisa analisar milhões de exames de tomografia (aqueles scans 3D detalhados do corpo) todos os anos. O problema é que ele é humano: cansa, precisa de 20 minutos para cada exame e, às vezes, pode deixar passar um detalhe pequeno. Além disso, há uma escassez de novos radiologistas para ajudar.

É aqui que entra o Merlin.

O Merlin não é um médico humano, mas sim um super-inteligente assistente de computador criado por pesquisadores da Stanford. Ele é um "modelo de fundação" (uma espécie de cérebro de IA) treinado especificamente para entender exames de tomografia do abdômen.

Aqui está a explicação do que eles fizeram, usando analogias do dia a dia:

1. O Problema: O "Livro de Receitas" vs. A "Imagem"

Antes do Merlin, as IAs médicas eram como estudantes que só olhavam para uma foto e tentavam adivinhar o que estava acontecendo, sem ler a receita do médico. Ou, se liam a receita, liam apenas frases curtas e ignoravam o resto do livro.

A Limitação: A maioria das IAs antigas olhava apenas para "fatias" 2D (como ver uma página de um livro de cada vez), enquanto a tomografia é um volume 3D inteiro (como ler o livro inteiro de uma vez).
O Merlin: Ele foi treinado para ver o volume inteiro de uma vez, como se pudesse girar o paciente em 360 graus dentro da tela do computador, entendendo a estrutura completa do corpo.

2. O Treinamento: Aprendendo com o "Diário" e o "Prontuário"

Para ensinar o Merlin, os pesquisadores não usaram apenas imagens. Eles usaram uma abordagem de "dupla leitura":

A Imagem: Os scans de tomografia (milhões de imagens).
O Texto: Os relatórios escritos pelos radiologistas (o que eles disseram que viram) e os códigos de diagnóstico do prontuário eletrônico (o que o paciente tem).

A Analogia da Escola:
Imagine que você está aprendendo a identificar frutas.

Método Antigo: Você olha para uma foto de uma maçã e tenta adivinhar o nome.
Método do Merlin: Você olha para a foto da maçã, e ao mesmo tempo lê a etiqueta que diz "Maçã Vermelha, Doce, Crocante" e vê o código de barras que diz "Fruta". Ele aprende a associar a imagem visual com a descrição textual e o código médico ao mesmo tempo. Isso faz com que ele entenda o contexto muito melhor.

3. O Que o Merlin Sabe Fazer? (Seus Superpoderes)

O Merlin foi testado em 752 tarefas diferentes. Ele é como um "canivete suíço" para radiologia:

Detecção Zero-Shot (O "Detetive Instintivo"): Você pode perguntar a ele: "Tem líquido no pulmão?" ou "O fígado está grande?", mesmo que ele nunca tenha visto exatamente essa pergunta antes. Ele usa o que aprendeu para responder. Funciona como um detetive que, ao ver um crime, sabe imediatamente qual tipo de arma foi usada, mesmo sem ter visto aquele crime específico antes.
Previsão de Doenças Futuras: Ele pode olhar para um exame de hoje e dizer: "Há um risco de que este paciente desenvolva diabetes ou problemas cardíacos nos próximos 5 anos". É como um oráculo que vê sinais sutis que o olho humano ainda não percebeu.
Geração de Relatórios: Ele pode escrever o rascunho do relatório médico para o radiologista. Imagine que o Merlin faz a "lição de casa" e escreve o primeiro parágrafo, e o médico só precisa revisar e assinar. Isso economiza muito tempo.
Segmentação 3D (O "Escultor Digital"): Ele pode desenhar contornos ao redor de órgãos (fígado, rins, etc.) em 3D com precisão, ajudando a medir tamanhos ou planejar cirurgias.

4. Por que ele é tão especial?

Treinado em um único computador: A maioria dos modelos gigantes precisa de supercomputadores caríssimos. O Merlin foi treinado em apenas uma placa de vídeo comum (uma GPU). Isso significa que hospitais menores podem criar seus próprios assistentes sem gastar milhões.
Generalização: Eles testaram o Merlin em hospitais de outros estados e até em exames de tórax (que ele não foi treinado especificamente para ver). Ele funcionou muito bem, mostrando que ele aprendeu os "princípios" da medicina, não apenas a decorar exemplos.
Dados Abertos: A equipe liberou o código, o modelo e os dados para que qualquer pessoa no mundo possa usar e melhorar.

Resumo em uma frase

O Merlin é um assistente de IA que aprendeu a "ler" exames de tomografia 3D combinando o que vê na imagem com o que os médicos escrevem nos relatórios, tornando-se um parceiro capaz de acelerar diagnósticos, prever doenças futuras e aliviar a carga de trabalho dos radiologistas, tudo isso sendo acessível até para hospitais com poucos recursos.

É como dar a um radiologista um "segundo par de olhos" que nunca dorme, nunca cansa e tem lido todos os livros de medicina ao mesmo tempo.

Each language version is independently generated for its own context, not a direct translation.

Título: Merlin: Um Modelo Fundamental Visão-Linguagem e Dataset para Tomografia Computadorizada (CT)

1. O Problema

A Tomografia Computadorizada (CT) é uma ferramenta diagnóstica crítica, com mais de 85 milhões de exames realizados anualmente apenas nos EUA, sendo que aproximadamente um quarto foca no abdômen. No entanto, a interpretação desses exames enfrenta desafios significativos:

Escassez de Radiologistas: Há um déficit crescente de radiologistas, com a demanda superando a oferta de profissionais treinados.
Complexidade e Volume: Os exames de CT abdominal são dados 3D volumétricos (podendo conter mais de 300 fatias por série), exigindo tempo considerável para interpretação (cerca de 20 minutos por exame).
Limitações dos Modelos Atuais: As abordagens de IA existentes para interpretação médica geralmente são:
- Bimodais 2D: Focadas em radiografias (2D), não capturando a correlação volumétrica 3D necessária para CTs.
- Unimodais: Baseadas apenas em imagens, ignorando o rico contexto textual dos prontuários médicos.
- Dependência de Anotação Manual: Requerem grandes quantidades de dados rotulados manualmente por especialistas, o que é caro e demorado.
- Falta de Avaliação Abrangente: Não existem benchmarks padronizados para modelos 3D que cubram tarefas diagnósticas, prognósticas e de qualidade.

2. Metodologia

O Merlin é um Modelo Fundamental (Foundation Model) Visão-Linguagem 3D projetado especificamente para exames de CT abdominal.

Dados de Treinamento:
- O modelo foi treinado em um dataset clínico de alta qualidade contendo 15.331 exames de CT (6,3 milhões de imagens 2D), 1,8 milhão de códigos de diagnóstico de EHR (Prontuário Eletrônico de Saúde) e 6 milhões de tokens de relatórios de radiologia.
- Estratégia de Supervisão: O Merlin utiliza dados estruturados (códigos ICD/EHR) e não estruturados (relatórios de radiologia) para pre-treinamento, eliminando a necessidade de anotações manuais adicionais.
- Pré-processamento: Os relatórios foram divididos em seções anatômicas (ex: fígado, rins) para alinhar melhor o texto com as regiões da imagem durante o aprendizado contrastivo.
Arquitetura:
- Codificador de Imagem: Utiliza um ResNet152 Inflado (I3D), que reutiliza pesos pré-treinados 2D do ImageNet e os estende para a terceira dimensão, permitindo processar o volume 3D inteiro de uma vez.
- Codificador de Texto: Utiliza o Clinical Longformer, escolhido por sua capacidade de lidar com sequências longas de texto (até 4.096 tokens), essencial para relatórios médicos detalhados.
- Objetivo de Treinamento: Combina aprendizado multi-tarefa com:
  1. Perda de Entropia Cruzada Binária (BCE): Para classificação de fenótipos baseada em códigos EHR.
  2. Perda InfoNCE: Para aprendizado contrastivo entre as representações da imagem e os relatórios de radiologia.
- Eficiência Computacional: O modelo foi treinado em uma única GPU (NVIDIA A6000), demonstrando viabilidade para instituições com recursos computacionais limitados.

3. Contribuições Principais

Primeiro Modelo Fundamental 3D Visão-Linguagem para CT Abdominal: Diferente dos modelos 2D ou que agregam fatias individualmente, o Merlin processa o volume 3D completo, capturando correlações espaciais complexas.
Dataset e Código Abertos: A liberação do "Merlin Abdominal CT Dataset" (com 25.494 imagens revisadas para garantir privacidade), do código e dos modelos treinados.
Avaliação Abrangente: Avaliação em 6 tipos de tarefas e 752 tarefas individuais, cobrindo:
- Tarefas "Off-the-shelf" (Sem adaptação): Classificação zero-shot de achados (31 achados), classificação de fenótipos (692 fenótipos) e recuperação cruzada (imagem $\leftrightarrow$ texto).
- Tarefas Adaptadas: Predição de doenças crônicas em 5 anos, geração de relatórios de radiologia e segmentação semântica 3D (20 órgãos).
Leis de Escala de Dados: Derivação de leis de escala empíricas para orientar a quantidade de dados necessária para atingir níveis específicos de desempenho em tarefas downstream.
Validação Externa Robusta: Validação em mais de 44.000 CTs externos de três sites diferentes (incluindo variações de anatomia abdômen/tórax) e em datasets públicos (VerSe, TotalSegmentator).

4. Resultados

O Merlin superou consistentemente as linhas de base (baselines) existentes em todas as configurações:

Classificação Zero-Shot de Achados:
- Alcançou um F1 médio de 0,741 no conjunto de validação interno e 0,647 no externo.
- Superou significativamente modelos 2D (OpenCLIP, BioMedCLIP) e modelos 2D-para-3D, com ganhos de até 54,7% em F1 em relação às melhores linhas de base 2D.
Classificação de Fenótipos (EHR):
- Alcançou uma AUROC média de 0,812 sobre 692 fenótipos.
- Demonstrou desempenho superior mesmo com poucos dados (10% dos rótulos), superando modelos treinados apenas com visão (SSL) ou apenas 2D.
Recuperação Cruzada (Retrieval):
- Superioridade significativa na recuperação de relatórios a partir de imagens e vice-versa, generalizando bem para textos fora da distribuição (seções de "impressões" não vistas no treino).
Tarefas Adaptadas:
- Predição de Doença (5 anos): AUROC de 0,757, superando modelos baseados apenas em imagens.
- Geração de Relatórios: Superou o modelo RadFM em métricas como RadGraph-F1, BERT Score e ROUGE-2, gerando relatórios estruturados corretamente.
- Segmentação 3D: Em cenários com poucos dados (10% de rótulos), o Merlin superou o nnUNet (padrão ouro em segmentação) em 4,7% no escore Dice médio, demonstrando a eficácia do pré-treinamento para cenários de escassez de dados.
Generalização: O modelo, treinado exclusivamente em CTs abdominais, demonstrou forte desempenho em CTs torácicos (tórax) em validação externa, superando modelos especializados em tórax, evidenciando a robustez das representações aprendidas.

5. Significado e Impacto

Democratização da IA Médica: Ao demonstrar que um modelo fundamental 3D de alto desempenho pode ser treinado em uma única GPU, o Merlin permite que hospitais e instituições de pesquisa com recursos limitados desenvolvam seus próprios modelos, reduzindo a barreira de entrada.
Mudança de Paradigma: Move a IA radiológica de modelos de tarefa única (ex: apenas detectar nódulos) para modelos fundamentais capazes de múltiplas tarefas (diagnóstico, prognóstico, geração de texto, segmentação), atuando como assistentes versáteis.
Valorização de Dados Existentes: A metodologia mostra como aproveitar dados clínicos rotineiros (EHR e relatórios) sem anotação manual adicional para criar modelos poderosos.
Descoberta de Biomarcadores: A capacidade de extrair insights fisiológicos de imagens 3D pode auxiliar na descoberta de biomarcadores de doenças precoces que passam despercebidos na rotina clínica.

Em resumo, o Merlin representa um avanço significativo na interseção entre visão computacional 3D e processamento de linguagem natural na medicina, oferecendo uma solução escalável, robusta e de alto desempenho para a interpretação de exames de CT abdominal.

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

1. O Problema: O "Livro de Receitas" vs. A "Imagem"

2. O Treinamento: Aprendendo com o "Diário" e o "Prontuário"

3. O Que o Merlin Sabe Fazer? (Seus Superpoderes)

4. Por que ele é tão especial?

Resumo em uma frase

Título: Merlin: Um Modelo Fundamental Visão-Linguagem e Dataset para Tomografia Computadorizada (CT)

1. O Problema

2. Metodologia

3. Contribuições Principais

4. Resultados

5. Significado e Impacto

Mais como este

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach