Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

O artigo apresenta o Merlin, um modelo fundacional de linguagem e visão 3D treinado em um vasto conjunto de dados clínicos de tomografias computadorizadas abdominais, registros eletrônicos de saúde e laudos radiológicos, que supera os modelos existentes na interpretação de imagens médicas e demonstra alta generalização em diversas tarefas diagnósticas, prognósticas e de qualidade.

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen, Jiaming Liu, Longchao Liu, Dave Van Veen, Syed Jamal Safdar Gardezi, Hongkun Yu, Magdalini Paschali, Zhihong Chen, Jean-Benoit Delbrouck, Eduardo Reis, Robbie Holland, Cesar Truyts, Christian Bluethgen, Yufu Wu, Long Lian, Malte Engmann Kjeldskov Jensen, Sophie Ostmeier, Maya Varma, Jeya Maria Jose Valanarasu, Zhongnan Fang, Zepeng Huo, Zaid Nabulsi, Diego Ardila, Wei-Hung Weng, Edson Amaro Junior, Neera Ahuja, Jason Fries, Nigam H. Shah, Greg Zaharchuk, Marc Willis, Adam Yala, Andrew Johnston, Robert D. Boutin, Andrew Wentland, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, Akshay S. Chaudhari

Publicado 2026-03-05
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um médico radiologista muito talentoso, mas que está sobrecarregado. Ele precisa analisar milhões de exames de tomografia (aqueles scans 3D detalhados do corpo) todos os anos. O problema é que ele é humano: cansa, precisa de 20 minutos para cada exame e, às vezes, pode deixar passar um detalhe pequeno. Além disso, há uma escassez de novos radiologistas para ajudar.

É aqui que entra o Merlin.

O Merlin não é um médico humano, mas sim um super-inteligente assistente de computador criado por pesquisadores da Stanford. Ele é um "modelo de fundação" (uma espécie de cérebro de IA) treinado especificamente para entender exames de tomografia do abdômen.

Aqui está a explicação do que eles fizeram, usando analogias do dia a dia:

1. O Problema: O "Livro de Receitas" vs. A "Imagem"

Antes do Merlin, as IAs médicas eram como estudantes que só olhavam para uma foto e tentavam adivinhar o que estava acontecendo, sem ler a receita do médico. Ou, se liam a receita, liam apenas frases curtas e ignoravam o resto do livro.

  • A Limitação: A maioria das IAs antigas olhava apenas para "fatias" 2D (como ver uma página de um livro de cada vez), enquanto a tomografia é um volume 3D inteiro (como ler o livro inteiro de uma vez).
  • O Merlin: Ele foi treinado para ver o volume inteiro de uma vez, como se pudesse girar o paciente em 360 graus dentro da tela do computador, entendendo a estrutura completa do corpo.

2. O Treinamento: Aprendendo com o "Diário" e o "Prontuário"

Para ensinar o Merlin, os pesquisadores não usaram apenas imagens. Eles usaram uma abordagem de "dupla leitura":

  • A Imagem: Os scans de tomografia (milhões de imagens).
  • O Texto: Os relatórios escritos pelos radiologistas (o que eles disseram que viram) e os códigos de diagnóstico do prontuário eletrônico (o que o paciente tem).

A Analogia da Escola:
Imagine que você está aprendendo a identificar frutas.

  • Método Antigo: Você olha para uma foto de uma maçã e tenta adivinhar o nome.
  • Método do Merlin: Você olha para a foto da maçã, e ao mesmo tempo lê a etiqueta que diz "Maçã Vermelha, Doce, Crocante" e vê o código de barras que diz "Fruta". Ele aprende a associar a imagem visual com a descrição textual e o código médico ao mesmo tempo. Isso faz com que ele entenda o contexto muito melhor.

3. O Que o Merlin Sabe Fazer? (Seus Superpoderes)

O Merlin foi testado em 752 tarefas diferentes. Ele é como um "canivete suíço" para radiologia:

  • Detecção Zero-Shot (O "Detetive Instintivo"): Você pode perguntar a ele: "Tem líquido no pulmão?" ou "O fígado está grande?", mesmo que ele nunca tenha visto exatamente essa pergunta antes. Ele usa o que aprendeu para responder. Funciona como um detetive que, ao ver um crime, sabe imediatamente qual tipo de arma foi usada, mesmo sem ter visto aquele crime específico antes.
  • Previsão de Doenças Futuras: Ele pode olhar para um exame de hoje e dizer: "Há um risco de que este paciente desenvolva diabetes ou problemas cardíacos nos próximos 5 anos". É como um oráculo que vê sinais sutis que o olho humano ainda não percebeu.
  • Geração de Relatórios: Ele pode escrever o rascunho do relatório médico para o radiologista. Imagine que o Merlin faz a "lição de casa" e escreve o primeiro parágrafo, e o médico só precisa revisar e assinar. Isso economiza muito tempo.
  • Segmentação 3D (O "Escultor Digital"): Ele pode desenhar contornos ao redor de órgãos (fígado, rins, etc.) em 3D com precisão, ajudando a medir tamanhos ou planejar cirurgias.

4. Por que ele é tão especial?

  • Treinado em um único computador: A maioria dos modelos gigantes precisa de supercomputadores caríssimos. O Merlin foi treinado em apenas uma placa de vídeo comum (uma GPU). Isso significa que hospitais menores podem criar seus próprios assistentes sem gastar milhões.
  • Generalização: Eles testaram o Merlin em hospitais de outros estados e até em exames de tórax (que ele não foi treinado especificamente para ver). Ele funcionou muito bem, mostrando que ele aprendeu os "princípios" da medicina, não apenas a decorar exemplos.
  • Dados Abertos: A equipe liberou o código, o modelo e os dados para que qualquer pessoa no mundo possa usar e melhorar.

Resumo em uma frase

O Merlin é um assistente de IA que aprendeu a "ler" exames de tomografia 3D combinando o que vê na imagem com o que os médicos escrevem nos relatórios, tornando-se um parceiro capaz de acelerar diagnósticos, prever doenças futuras e aliviar a carga de trabalho dos radiologistas, tudo isso sendo acessível até para hospitais com poucos recursos.

É como dar a um radiologista um "segundo par de olhos" que nunca dorme, nunca cansa e tem lido todos os livros de medicina ao mesmo tempo.