Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen, Jiaming Liu, Longchao Liu, Dave Van Veen, Syed Jamal Safdar Gardezi, Hongkun Yu, Magdalini Paschali, Zhihong Chen, Jean-Benoit Delbrouck, Eduardo Reis, Robbie Holland, Cesar Truyts, Christian Bluethgen, Yufu Wu, Long Lian, Malte Engmann Kjeldskov Jensen, Sophie Ostmeier, Maya Varma, Jeya Maria Jose Valanarasu, Zhongnan Fang, Zepeng Huo, Zaid Nabulsi, Diego Ardila, Wei-Hung Weng, Edson Amaro Junior, Neera Ahuja, Jason Fries, Nigam H. Shah, Greg Zaharchuk, Marc Willis, Adam Yala, Andrew Johnston, Robert D. Boutin, Andrew Wentland, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, Akshay S. Chaudhari

Publicado 2026-03-05

📖 5 min de lectura🧠 Análisis profundo

Ver en arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que los médicos radiólogos son como detectives muy expertos que tienen que revisar miles de fotos de rayos X y escáneres (tomografías computarizadas o CT) cada día para encontrar enfermedades. El problema es que hay demasiados escáneres, muy pocos detectives (radiólogos) y están muy cansados. Además, estos escáneres no son fotos planas como las de un móvil; son como pastelitos de 300 capas (cortes) que forman un bloque tridimensional, lo cual es muy difícil de analizar rápido.

Aquí es donde entra Merlin.

¿Qué es Merlin?

Piensa en Merlin como un super-asistente de inteligencia artificial que ha sido entrenado para ser un "detective de escáneres" experto. No es un simple programa que mira una foto y dice "aquí hay algo malo". Merlin es un modelo de visión-lingüística, lo que significa que es como un bibliotecario que sabe leer y ver al mismo tiempo.

Lo que ve: Mira todo el bloque 3D del escáner de una sola vez (como si pudiera ver el pastel entero, no solo una rebanada).
Lo que lee: Lee los informes médicos escritos por los doctores y los registros electrónicos de los pacientes (como su historial de enfermedades).
Lo que hace: Aprende a conectar lo que ve en la imagen con lo que dicen las palabras en el informe.

¿Cómo aprendió Merlin? (La analogía del estudiante brillante)

Imagina que quieres entrenar a un estudiante para que sea el mejor radiólogo del mundo.

El material de estudio: En lugar de darle solo un libro de texto, le dimos 15,000 escáneres reales de pacientes, junto con millones de palabras de informes médicos y códigos de enfermedades.
El método de estudio: Merlin no tuvo que memorizar cada caso uno por uno con un profesor humano (lo cual sería muy lento y caro). En su lugar, aprendió solo leyendo los informes que ya existían en los hospitales.
- La magia: Si el informe decía "hígado normal", Merlin aprendió a reconocer un hígado sano en la imagen. Si decía "tumor", aprendió a buscar tumores.
- Ventaja clave: Merlin aprendió todo esto usando una sola tarjeta gráfica (un componente de computadora). Esto es como si un estudiante pudiera aprender todo el contenido de una biblioteca gigante usando solo una laptop básica, en lugar de necesitar un superordenador. Esto hace que cualquier hospital pueda crear su propio Merlin.

¿Qué puede hacer Merlin? (Sus superpoderes)

Los autores probaron a Merlin en 752 tareas diferentes. Aquí te explico las más importantes con ejemplos sencillos:

Detectar cosas sin ser enseñado (Zero-shot):
- Analogía: Imagina que le das a Merlin una foto de un perro y le preguntas: "¿Es un gato?". Merlin nunca vio un gato en su entrenamiento, pero como sabe lo que es un perro y lo que es un gato por los informes, puede decirte: "No, esto es un perro".
- En la vida real: Merlin puede identificar 31 tipos de problemas (como líquido en los pulmones o cálculos biliares) simplemente leyendo una descripción en texto, sin haber sido programado específicamente para esa enfermedad. ¡Y lo hace mejor que los programas actuales!
Predecir el futuro (Detección temprana):
- Analogía: Es como un oráculo médico. Merlin puede mirar un escáner de un paciente que hoy está sano y decirte: "Es muy probable que en los próximos 5 años esta persona desarrolle diabetes o problemas cardíacos".
- Esto permite a los médicos prevenir la enfermedad antes de que sea grave.
Escribir informes (Generación de texto):
- Analogía: Es como un secretario médico. Merlin puede mirar el escáner y redactar el primer borrador del informe médico, describiendo qué órganos están bien y cuáles tienen problemas. El radiólogo humano solo tendría que revisar y firmar.
Encontrar casos similares (Búsqueda):
- Analogía: Es como usar Google Imágenes, pero para medicina. Si un doctor ve un escáner raro, puede preguntarle a Merlin: "¿Quién más ha tenido un escáner así?". Merlin busca en su memoria millones de casos pasados y encuentra los más parecidos para ayudar al doctor a tomar una decisión.
Pintar el mapa (Segmentación 3D):
- Analogía: Es como un pintor de precisión. Merlin puede colorear automáticamente cada órgano (hígado, riñones, bazo) en el escáner 3D, separándolos del resto. Esto es vital para medir tumores o planificar cirugías.

¿Por qué es tan especial?

La mayoría de los programas de IA actuales son como gafas de realidad aumentada que solo ven en 2D. Tienen que mirar rebanada por rebanada de un pastel y luego intentar unir las piezas mentalmente. Merlin, en cambio, ve el pastel entero en 3D.

Además, mientras que otros programas necesitan que un humano les diga "esto es un tumor" miles de veces para aprender, Merlin aprendió leyendo los informes que los doctores ya escribían. Esto lo hace más inteligente, más rápido de entrenar y capaz de entender el contexto médico completo.

En resumen

Merlin es un nuevo tipo de cerebro artificial diseñado para ayudar a los radiólogos. No viene a reemplazarlos, sino a quitarles el trabajo pesado y aburrido, permitiéndoles enfocarse en los casos difíciles y en cuidar a los pacientes. Es como tener un asistente incansable que ha leído todos los libros de medicina y visto millones de escáneres, listo para ayudar a salvar vidas con menos errores y más rapidez.

Lo mejor de todo es que los creadores han regalado el código, los datos y el modelo al mundo, para que cualquier hospital pueda usarlo y mejorar la salud de sus pacientes.

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

¿Qué es Merlin?

¿Cómo aprendió Merlin? (La analogía del estudiante brillante)

¿Qué puede hacer Merlin? (Sus superpoderes)

¿Por qué es tan especial?

En resumen

Resumen Técnico: Merlin, un Modelo Fundacional de Visión-Lenguaje para Tomografía Computarizada 3D

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Impacto

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

¿Qué es Merlin?

¿Cómo aprendió Merlin? (La analogía del estudiante brillante)

¿Qué puede hacer Merlin? (Sus superpoderes)

¿Por qué es tan especial?

En resumen

Resumen Técnico: Merlin, un Modelo Fundacional de Visión-Lenguaje para Tomografía Computarizada 3D

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Impacto

Más como este

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach