Tracking Cancer Through Text: Longitudinal Extraction From Radiology Reports Using Open-Source Large Language Models

Este estudio presenta un pipeline de código abierto y localmente desplegable basado en el modelo LLM Qwen2.5-72B que logra una alta precisión en la extracción longitudinal de datos oncológicos de informes de radiología, demostrando la viabilidad de modelos abiertos para el análisis clínico privado y reproducible.

Luc Builtjes, Alessa Hering

Publicado Wed, 11 Ma
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que los informes de radiología (como los de un TAC del tórax o el abdomen) son como diarios de viaje escritos por un médico. En estos diarios, el radiólogo describe cómo está viajando el "enemigo" (el cáncer) a través del cuerpo del paciente: si ha crecido, si ha desaparecido o si han aparecido nuevos bichos.

El problema es que estos diarios están escritos en un lenguaje muy técnico, desordenado y en prosa (frases largas), lo que hace que sea casi imposible para una computadora leerlos y sacar conclusiones rápidas. Además, la información más valiosa no está en un solo diario, sino en comparar varios diarios a lo largo del tiempo para ver la evolución de la enfermedad.

Aquí es donde entra este estudio, que podemos resumir con una analogía sencilla:

🕵️‍♂️ La Misión: El Detective de Papel y Tinta

Los investigadores (Luc y Alessa) querían crear un detective digital capaz de leer estos informes médicos en holandés, encontrar las "pistas" (las lesiones o tumores) y conectar los puntos entre diferentes visitas del paciente.

Su objetivo era responder preguntas como:

  • "¿El tumor que vimos en enero sigue ahí en marzo?"
  • "¿Ha crecido o ha encogido?"
  • "¿Apareció algo nuevo?"

🛠️ La Herramienta: Un Robot de Código Abierto (y Privado)

Antes, para hacer esto, necesitabas usar "cajas negras" de empresas gigantes (modelos de Inteligencia Artificial propietarios). El problema es que esas cajas no dejan que veas cómo funcionan y, lo más importante, te obligan a enviar los datos del paciente a la nube, lo cual es un riesgo de privacidad.

En su lugar, estos investigadores construyeron su propio robot usando código abierto (como si fueran a ensamblar un coche con piezas que cualquiera puede comprar y ver).

  • El cerebro: Usaron un modelo llamado Qwen2.5-72b. Imagina que es un bibliotecario superinteligente que ha leído millones de libros y entiende el lenguaje humano perfectamente.
  • El método: Lo instalaron en sus propios servidores (en su hospital). Esto significa que los datos de los pacientes nunca salieron del edificio. Es como tener un traductor en tu propia casa en lugar de enviar tus cartas a una oficina central en otro país.

🧩 El Truco: Conectar los Puntos en el Tiempo

Lo genial de este sistema es que no lee un informe y lo olvida. Lee dos informes a la vez (por ejemplo, el de hace 6 meses y el de hoy) y actúa como un detective que une las pistas:

  1. Identifica: "¡Este nódulo en el pulmón izquierdo es el mismo que vimos antes!"
  2. Mide: "Antes medía 10mm, ahora mide 8mm. ¡Ha mejorado!"
  3. Etiqueta: Le pone una etiqueta estable (como un nombre de usuario) para que, aunque el radiólogo lo describa de forma diferente en el segundo informe, el robot sepa que es el mismo objeto.

📊 Los Resultados: ¡Funciona increíblemente bien!

Probaron su sistema con 50 pares de informes reales. Los resultados fueron sorprendentes:

  • El robot acertó en el 93-95% de los detalles importantes (tamaño, ubicación, tipo de tumor).
  • Fue tan bueno que, en la mayoría de los casos, sus lecturas coincidían casi perfectamente con las de dos radiólogos humanos expertos.

💡 ¿Por qué es importante esto?

Imagina que quieres estudiar cómo funciona un nuevo tratamiento contra el cáncer para 10.000 pacientes. Antes, tendrías que contratar a un ejército de personas para leer miles de informes a mano, lo cual tardaría años y costaría una fortuna.

Con este sistema:

  1. Es rápido: La computadora hace el trabajo en minutos.
  2. Es privado: Los datos nunca salen del hospital.
  3. Es libre: Cualquier hospital en el mundo puede copiar el código y usarlo sin pagar licencias costosas.

En resumen

Este estudio nos dice que ya no necesitamos depender de empresas privadas para analizar datos médicos sensibles. Podemos construir nuestros propios "super-lectores" de inteligencia artificial, instalarlos en nuestros propios ordenadores y extraer información vital del cáncer de forma rápida, segura y precisa. Es como pasar de leer los informes a mano con una lupa, a tener un escáner láser que conecta todas las historias del paciente en un solo mapa de la verdad.