Evaluating Large Language Models for Translating… — Explicación divulgativa

Autores originales: Yan, C., Xin, Y., Su, W.-C., Gangireddy, S., Durbhakula, S., Bruehl, S. P., Dickson, A. L., Li, L., Feng, Q., Malin, B. A., Derr, T., Wei, W.-Q.

Publicado 2026-05-22

📖 4 min de lectura☕ Lectura para el café

Ver en medRxiv ↗PDF ↗

CC BY 4.0

Autores originales: Yan, C., Xin, Y., Su, W.-C., Gangireddy, S., Durbhakula, S., Bruehl, S. P., Dickson, A. L., Li, L., Feng, Q., Malin, B. A., Derr, T., Wei, W.-Q.

Artículo original bajo licencia CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Esta es una explicación generada por IA de un preprint que no ha sido revisado por pares. No es consejo médico. No tome decisiones de salud basándose en este contenido. Leer descargo de responsabilidad completo

Imagina que eres un chef maestro intentando recrear un plato famoso, pero no tienes la receta. En su lugar, tienes una pila desordenada de notas, algunas garabateadas en servilletas, otras dibujadas como caricaturas y algunas escritas en una mezcla confusa de idiomas. Tu objetivo es convertir estas notas desordenadas en un manual de instrucciones preciso, paso a paso, que una cocina robótica pueda seguir para cocinar el plato perfectamente.

Este artículo trata sobre probar a dos chefs de IA superinteligentes (llamados Modelos de Lenguaje Grande, o LLM) para ver si pueden realizar este trabajo para la investigación médica.

El Problema: La Receta "Perdida en la Traducción"

En la investigación médica, los científicos definen grupos específicos de pacientes (como "personas con diabetes tipo 2") utilizando reglas complejas. Estas reglas suelen estar escritas en documentos legibles para humanos que parecen una mezcla de historias, diagramas de flujo y tablas.

Para utilizar estas reglas en el sistema informático de un hospital, un experto humano debe traducirlas manualmente a un lenguaje informático (SQL). Esto es como traducir un poema a un código informático. Toma mucho tiempo, es muy tedioso y, si dos expertos diferentes lo hacen, podrían terminar con resultados ligeramente diferentes. Los investigadores querían ver si la IA podía realizar esta traducción automáticamente.

El Experimento: Probando a los Chefs de IA

Los investigadores seleccionaron dos de los modelos de IA más inteligentes disponibles (GPT o3 de OpenAI y Claude Opus 4.1 de Anthropic) y les dieron cinco "recetas" diferentes (definiciones médicas para afecciones como lesión renal, infartos y diabetes) de una biblioteca pública llamada PheKB.

Probaron a la IA de tres maneras diferentes, como dar al chef diferentes tipos de instrucciones:

El Paquete Completo: La IA recibió el documento completo (texto, gráficos y diagramas).
Solo la Historia: La IA recibió solo el texto escrito y las tablas, pero sin imágenes.
Solo las Imágenes: La IA recibió solo los diagramas y diagramas de flujo, sin palabras.

Los Resultados: Qué Funcionó y Qué No

1. La Trampa de "Solo Imágenes"
Cuando la IA intentó leer solo los diagramas (los diagramas de flujo), fracasó miserablemente. Era como pedirle a un chef que cocinara una comida compleja solo mirando un dibujo de una olla y un tenedor, sin texto que explicara los ingredientes o los niveles de calor. La IA pasó por alto detalles cruciales, se equivocó en los tiempos y produjo instrucciones que no funcionarían.

2. La "Historia" es el Rey
Cuando la IA recibió el texto escrito (incluso sin las imágenes), lo hizo muy bien. Resultó que las palabras escritas contenían casi toda la información necesaria. La IA podía entender la lógica y escribir el código informático con precisión.

3. La IA es un Gran Borrador, No un Editor Final
Ambos modelos de IA fueron sorprendentemente buenos entendiendo la imagen general y la lógica de las reglas. Sin embargo, cometieron tipos específicos de errores:

Ingredientes Faltantes: A veces olvidaban incluir códigos médicos específicos (como un tipo específico de medicamento).
Números Incorrectos: Podían equivocarse con un umbral (por ejemplo, decir "presión arterial superior a 140" cuando la regla era "superior a 150").
Inventar Cosas: A veces, la IA inventaba reglas o condiciones que no estaban en el documento original en absoluto (una "alucinación").
Confundir el Formato: Al mirar diagramas, a menudo no podían averiguar cómo convertir una flecha visual en un comando informático lógico de "si-entonces".

La Gran Conclusión

El artículo concluye que estos modelos de IA no están listos para reemplazar a los expertos humanos todavía. No pueden simplemente mirar un documento desordenado y escupir un programa informático perfecto y listo para usar.

Sin embargo, son excelentes generadores de borradores iniciales. Si les das texto claro y estructurado, pueden escribir un muy buen punto de partida para el código. Pero como pueden cometer errores sutiles pero peligrosos (como equivocarse con un número o pasar por alto una regla), un experto humano debe revisar siempre su trabajo.

La Lección Final:
El mayor problema no es que la IA no sea lo suficientemente inteligente; es que los documentos médicos no están escritos de una manera que sea fácil de leer para las computadoras. Si los médicos e investigadores estandarizaran sus notas para que fueran más claras y estructuradas (como escribir una receta en un formato estándar en lugar de garabatear en una servilleta), la IA sería mucho más útil. Hasta entonces, la IA es un asistente útil, pero el experto humano debe seguir siendo el jefe.

Evaluating Large Language Models for Translating Multimodal Phenotype Documentations into Executable EHR Phenotyping Algorithms

El Problema: La Receta "Perdida en la Traducción"

El Experimento: Probando a los Chefs de IA

Los Resultados: Qué Funcionó y Qué No

La Gran Conclusión

Resumen Técnico: Evaluación de Modelos de Lenguaje Grandes para Traducir Documentaciones de Fenotipos Multimodales en Algoritmos de Fenotipado Ejecutables para Historias Clínicas Electrónicas

Evaluating Large Language Models for Translating Multimodal Phenotype Documentations into Executable EHR Phenotyping Algorithms

El Problema: La Receta "Perdida en la Traducción"

El Experimento: Probando a los Chefs de IA

Los Resultados: Qué Funcionó y Qué No

La Gran Conclusión

Resumen Técnico: Evaluación de Modelos de Lenguaje Grandes para Traducir Documentaciones de Fenotipos Multimodales en Algoritmos de Fenotipado Ejecutables para Historias Clínicas Electrónicas

Más como este