Reproducibility and Robustness of Large Language Models for Mobility Functional Status Extraction

⚕️

Esta es una explicación generada por IA de un preprint que no ha sido revisado por pares. No es consejo médico. No tome decisiones de salud basándose en este contenido. Leer descargo de responsabilidad completo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los Modelos de Lenguaje Grande (LLM) son como chefes de cocina muy inteligentes que trabajan en un hospital. Su trabajo es leer las notas manuscritas de los médicos (que a veces son un desorden) y extraer información clave, como si un paciente puede caminar, moverse o necesita ayuda.

El problema es que, aunque estos "chefes" son muy listos, a veces son inconsistentes. Si les pides lo mismo dos veces, podrían darte respuestas ligeramente diferentes. Y si cambias un poco la forma de pedirles las cosas (aunque el significado sea el mismo), podrían cambiar totalmente su respuesta.

Este estudio de la Clínica Mayo quiere responder a una pregunta vital: ¿Podemos confiar en estos chefes para tomar decisiones médicas importantes?

Aquí tienes la explicación de su investigación, dividida en partes sencillas:

1. El Problema: La "Inestabilidad" del Chef

Imagina que le pides a un chef: "Dame una lista de ingredientes para una ensalada".

Reproducibilidad: Si le pides exactamente lo mismo 100 veces, ¿te dará la misma lista 100 veces? O ¿cambiará un poco cada vez?
Robustez: Si le pides lo mismo pero con otras palabras (ej. "¿Qué necesito para hacer una ensalada?" en lugar de "Dame una lista..."), ¿sigue entendiendo que quieres lo mismo?

En medicina, si el modelo dice hoy que un paciente "puede caminar" y mañana dice que "no puede" solo porque cambió la temperatura de su cerebro o porque un médico escribió la pregunta de forma distinta, eso es peligroso. Necesitamos estabilidad, no solo inteligencia.

2. Los Protagonistas: Tres Tipos de Chef

Los investigadores probaron a tres modelos diferentes (tres "chefes") para ver cuál era más confiable:

Llama 3.3 (El Generalista): Un chef muy famoso y versátil que sabe cocinar de todo. Es como un chef que ha leído todos los libros de cocina del mundo.
Llama 4 (El Chef de Expertos): Este es especial. En lugar de tener un solo cerebro, tiene un "jefe" que elige entre varios expertos pequeños para cada tarea. Es como tener un equipo de especialistas que se reúnen solo cuando es necesario. Es muy rápido, pero a veces el "jefe" se confunde y elige al experto equivocado.
MedGemma (El Especialista Médico): Este chef solo ha leído libros de medicina y ha practicado en hospitales. Es un experto en salud, pero quizás menos versátil en otras cosas.

3. El Experimento: La Prueba de Fuego

Los investigadores pusieron a estos chefes a prueba de dos formas:

Prueba 1 (Repetición): Les dieron la misma receta (la misma pregunta sobre movilidad del paciente) 100 veces, cambiando solo un "botón de locura" llamado Temperatura.
- Temperatura baja (0.0): El chef es muy serio y predecible.
- Temperatura alta (1.0): El chef es creativo y un poco caótico.
- Resultado: A mayor temperatura, más locura. El Llama 4 (el de expertos) se volvió muy inestable y cambió de opinión constantemente. El Llama 3.3 y MedGemma fueron más estables, pero incluso ellos se volvieron erráticos si se les dejaba "demasiado creativos".
Prueba 2 (Parafraseo): Les dieron la misma receta, pero escrita de 10 formas diferentes (como si diferentes médicos le hablaran al chef).
- Resultado: ¡Aquí fue donde el Llama 4 falló estrepitosamente! Cambiar las palabras lo confundió mucho. En cambio, MedGemma y Llama 3.3 entendieron que, aunque las palabras cambiaban, la intención era la misma.

4. La Solución Mágica: El "Voto Mayoritario"

¿Qué pasa si el chef es inestable? Los investigadores probaron una técnica llamada Auto-consistencia.
Imagina que en lugar de pedirle al chef una sola vez, le pides que cocine el plato 100 veces y luego tomas la receta que apareció más veces (el voto mayoritario).

Resultado: ¡Funcionó! Aunque tardaron más (porque tuvieron que cocinar 100 veces), la respuesta final fue mucho más estable y confiable. Fue como tener un comité de chefs decidiendo juntos en lugar de uno solo.

5. Las Conclusiones (Lo que debemos aprender)

La precisión no lo es todo: Un modelo puede tener una puntuación de "inteligencia" alta, pero si cambia de opinión cada vez que le hablas, no es útil para la medicina.
El diseño importa: Los modelos que usan "expertos" (como Llama 4) pueden ser rápidos, pero son más frágiles ante cambios pequeños en las instrucciones. Los modelos médicos especializados (MedGemma) parecen ser más estables en este contexto.
Menos es más: Para usar estos modelos en hospitales, es mejor mantenerlos en "modo serio" (temperatura baja) para que no sean creativos, sino predecibles.
La trampa de la velocidad: Si necesitas que el modelo sea muy creativo (temperatura alta), puedes usar el "voto mayoritario" para corregir sus errores, pero tendrás que pagar más en tiempo y computación.

En resumen:
Este estudio nos dice que no basta con tener un modelo de IA "inteligente". Para salvar vidas y tomar decisiones médicas, necesitamos modelos que sean estables, predecibles y que no se confundan si cambiamos un poco la forma de hablarles. Y si el modelo es un poco inestable, podemos usar trucos como pedirle varias opiniones y promediarlas para obtener una respuesta segura.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Evaluación de la Fiabilidad de los LLM en la Extracción de Información Clínica

1. Problema y Motivación

La extracción de información clínica (IE) a partir de textos narrativos no estructurados es fundamental para la investigación y la práctica médica, pero enfrenta desafíos significativos debido a la variabilidad lingüística y los hábitos de documentación. Aunque los Modelos de Lenguaje Grandes (LLM) han demostrado alta precisión en tareas de IE, su fiabilidad operativa en entornos clínicos reales a menudo se pasa por alto.

El artículo identifica dos dimensiones críticas de fiabilidad que carecen de cuantificación consistente:

Reproducibilidad (Intra-prompt): La estabilidad de las decisiones de extracción cuando el modelo se consulta repetidamente con el mismo prompt y el mismo texto clínico.
Robustez (Inter-prompt): La estabilidad de las decisiones cuando el prompt se varía de manera natural (parafraseo) por diferentes usuarios o equipos, manteniendo el mismo significado semántico.

La falta de estabilidad puede comprometer el análisis downstream, la auditoría y la confianza de los usuarios finales, especialmente en tareas complejas como la clasificación del estado funcional de la movilidad basada en la Clasificación Internacional del Funcionamiento, la Discapacidad y la Salud (CIF).

2. Metodología

El estudio emplea un diseño factorial controlado para evaluar tres modelos de código abierto (open-weight) con arquitecturas distintas:

Llama 3.3 70B: Un modelo denso de propósito general.
Llama-4-Scout-17B-16E: Un modelo de Mezcla de Expertos (MoE) de propósito general.
MedGemma 27B: Un modelo especializado en el dominio médico (ajustado para EHRs y radiología).

Datos y Tareas:

Se utilizaron 800 secciones de notas clínicas (200 por categoría) de proveedores de Rochester, MN.
Las tareas consistieron en la extracción binaria (presencia/ausencia) de cuatro clases de movilidad alineadas con la CIF:
1. Cambio y mantenimiento de la posición corporal.
2. Transporte, movimiento y manipulación de objetos.
3. Caminar y moverse.
4. Movimiento utilizando transporte.

Diseño Experimental:

Experimento 1 (Reproducibilidad): Se ejecutó el mismo prompt base 100 veces para cada combinación de modelo, función de movilidad y temperatura (de 0.0 a 1.0 en incrementos de 0.1).
Experimento 2 (Robustez): Se crearon 10 paráfrasis semánticamente equivalentes para cada prompt. Cada paráfrasis se ejecutó 10 veces (para reducir ruido de muestreo) bajo las mismas condiciones de temperatura.
Experimento 3 (Mitigación): Se evaluó la autoconsistencia mediante votación mayoritaria (majority voting) sobre 100 generaciones para generar predicciones agregadas.

Métricas de Evaluación:

Rendimiento: Puntuación F1 media (promediada sobre las ejecuciones).
Estabilidad: Coeficiente Kappa de Fleiss ( $\kappa$ ) calculado sobre los vectores de predicción binaria (200 bits) para medir el acuerdo entre las múltiples ejecuciones (tratadas como "evaluadores").
Análisis Estadístico: ANOVA de tres vías (Modelo, Temperatura, Clase de Movilidad) con pruebas post-hoc de Tukey HSD.

3. Contribuciones Clave

Marco de Evaluación Unificado: Propone una metodología que cuantifica simultáneamente el rendimiento predictivo (F1) y la estabilidad (Kappa) bajo variaciones de temperatura y paráfrasis de prompts.
Comparativa de Arquitecturas: Analiza cómo las diferencias arquitectónicas (Densa vs. MoE vs. Especializada) impactan la fiabilidad, no solo la precisión.
Estrategia de Mitigación Práctica: Evalúa la viabilidad de la votación mayoritaria como mecanismo de control de fiabilidad en tiempo de inferencia sin necesidad de reentrenamiento.
Recomendaciones de Despliegue: Ofrece directrices basadas en datos para la selección de modelos y parámetros de decodificación en entornos clínicos.

4. Resultados Principales

A. Efecto de la Temperatura en la Reproducibilidad:

Aumentar la temperatura degrada consistentemente el acuerdo ( $\kappa$ ), aunque el F1 puede mantenerse estable o incluso mejorar ligeramente en algunos casos.
Llama 3.3 (Denso): Muestra una degradación gradual de la estabilidad con el aumento de la temperatura.
Llama 4 (MoE): Exhibe la degradación más pronunciada en estabilidad, especialmente en tareas de manipulación de objetos y uso de transporte. La variabilidad en la selección de expertos (routing) parece amplificar la inestabilidad.
MedGemma (Especializado): Mantiene un alto rendimiento y estabilidad a temperaturas bajas, aunque muestra una caída más aguda en la tarea de "cambio de posición corporal" a temperaturas altas.

B. Robustez ante Paráfrasis de Prompts:

La reescritura de instrucciones, incluso manteniendo el significado, reduce significativamente la estabilidad en comparación con la repetición del mismo prompt.
Llama 4 muestra una robustez notablemente inferior en 3 de las 4 categorías de movilidad, con valores de $\kappa$ extremadamente bajos en ciertas tareas.
Llama 3.3 y MedGemma son más robustos a las variaciones de prompts, aunque MedGemma mantiene una ventaja consistente en rendimiento y estabilidad a temperatura 0.0.

C. Análisis Estadístico (ANOVA):

Se encontraron efectos principales significativos para el Modelo, la Temperatura y la Clase de Movilidad.
La interacción Modelo × Temperatura fue significativa en la reproducibilidad, pero no en la robustez, lo que sugiere que las diferencias de robustez entre modelos son persistentes independientemente del nivel de estocasticidad.
Las pruebas post-hoc confirmaron que Llama 4 es estadísticamente menos robusto que Llama 3.3 y MedGemma ante paráfrasis de prompts ( $p < 0.001$ ).

D. Efecto de la Autoconsistencia (Votación Mayoritaria):

La votación mayoritaria mejora sustancialmente el $\kappa$ (reproducibilidad) en todos los modelos, especialmente en Llama 4, donde recupera niveles altos de acuerdo incluso a temperaturas más altas.
El impacto en el F1 es modesto: a menudo preserva el rendimiento o lo mejora ligeramente, pero el costo es un aumento en la latencia y el cómputo (inferencia múltiple).

5. Significado y Conclusiones

El estudio concluye que la precisión promedio (F1) es insuficiente para garantizar la fiabilidad clínica. Un modelo puede tener un alto F1 pero ser inestable, lo que genera variabilidad inaceptable en pipelines clínicos.

Recomendación de Despliegue: Para la extracción de información clínica, se recomienda utilizar temperatura 0.0 para maximizar la reproducibilidad.
Selección de Modelo: MedGemma se presenta como una opción sólida para un despliegue uniforme debido a su alto rendimiento y estabilidad en temperatura baja. Llama 4 (MoE) debe usarse con precaución debido a su alta sensibilidad a variaciones de prompts y temperatura.
Mitigación: Cuando se requiere decodificación estocástica (temperatura > 0) o en entornos multi-agente, la autoconsistencia mediante votación mayoritaria es una estrategia efectiva para mitigar la variabilidad, a pesar del costo computacional adicional.

Este trabajo subraya la necesidad de incluir métricas de estabilidad (como el Kappa de Fleiss) junto con las métricas de rendimiento en la evaluación estándar de LLMs para aplicaciones médicas, promoviendo sistemas más auditables y confiables.

Reproducibility and Robustness of Large Language Models for Mobility Functional Status Extraction

1. El Problema: La "Inestabilidad" del Chef

2. Los Protagonistas: Tres Tipos de Chef

3. El Experimento: La Prueba de Fuego

4. La Solución Mágica: El "Voto Mayoritario"

5. Las Conclusiones (Lo que debemos aprender)

Resumen Técnico: Evaluación de la Fiabilidad de los LLM en la Extracción de Información Clínica

1. Problema y Motivación

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado y Conclusiones

Más como este

A case report on gendered biases in a Finnish healthcare AI assistant

An End-to-End Synthetic Oncology Clinical Trial Framework Integrating Radiographic Response, Circulating Tumor DNA, Safety, and Survival for Decision-Oriented Clinical Data Science

Who is leading medical AI? A systematic review and scientometric analysis of chest x-ray research

High-Throughput Observational Evidence Generation Using Linked Electronic Health Record and Claims Data

Perception of Safety in Behavioral Health Crisis Units among Patients and Care Partners versus Artificial Intelligence (AI): A Multimethod Study