Quantifying Hallucinations in Language Language Models on Medical Textbooks

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un chef de cocina muy inteligente (un modelo de lenguaje grande) al que le pides que prepare un plato basado estrictamente en una receta de un libro de cocina antiguo y confiable (un libro de medicina).

El problema es que este chef es tan talentoso que puede hablar con una fluidez increíble, usar palabras ricas y sonar como un experto. Pero, a veces, inventa ingredientes que no existen o cambia los pasos de la receta sin que te des cuenta. En el mundo de la inteligencia artificial, a esto le llamamos "alucinación".

Este estudio, realizado por investigadores del Instituto Nacional de la Salud (NIH) de EE. UU., se propuso averiguar cuántas veces este chef inventa cosas cuando se le pide que responda preguntas médicas basadas en libros reales.

Aquí tienes la explicación de lo que hicieron y qué descubrieron, usando analogías sencillas:

1. El Problema: "Saber" vs. "Inventar"

Antes, para probar si estos chefs eran buenos, les hacían exámenes de opción múltiple (como un test de conducir). Si el chef elegía la respuesta correcta, decíamos: "¡Es un experto!".
Pero el estudio dice: "¡Espera! Quizás solo se aprendió la respuesta de memoria, no la entendió". Es como un estudiante que memoriza las respuestas del examen de ayer sin entender la materia. Si le preguntas algo nuevo, podría inventar una respuesta que suena muy convincente pero es falsa.

2. La Prueba: El "Libro de Recetas" Abierto

Para evitar que el chef se base en lo que ya memorizó, los investigadores crearon un nuevo tipo de examen:

Le dieron al chef un párrafo específico de un libro de medicina (la "receta").
Le dijeron: "Lee esto y responde la pregunta solo usando esta información".
Si el chef añadía algo que no estaba en el párrafo (aunque sonara lógico), lo marcaron como una alucinación.

El resultado del primer chef (LLaMA-70B):
Aunque el chef sonaba perfecto y usaba un lenguaje profesional en el 98.8% de los casos, en casi el 20% de las respuestas (1 de cada 5) inventó información.

La analogía: Es como si un médico te dijera con total seguridad: "Toma esta pastilla azul para curar el dolor de cabeza", y tú le preguntas: "¿Dónde dice eso en el libro?", y él responde: "Ah, no lo dice, pero suena bien". ¡Es peligroso!

3. La Segunda Prueba: ¿Quién es el mejor chef?

Luego, probaron a 8 chefs diferentes (distintos modelos de IA) con las mismas recetas. También pidieron a médicos reales que probaran los platos y dijeran:

¿Es bueno? (Útil)
¿Es regular?
¿Es malo? (Peligroso)

Lo que descubrieron:

Más grande no siempre es perfecto, pero ayuda: Los modelos más grandes (con más "cerebro") alucinaron menos que los pequeños. Sin embargo, ninguno fue perfecto. Todos cometieron errores.
La trampa de la pregunta: Si les hacían preguntas al revés (ej: "¿Qué medicamento NO es seguro?"), los chefs se confundían mucho más y inventaban más cosas. Es como si al pedir "lo que no debes hacer", el chef se mareara y dijera cosas erróneas.
La relación entre "sonar bien" y "ser útil": Hubo una correlación clara: los modelos que inventaban menos cosas fueron los que los médicos consideraron más útiles.

4. El Costo Real: El "Inspector de Cocina"

El estudio revela algo muy importante sobre el dinero y el tiempo.

Generar las preguntas con la IA es barato y rápido (como pedirle al chef que escriba un menú).
Pero verificar si la comida es segura es caro y lento. Necesitas un médico humano (un inspector) para leer cada respuesta y decir: "Esto es verdad" o "Esto es una invención".
La analogía: Puedes tener un robot que escribe recetas en segundos, pero si no tienes un chef humano revisando cada plato antes de servirlo al paciente, podrías envenenar a alguien. El costo de tener ese "humano revisando" es tan alto que hace muy difícil usar estas IAs en medicina de forma automática hoy en día.

Conclusión Simple

La Inteligencia Artificial médica actual es como un estudiante brillante pero distraído:

Habla muy bien y suena muy seguro.
A veces inventa datos peligrosos (alucina) en 1 de cada 5 respuestas.
Los modelos más grandes son un poco más cuidadosos, pero ninguno es 100% fiable.
No podemos confiar en ellos solos. Siempre, siempre, siempre necesitamos un médico humano revisando lo que la máquina dice, porque el precio de un error en medicina es demasiado alto.

En resumen: La tecnología es impresionante, pero todavía no está lista para trabajar sola en un hospital. Necesitamos un "supervisor humano" en la cocina.

Each language version is independently generated for its own context, not a direct translation.

A continuación presento un resumen técnico detallado del artículo "Quantifying Hallucinations in Language Models on Medical Textbooks", traducido y estructurado en español.

1. El Problema

Los Grandes Modelos de Lenguaje (LLM) han demostrado un alto rendimiento en benchmarks médicos tradicionales (como exámenes de opción múltiple), pero sufren de un problema crítico: las alucinaciones. Estas son respuestas que contienen afirmaciones factualmente incorrectas, no respaldadas por evidencia o fabricadas.

El problema central identificado en el artículo es que:

Los benchmarks actuales a menudo evalúan la capacidad de memorización del modelo en lugar de su razonamiento basado en evidencia.
Existe una "contaminación" en los conjuntos de datos de entrenamiento, donde los modelos pueden haber visto las preguntas de prueba antes, inflando artificialmente sus puntuaciones.
Las respuestas alucinadas suelen ser altamente plausibles (gramaticalmente correctas y con tono profesional), lo que las hace peligrosas en entornos clínicos, ya que los usuarios no expertos pueden no detectar el error.
No existe una definición estandarizada ni un método robusto para medir las alucinaciones en el contexto de preguntas y respuestas (QA) médicas basadas en fuentes autorizadas.

2. Metodología

Los autores desarrollaron un pipeline llamado ClinIQLink para crear un benchmark resistente a la contaminación y basado en texto.

Fuente de Datos: Se utilizaron libros de texto médicos de dominio público. Se filtraron párrafos para asegurar densidad de información (eliminando texto boilerplate, tablas, etc.) y se aplicaron heurísticas de coherencia semántica.
Generación de QA: Se generaron pares de preguntas y respuestas (QA) automáticamente a partir de estos párrafos utilizando LLMs. Se emplearon siete formatos de preguntas: verdadero/falso, listas, opción múltiple, respuesta corta, razonamiento multi-paso y dos variantes inversas (preguntas negadas o inversas).
Validación Humana:
- Experimento 1: Se evaluó el modelo de código abierto LLaMA-70B-Instruct en un entorno de "zero-shot" (sin entrenamiento previo específico). Las respuestas fueron verificadas por anotadores médicos expertos a través de un portal seguro. Se midió la prevalencia de alucinaciones y la plausibilidad.
- Experimento 2: Se expandió la evaluación a 8 modelos de lenguaje de diferentes tamaños y estrategias de entrenamiento (incluyendo Phi-4, LLaMA 3.3, Qwen 3, Mistral, Falcon y modelos internos). Los clínicos clasificaron las respuestas anónimas de mejor a peor y etiquetaron la calidad (Bueno/Regular/Malo) y la presencia de afirmaciones no respaldadas.
Métricas:
- Tasa de alucinación: Proporción de respuestas con contenido no factual.
- Plausibilidad: Grado en que la respuesta parece médica y profesional (escala 1-5).
- Acuerdo inter-anotador: Medido mediante el coeficiente Kappa de Cohen (ponderado cuadráticamente) y Kendall's $\tau_b$ .
- Correlación: Análisis de Spearman entre la tasa de alucinación y la utilidad clínica percibida.

3. Contribuciones Clave

Nuevo Benchmark Basado en Textos: Creación de un conjunto de datos de 5,543 pares de QA derivados de libros de texto, donde cada respuesta debe justificarse estrictamente con el párrafo fuente, penalizando cualquier adición no respaldada.
Definición Operativa de Alucinación: Se define una alucinación como cualquier respuesta que contenga contenido plausible pero no factual, información falsa/fabricada, o que no sea fiel a las instrucciones de entrada.
Evaluación de Preferencia Clínica: Un estudio donde médicos reales califican la utilidad clínica y la corrección factual, vinculando la métrica técnica de alucinación con la preferencia humana.
Análisis de Costos: Un desglose detallado de los costos computacionales y, crucialmente, el costo humano de la verificación, demostrando que la validación manual es el cuello de botella económico.

4. Resultados Principales

Prevalencia de Alucinaciones (Exp. 1):
- LLaMA-70B-Instruct alucinó en el 19.7% de las respuestas (IC 95%: 18.6% - 20.7%).
- A pesar de esta alta tasa de error, el 98.8% de las respuestas recibieron la puntuación máxima de plausibilidad. Esto confirma que las alucinaciones son difíciles de detectar para no expertos porque suenan muy profesionales.
- No hubo correlación significativa entre la plausibilidad y la ausencia de alucinaciones.
Comparación entre Modelos (Exp. 2):
- Escala vs. Alucinación: Existe una correlación negativa clara entre el tamaño del modelo y la tasa de alucinación. La tasa cayó del 27.1% en modelos de 1B parámetros al 9.3% en modelos de 70B. Sin embargo, todos los modelos evaluados, incluso los más grandes, produjeron al menos algunas respuestas "malas" o alucinadas.
- Preferencia de Clínicos: Los clínicos mostraron un alto acuerdo en sus clasificaciones ( $\kappa$ cuadrático ponderado = 0.92 para validez).
- Correlación: Se observó una asociación negativa entre la tasa de alucinación y la utilidad clínica ( $\rho = -0.71$ ), lo que indica que los modelos con menos alucinaciones fueron preferidos por los médicos.
Impacto del Formato de la Pregunta:
- Las preguntas con formato inverso (ej. "¿Qué medicamento NO es seguro?") y las preguntas de tipo lista (ej. "Enumera todas las contraindicaciones") provocaron tasas de alucinación significativamente más altas (hasta un 6-9% más que las preguntas directas).
- Los modelos grandes tienden a omitir elementos en listas o fallar en la lógica de negación, incluso si el resto de la respuesta es correcta.
Costos:
- La verificación humana es el factor limitante. El costo de la verificación humana supera por más de un orden de magnitud al costo de generación GPU. Por ejemplo, la verificación de una sola QA cuesta aproximadamente $3.33 USD en total (incluyendo GPU y mano de obra), donde la mano de obra domina el costo.

5. Significado y Conclusiones

El estudio concluye que los LLMs actuales no son aptos para su despliegue clínico no supervisado, independientemente de su tamaño o arquitectura.

Riesgo de Seguridad: La alta tasa de alucinaciones (casi 1 de cada 5 respuestas en el modelo base) combinada con su alta plausibilidad representa un riesgo de seguridad crítico en medicina.
Limitación de los Benchmarks Actuales: Las puntuaciones en exámenes de opción múltiple no predicen el comportamiento seguro en el mundo real. Se necesitan métricas que midan la fidelidad a la fuente y la ausencia de invenciones.
Necesidad de Supervisión Humana: Dado que la automatización de la verificación aún no es fiable y el costo de la revisión humana es prohibitivo, ningún sistema médico basado en LLM puede operar sin supervisión experta humana efectiva.
Recomendación: Para evaluar verdaderamente a los LLMs en medicina, se deben incluir pruebas de estrés con preguntas inversas y de tipo lista, ya que estas son las que mejor revelan las deficiencias del modelo.

En resumen, el artículo proporciona una evidencia empírica sólida de que, aunque los modelos médicos están mejorando, la "alucinación" sigue siendo un fallo de seguridad fundamental que requiere supervisión humana continua y no puede ser mitigado solo por el aumento del tamaño del modelo.

Quantifying Hallucinations in Language Language Models on Medical Textbooks

1. El Problema: "Saber" vs. "Inventar"

2. La Prueba: El "Libro de Recetas" Abierto

3. La Segunda Prueba: ¿Quién es el mejor chef?

4. El Costo Real: El "Inspector de Cocina"

Conclusión Simple

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado y Conclusiones

Más como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models