Hallucination Filtering in Radiology Vision-Language Models Using Discrete Semantic Entropy

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un asistente de IA muy inteligente que puede "ver" radiografías, resonancias magnéticas y tomografías, y que además habla perfectamente. Este asistente es como un estudiante de medicina superdotado que ha leído todos los libros del mundo.

Sin embargo, hay un gran problema: a veces, este estudiante alucina. Es decir, cuando no está seguro de la respuesta, en lugar de decir "no lo sé", inventa un diagnóstico con total seguridad. Podría decirte: "¡Hay un tumor aquí!" cuando en realidad no hay nada, o confundir un hueso con un órgano. En medicina, inventar cosas es peligroso.

Los autores de este artículo (un equipo de radiólogos e ingenieros de Alemania) se preguntaron: ¿Cómo podemos saber cuándo nuestro asistente está inventando cosas sin tener que revisar cada una de sus respuestas manualmente?

La Solución: El "Test de la Verdad" (Entropía Semántica Discreta)

Para resolver esto, idearon un método ingenioso llamado Entropía Semántica Discreta (DSE). Aquí te explico cómo funciona usando una analogía sencilla:

Imagina que le haces una pregunta difícil a tu asistente de IA, por ejemplo: "¿Qué órgano se ve en esta imagen?".

El Experimento: En lugar de pedirle una sola respuesta, le pides que responda 15 veces a la misma pregunta, pero le dices: "Responde con un poco de creatividad y variación" (en términos técnicos, usan una "temperatura" alta).
La Reacción del Asistente:
- Si el asistente sabe la respuesta: Las 15 veces dirá casi lo mismo. Por ejemplo: "Es el hígado", "Veo el hígado", "El órgano es el hígado". Todas las respuestas apuntan a lo mismo. Es consistente.
- Si el asistente está "alucinando" o no sabe: Las 15 veces dará respuestas locas y diferentes. Una dirá "Es el hígado", otra "Es un riñón", otra "Es un tumor", otra "No estoy seguro". Las respuestas están dispersas y no coinciden.

El "Medidor de Confusión"

Los investigadores crearon un medidor de confusión (la Entropía Semántica) que analiza esas 15 respuestas:

Baja Entropía (Poca confusión): Las respuestas son todas iguales. El sistema piensa: "¡Genial! Este asistente está seguro. Podemos confiar en esta respuesta."
Alta Entropía (Mucha confusión): Las respuestas son un caos. El sistema piensa: "¡Peligro! Este asistente está inventando cosas. No confíes en lo que dice."

¿Qué pasó en el estudio?

Los investigadores probaron esto con dos modelos de IA muy potentes (GPT-4o y GPT-4.1) usando miles de imágenes médicas reales.

Sin filtro: Cuando dejaron que la IA respondiera a todo, acertaba solo alrededor del 50-55% de las veces. ¡Casi como lanzar una moneda!
Con el filtro de "Alucinación": Usaron el medidor para bloquear las preguntas donde la IA estaba muy confundida (cuando las 15 respuestas no coincidían).
- Al eliminar esas respuestas dudosas, la precisión de las respuestas que sí se aceptaron subió drásticamente, llegando al 76% o más.

La Analogía del Filtro de Café

Piensa en este método como un filtro de café de alta tecnología:

La IA es el agua que pasa a través del café.
A veces el agua sale limpia y sabrosa (respuestas correctas).
A veces sale con tierra o arena (alucinaciones).
El método DSE es el filtro que detecta la arena. Si el agua está muy turbia (alta entropía), el filtro la detiene y no la deja pasar. Si el agua está clara (baja entropía), la deja pasar.
Resultado: El café que llega a tu taza es mucho mejor, aunque tengas que desechar un poco de agua turbia en el proceso.

¿Por qué es importante?

Seguridad: En medicina, es mejor no dar una respuesta que dar una respuesta falsa y peligrosa. Este método permite a la IA decir "no sé" de forma automática cuando no está segura.
Caja Negra: Funciona incluso si no sabes cómo funciona la IA por dentro (como si fuera una "caja negra"). Solo necesitas ver sus respuestas.
Confianza: Ayuda a los radiólogos a confiar más en la IA, sabiendo que el sistema ya ha filtrado sus propias dudas.

El "Pero" (Limitaciones)

El estudio también advierte que el filtro no es perfecto:

A veces la IA puede alucinar con mucha seguridad (dar 15 veces la misma respuesta falsa). En ese caso, el filtro piensa que es correcta y la deja pasar.
Al ser tan estrictos, a veces se pierden preguntas que la IA podría haber respondido bien, pero el sistema las descarta por precaución.

En resumen

Este artículo nos enseña que, para usar la Inteligencia Artificial en radiología de forma segura, no basta con que sea inteligente; necesitamos un sistema de control de calidad que detecte cuándo la IA está "nerviosa" o inventando. El método de la "Entropía Semántica" actúa como ese guardián, eliminando las respuestas dudosas y dejando pasar solo las que tienen sentido, haciendo que la IA sea mucho más útil y segura para los médicos.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Filtrado de Alucinaciones en Radiología mediante Entropía Semántica Discreta

1. Planteamiento del Problema

La integración de Modelos de Lenguaje Visuales (VLMs) en radiología promete aliviar la carga de trabajo y apoyar el diagnóstico. Sin embargo, un obstáculo crítico para su adopción clínica segura es la propensión de estos modelos a generar "alucinaciones": respuestas que suenan plausibles y lingüísticamente seguras, pero que carecen de fundamento en la evidencia visual o el contexto clínico.

Desafío de los modelos "Caja Negra": Los VLMs propietarios (como GPT-4o) no permiten el acceso a sus mecanismos internos (probabilidades de tokens, activaciones) para estimar la incertidumbre.
Limitaciones de métodos existentes: Las técnicas actuales de detección de alucinaciones a menudo requieren reescribir preguntas (lo que altera el contexto clínico), generar múltiples informes largos (costoso en tiempo y recursos) o fine-tuning adicional, lo cual no es viable para entornos clínicos rutinarios.
Necesidad: Se requiere un método de detección de alucinaciones que funcione en escenarios de "caja negra", sea eficiente, no requiera entrenamiento adicional y sea robusto frente a variaciones lingüísticas.

2. Metodología

El estudio evalúa el uso de la Entropía Semántica Discreta (DSE) como métrica para cuantificar la incertidumbre y filtrar respuestas poco fiables.

Diseño del Estudio: Estudio retrospectivo utilizando dos conjuntos de datos públicos y desidentificados:
1. VQA-Med 2019: 500 pares imagen-pregunta (categorías: modalidad, plano, órgano, anomalía).
2. RadDataset: 206 casos clínicos reales (60 TC, 60 RM, 60 radiografías, 26 angiografías) con diagnósticos de referencia confirmados por consenso de radiólogos.
Modelos Evaluados: GPT-4o y GPT-4.1 (OpenAI) accedidos vía API.
Procedimiento de Muestreo:
- Para cada par imagen-pregunta, el modelo generó 15 respuestas independientes con una temperatura alta (T = 1.0) para maximizar la variabilidad y revelar incertidumbre.
- Se generó una respuesta adicional con temperatura baja (T = 0.1) para establecer la línea base de precisión.
Cálculo de la DSE:
1. Agrupación Semántica: Las 15 respuestas se agruparon en "clústeres" basados en la equivalencia semántica (usando verificaciones de implicación bidireccional con el mismo VLM). Esto mitiga la inflación de la entropía causada por meras variaciones lingüísticas.
2. Fórmula: La DSE se calcula como la entropía de la distribución de frecuencias relativas de estos clústeres:
  $DSE(x) = -\sum P(C_i|x) \log_{10} P(C_i|x)$
  - DSE = 0: Todas las respuestas son semánticamente idénticas (alta consistencia).
  - DSE alta: Las respuestas están dispersas en múltiples significados diferentes (alta incertidumbre/alucinación).
Estrategia de Filtrado: Se descartaron las preguntas cuya DSE superaba umbrales predefinidos (> 0.6 y > 0.3). La precisión se recalculó solo sobre las preguntas retenidas.
Análisis Estadístico: Se utilizó bootstrapping (100,000 iteraciones) y corrección de Bonferroni ( $p < 0.004$ ) para determinar la significancia estadística.

3. Contribuciones Clave

Aplicación de DSE en Radiología: Es la primera investigación que adapta la Entropía Semántica Discreta (originalmente para texto) a tareas de Visión-Lenguaje en interpretación de imágenes médicas.
Método de Caja Negra: Propone un enfoque que no requiere acceso a los pesos internos del modelo ni a datos de entrenamiento adicionales, funcionando únicamente con las salidas de la API.
Estrategia de Selección (Selective Prediction): Demuestra que rechazar sistemáticamente las preguntas con alta entropía semántica mejora drásticamente la precisión de las respuestas aceptadas, ofreciendo una estrategia de filtrado práctica para aplicaciones clínicas.
Análisis de Compensación (Trade-off): Cuantifica la relación entre la precisión ganada y la cobertura perdida (número de preguntas rechazadas) bajo diferentes umbrales de DSE.

4. Resultados Principales

Precisión de Línea Base: La precisión inicial (T=0.1) fue moderada/baja: 51.7% para GPT-4o y 54.8% para GPT-4.1 en el conjunto combinado. Fue particularmente baja en el RadDataset (34-35%) y en preguntas sobre "anomalías" (13-12%).
Mejora tras Filtrado DSE:
- Al aplicar un umbral estricto (DSE ≤ 0.3), la precisión aumentó significativamente:
  - GPT-4o: De 51.7% a 76.3% (reteniendo 334 de 706 preguntas).
  - GPT-4.1: De 54.8% a 63.8% (reteniendo 499 de 706 preguntas).
- Todas las mejoras fueron estadísticamente significativas ( $p < 0.001$ ), excepto en el subconjunto de GPT-4o en RadDataset con umbral 0.3 (debido al bajo número de muestras restantes).
Desempeño por Modalidad y Categoría:
- El filtrado fue más efectivo en categorías difíciles como "anomalías" y en modalidades específicas como angiografías.
- En preguntas sobre "modalidad" (fácil), el modelo ya era preciso y la DSE no rechazó muchas preguntas, manteniendo la cobertura alta.
- En preguntas de "anomalía", la tasa de rechazo fue muy alta (>90% en algunos casos), lo que indica que el modelo tenía alta incertidumbre en estas tareas complejas.
Viabilidad Operativa:
- Latencia: El pipeline paralelo toma ~6 segundos por pregunta (2x el tiempo de una llamada API estándar).
- Costo: Aproximadamente $0.72 por pregunta, lo que se considera financieramente viable para flujos de trabajo clínicos diarios.

5. Significado y Limitaciones

Significado Clínico: La DSE proporciona una herramienta cuantitativa para que los radiólogos confíen en las respuestas de la IA. Al filtrar las respuestas inconsistentes, se reduce el riesgo de seguir consejos erróneos, aumentando la seguridad en la adopción de VLMs.
Limitaciones Importantes:
1. Alucinaciones Consistentes: La DSE mide la consistencia, no la veracidad. Si el modelo genera la misma respuesta incorrecta 15 veces (alucinación confiable), la DSE será baja y la respuesta pasará el filtro.
2. Dependencia del Modelo para Agrupación: La agrupación semántica depende de la capacidad del propio VLM para entender la equivalencia, lo que podría introducir sesgos.
3. Imágenes 2D: El estudio se limitó a cortes 2D seleccionados, no a estudios volumétricos completos (3D), lo que podría subestimar los desafíos en la práctica real.
4. Compensación Cobertura-Precisión: Un umbral más estricto mejora la precisión pero reduce drásticamente el número de preguntas respondidas, lo que requiere un ajuste cuidadoso según el riesgo clínico (diagnóstico vs. cribado).

Conclusión:
El estudio demuestra que la Entropía Semántica Discreta es un método viable y efectivo para detectar y filtrar alucinaciones en VLMs de caja negra aplicados a radiología. Aunque no elimina todas las alucinaciones (especialmente las consistentes), mejora significativamente la fiabilidad de las respuestas aceptadas, sentando las bases para sistemas de IA más seguros y confiables en entornos médicos.