Hallucination Filtering in Radiology Vision-Language Models Using Discrete Semantic Entropy

Este estudio demuestra que el uso de la entropía semántica discreta para filtrar preguntas con alta inconsistencia semántica mejora significativamente la precisión diagnóstica de los modelos de lenguaje visión-idioma de caja negra en tareas de respuesta a preguntas visuales en radiología.

Patrick Wienholt, Sophie Caselitz, Robert Siepmann, Philipp Bruners, Keno Bressem, Christiane Kuhl, Jakob Nikolas Kather, Sven Nebelung, Daniel Truhn

Publicado 2026-02-26
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un asistente de IA muy inteligente que puede "ver" radiografías, resonancias magnéticas y tomografías, y que además habla perfectamente. Este asistente es como un estudiante de medicina superdotado que ha leído todos los libros del mundo.

Sin embargo, hay un gran problema: a veces, este estudiante alucina. Es decir, cuando no está seguro de la respuesta, en lugar de decir "no lo sé", inventa un diagnóstico con total seguridad. Podría decirte: "¡Hay un tumor aquí!" cuando en realidad no hay nada, o confundir un hueso con un órgano. En medicina, inventar cosas es peligroso.

Los autores de este artículo (un equipo de radiólogos e ingenieros de Alemania) se preguntaron: ¿Cómo podemos saber cuándo nuestro asistente está inventando cosas sin tener que revisar cada una de sus respuestas manualmente?

La Solución: El "Test de la Verdad" (Entropía Semántica Discreta)

Para resolver esto, idearon un método ingenioso llamado Entropía Semántica Discreta (DSE). Aquí te explico cómo funciona usando una analogía sencilla:

Imagina que le haces una pregunta difícil a tu asistente de IA, por ejemplo: "¿Qué órgano se ve en esta imagen?".

  1. El Experimento: En lugar de pedirle una sola respuesta, le pides que responda 15 veces a la misma pregunta, pero le dices: "Responde con un poco de creatividad y variación" (en términos técnicos, usan una "temperatura" alta).
  2. La Reacción del Asistente:
    • Si el asistente sabe la respuesta: Las 15 veces dirá casi lo mismo. Por ejemplo: "Es el hígado", "Veo el hígado", "El órgano es el hígado". Todas las respuestas apuntan a lo mismo. Es consistente.
    • Si el asistente está "alucinando" o no sabe: Las 15 veces dará respuestas locas y diferentes. Una dirá "Es el hígado", otra "Es un riñón", otra "Es un tumor", otra "No estoy seguro". Las respuestas están dispersas y no coinciden.

El "Medidor de Confusión"

Los investigadores crearon un medidor de confusión (la Entropía Semántica) que analiza esas 15 respuestas:

  • Baja Entropía (Poca confusión): Las respuestas son todas iguales. El sistema piensa: "¡Genial! Este asistente está seguro. Podemos confiar en esta respuesta."
  • Alta Entropía (Mucha confusión): Las respuestas son un caos. El sistema piensa: "¡Peligro! Este asistente está inventando cosas. No confíes en lo que dice."

¿Qué pasó en el estudio?

Los investigadores probaron esto con dos modelos de IA muy potentes (GPT-4o y GPT-4.1) usando miles de imágenes médicas reales.

  1. Sin filtro: Cuando dejaron que la IA respondiera a todo, acertaba solo alrededor del 50-55% de las veces. ¡Casi como lanzar una moneda!
  2. Con el filtro de "Alucinación": Usaron el medidor para bloquear las preguntas donde la IA estaba muy confundida (cuando las 15 respuestas no coincidían).
    • Al eliminar esas respuestas dudosas, la precisión de las respuestas que se aceptaron subió drásticamente, llegando al 76% o más.

La Analogía del Filtro de Café

Piensa en este método como un filtro de café de alta tecnología:

  • La IA es el agua que pasa a través del café.
  • A veces el agua sale limpia y sabrosa (respuestas correctas).
  • A veces sale con tierra o arena (alucinaciones).
  • El método DSE es el filtro que detecta la arena. Si el agua está muy turbia (alta entropía), el filtro la detiene y no la deja pasar. Si el agua está clara (baja entropía), la deja pasar.
  • Resultado: El café que llega a tu taza es mucho mejor, aunque tengas que desechar un poco de agua turbia en el proceso.

¿Por qué es importante?

  • Seguridad: En medicina, es mejor no dar una respuesta que dar una respuesta falsa y peligrosa. Este método permite a la IA decir "no sé" de forma automática cuando no está segura.
  • Caja Negra: Funciona incluso si no sabes cómo funciona la IA por dentro (como si fuera una "caja negra"). Solo necesitas ver sus respuestas.
  • Confianza: Ayuda a los radiólogos a confiar más en la IA, sabiendo que el sistema ya ha filtrado sus propias dudas.

El "Pero" (Limitaciones)

El estudio también advierte que el filtro no es perfecto:

  • A veces la IA puede alucinar con mucha seguridad (dar 15 veces la misma respuesta falsa). En ese caso, el filtro piensa que es correcta y la deja pasar.
  • Al ser tan estrictos, a veces se pierden preguntas que la IA podría haber respondido bien, pero el sistema las descarta por precaución.

En resumen

Este artículo nos enseña que, para usar la Inteligencia Artificial en radiología de forma segura, no basta con que sea inteligente; necesitamos un sistema de control de calidad que detecte cuándo la IA está "nerviosa" o inventando. El método de la "Entropía Semántica" actúa como ese guardián, eliminando las respuestas dudosas y dejando pasar solo las que tienen sentido, haciendo que la IA sea mucho más útil y segura para los médicos.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →