VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization

Each language version is independently generated for its own context, not a direct translation.

Imagina que un hospital es como una biblioteca gigante y desordenada, llena de miles de notas escritas por diferentes doctores, enfermeras y máquinas a lo largo de la estadía de un paciente. Cuando el paciente sale, se necesita escribir un "Resumen de la Estancia Hospitalaria" (como un informe final) que cuente la historia de lo que le pasó, qué tratamientos recibió y por qué.

El problema es que los Inteligencias Artificiales (IA) que intentan escribir estos resúmenes a veces "alucinan": inventan detalles que no están en las notas o se saltan información importante para ser más breves. Es como si un periodista escribiera una noticia sobre un partido de fútbol inventando goles que nunca ocurrieron solo para que la historia suene más emocionante.

Aquí es donde entra el VERI-DPO, la solución propuesta en este artículo. Vamos a explicarlo con una analogía sencilla:

1. El Problema: El Periodista Novato y el Editor Estricto

Imagina que tienes un periodista novato (la IA actual) que escribe el resumen. A veces, para no meterse en problemas, escribe cosas muy vagas ("el paciente estuvo bien") o inventa detalles ("se operó el corazón") que no están en las notas reales.

Antes, los editores humanos revisaban todo manualmente, pero eso es lento y costoso. Además, si le decías a la IA "sé más breve", ella empezaba a escribir menos cosas, omitiendo información vital (el problema de "decir menos").

2. La Solución: El "Inspector de Hechos" (El Verificador)

Los autores crearon un Inspector de Hechos (llamado Verificador). Este es un pequeño experto entrenado para leer las notas originales del paciente y compararlas frase por frase con lo que el periodista novato escribió.

El Inspector tiene tres respuestas posibles para cada frase del resumen:

✅ Aprobado: "Sí, esto está en las notas".
❌ Rechazado: "¡Mentira! Esto no aparece en las notas o contradice lo que dice".
❓ Ignorado: "No sé, no hay información sobre esto en las notas".

3. El Entrenamiento: El Juego de "El Bueno y El Malo" (DPO)

Aquí es donde ocurre la magia. En lugar de solo corregir al periodista, el sistema crea un juego de preferencias:

El sistema pide al periodista novato que escriba dos versiones del mismo resumen.
El Inspector revisa ambas.
- La Versión A tiene muchas mentiras (el Inspector pone muchas ❌).
- La Versión B tiene menos mentiras y más información real (el Inspector pone muchas ✅).
El sistema le dice al periodista: "¡Mira! La Versión B es mucho mejor porque el Inspector la aprobó más. Aprende de la diferencia y escribe más como la B la próxima vez."

A esto se le llama Optimización Directa de Preferencias (DPO). Es como si el periodista aprendiera de sus errores comparando sus propios borradores, guiado por el Inspector, sin necesidad de que un humano le corrija cada palabra.

4. El Resultado: Un Periodista de Confianza

Gracias a este método, el nuevo "periodista" (la IA entrenada con VERI-DPO) logra dos cosas increíbles:

Deja de inventar: Reduce drásticamente las mentiras (de un 11% de errores a menos del 2%).
No se hace el tonto: No se acorta el resumen para evitar errores. Sigue siendo largo, detallado y útil, pero ahora fiel a la realidad.

En resumen, con una metáfora final:

Imagina que estás cocinando una receta para un banquete (el resumen médico).

La IA antigua era como un chef que, por miedo a equivocarse, ponía muy pocos ingredientes o inventaba sabores que no existían.
VERI-DPO es como poner un sommelier experto (el verificador) en la cocina. El sommelier prueba cada plato que el chef prepara, le dice: "Esto no tiene sal, esto no tiene tomate, pero esto sí está perfecto".
Luego, el chef compara dos versiones de su plato, elige la que el sommelier aprobó más, y aprende a cocinar mejor para la próxima vez, asegurándose de que el plato final sea delicioso (útil) y tenga exactamente los ingredientes correctos (basado en la evidencia real).

¿Por qué es importante?
Porque en medicina, un error de invento puede ser peligroso. Este sistema asegura que la IA cuente la historia del paciente tal como sucedió, basándose en la evidencia real, sin inventar ni omitir nada crucial.

Each language version is independently generated for its own context, not a direct translation.

1. Planteamiento del Problema

La generación automática de narrativas clínicas, específicamente el Curso Hospitalario Breve (BHC), es un desafío crítico en la inteligencia artificial sanitaria. El BHC debe ser informativo para la toma de decisiones clínicas, pero también debe ser fiel a la evidencia fragmentada de las Historias Clínicas Electrónicas (EHR).

Los modelos actuales de LLM (Large Language Models) enfrentan dos barreras principales:

Alucinaciones y afirmaciones no soportadas: Los modelos tienden a generar declaraciones plausibles pero sin fundamento en los registros médicos reales.
Degeneración por omisión ("Say-less"): Los métodos de alineación (alignment) a menudo incentivan al modelo a producir resúmenes más cortos o vagos para evitar cometer errores factuales, reduciendo así la utilidad clínica del resumen.

La supervisión basada en hechos es costosa y difícil de escalar, y los métodos de alineación existentes a menudo carecen de señales de preferencia vinculadas directamente a la evidencia para evitar estos atajos.

2. Metodología: VERI-DPO

El authors proponen VERI-DPO (Verifier-Driven Direct Preference Optimization), una tubería de alineación consciente de la evidencia que consta de tres etapas principales:

A. Entrenamiento de un Verificador de Reclamaciones (Stage A)

Objetivo: Crear un verificador ligero y recuperador de información (retrieval-augmented) capaz de evaluar si una afirmación (claim) en un resumen es soportada por la evidencia del paciente.
Funcionamiento:
- Se entrena un modelo LLM pequeño (8B) para clasificar pares (evidencia, afirmación) en una de tres categorías usando un formato de un solo token:
  - A (Supported): Soportado por la evidencia.
  - B (Not Supported): No soportado o contradicho (alucinación/error).
  - C (Not Addressed): No abordado (la evidencia no menciona el tema).
- Se utiliza un mecanismo de recuperación de dos etapas (BM25) sobre las notas clínicas del paciente para obtener el contexto relevante.
- Se introduce un sesgo de logits (bias) ajustable para calibrar el equilibrio entre precisión y recall, priorizando la detección de contradicciones (clase B) sin sacrificar demasiado la precisión global.

B. Minería de Preferencias Guiada por el Verificador (Stage B)

Objetivo: Generar pares de preferencia $(y^+, y^-)$ para el entrenamiento DPO sin necesidad de anotación humana masiva.
Proceso:
1. Se generan múltiples candidatos de resumen (BHC) para una misma ventana de evidencia.
2. Cada candidato se descompone en afirmaciones a nivel de oración y se puntúa con el verificador entrenado.
3. Se calcula una función de utilidad ( $U$ ) que penaliza fuertemente las contradicciones (clase B), penaliza levemente lo no abordado (clase C) y recompensa la cobertura de afirmaciones y la longitud adecuada.
4. Selección de Pares: Se seleccionan pares donde el candidato elegido ( $y^+$ ) tiene una utilidad significativamente mayor (menos contradicciones de alta confianza o "HCNS") y cumple restricciones de longitud y cobertura para evitar la degeneración por omisión. El candidato rechazado ( $y^-$ ) debe contener al menos una contradicción de alta confianza.

C. Alineación mediante DPO (Stage C)

Objetivo: Transferir las preferencias extraídas por el verificador al generador de resúmenes.
Técnica: Se aplica Direct Preference Optimization (DPO) utilizando los pares minados $(x, y^+, y^-)$ .
Ventaja: Esto permite que el modelo aprenda a generar resúmenes factuales en una sola pasada (single-sample policy), eliminando la necesidad de reordenamiento (reranking) costoso en tiempo de inferencia.

3. Contribuciones Clave

Verificador de Reclamaciones Clínico: Desarrollo y evaluación de un verificador ligero recuperador de información, entrenado con divisiones a nivel de paciente, capaz de detectar alucinaciones con alta precisión.
Minería de Preferencias con Anclaje de Contradicción: Introducción de un método para extraer señales de preferencia que anclan explícitamente las contradicciones de alta confianza (HCNS) y controlan la longitud y la cobertura para evitar que el modelo "diga menos" para evitar errores.
Alineación DPO Eficiente: Demostración de que la supervisión del verificador puede destilarse en un modelo de resumen único mediante DPO, logrando mejoras significativas en la facticidad sin perder información clínica.

4. Resultados Experimentales

El método se evaluó en el conjunto de datos MIMIC-III-Ext-VeriFact-BHC (100 pacientes de UCI, con divisiones estrictas a nivel de paciente).

Reducción de Alucinaciones:
- Verificador Local: La tasa de afirmaciones no soportadas (NS-rate) disminuyó del 10.7% (modelo base) al 1.9% (VERI-DPO).
- Juez Externo (GPT-4o): La tasa disminuyó del 11.6% al 6.4%, confirmando que la mejora no es un artefacto del verificador local.
Calidad del Resumen:
- La validez del resumen mejoró del 76.7% al 82.5%.
- Se mantuvo o aumentó la longitud y la cantidad de afirmaciones soportadas, demostrando que el modelo no recurrió a la degeneración por omisión.
Comparación con Baselines:
- El Fine-Tuning Supervisado (SFT) no logró reducir las alucinaciones (incluso las aumentó ligeramente).
- El Reranking (Best-of-K) mejoró la facticidad pero requiere múltiples inferencias, lo cual es costoso. VERI-DPO logra el mejor rendimiento como política de una sola muestra.

5. Significado e Impacto

Escalabilidad y Auditabilidad: VERI-DPO transforma la verificación de hechos, tradicionalmente costosa, en una señal de entrenamiento escalable. Los artefactos intermedios (etiquetas de afirmaciones, márgenes de confianza, identificadores de evidencia) permiten una auditoría eficiente y la localización de errores.
Seguridad Clínica: Al reducir drásticamente las afirmaciones no soportadas sin sacrificar la información clínica, el método aborda un riesgo crítico en la implementación de IA en entornos de salud, donde los errores pueden propagarse a la atención posterior.
Generalización del Método: La estrategia de usar un verificador para guiar la optimización de preferencias (DPO) ofrece un marco aplicable a otros dominios donde la fidelidad a la evidencia es crucial y la anotación humana es limitada.

En conclusión, VERI-DPO representa un avance significativo hacia la generación de resúmenes clínicos confiables, equilibrando la necesidad de precisión factual con la riqueza informativa requerida por los profesionales de la salud.