VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un médecin très occupé. À la fin d'une hospitalisation, vous devez rédiger un résumé de l'hospitalisation du patient (ce qu'on appelle le "Brief Hospital Course" ou BHC). Ce document est crucial : il sert de passeport pour que les autres médecins continuent les soins. Il doit être court, clair, mais surtout 100 % exact.

Le problème ? Les intelligences artificielles (IA) actuelles, bien que brillantes, ont tendance à "halluciner". Elles inventent parfois des détails qui n'existent pas dans le dossier médical (par exemple, dire qu'un patient a eu une opération qu'il n'a jamais eue) ou, pour éviter les erreurs, elles deviennent trop vagues et disent "moins de choses" (ce qui est aussi dangereux).

Voici comment les auteurs de cette recherche, VERI-DPO, ont résolu ce problème avec une approche ingénieuse.

1. Le Problème : L'IA qui raconte des histoires

Pensez à un étudiant très doué mais un peu trop confiant. On lui donne un dossier médical (des milliers de pages de notes) et on lui demande de résumer l'histoire du patient.

L'IA classique : Elle écrit un résumé fluide, mais elle invente parfois des détails pour que l'histoire soit plus "cohérente". C'est dangereux en médecine.
L'IA trop prudente : Pour ne pas se tromper, elle écrit des phrases très courtes et vagues, comme "Le patient a été soigné". C'est exact, mais inutile pour le prochain médecin.

2. La Solution : Le "Fact-Checker" (Vérificateur de Faits)

Les chercheurs ont créé un système en deux étapes, comme un duo d'artistes de cirque : un Acrobate (l'IA qui résume) et un Arbitre (le vérificateur).

Étape A : L'Arbitre (Le Vérificateur)

Avant même que l'IA ne résume, on entraîne un petit modèle spécial, le "Vérificateur". Son travail est simple :

Il lit une phrase du résumé (ex: "Le patient a pris des antibiotiques").
Il va chercher dans le dossier médical original (les notes de l'infirmière, les résultats de labo, etc.).
Il donne un verdict en un seul mot :
- A (Soutenu) : "Oui, c'est écrit quelque part."
- B (Non soutenu) : "Non, c'est faux ou inventé."
- C (Non traité) : "Je ne trouve pas la preuve, mais ce n'est pas forcément faux."

C'est comme un professeur qui corrige un devoir en s'assurant que chaque affirmation est citée dans le manuel.

Étape B : L'Entraînement par le "Goût" (DPO)

C'est ici que la magie opère. Au lieu de dire à l'IA "Tu as fait une erreur, corrige-toi" (ce qui est difficile à apprendre), on lui montre deux versions de son travail et on lui dit : "J'aime mieux celle-ci".

La Création de Paires : L'IA génère 8 versions différentes du résumé pour le même patient.
Le Tri : Le Vérificateur (l'Arbitre) note chaque version.
- La version Gagnante ( $y+$ ) est celle qui a le moins d'erreurs (peu de "B") mais qui reste détaillée et longue.
- La version Perdante ( $y-$ ) est celle qui contient des erreurs ou qui est trop vague.
L'Apprentissage : On utilise une technique appelée DPO (Optimisation Directe des Préférences). C'est comme si on disait à l'IA : "Regarde, j'ai préféré le résumé A parce qu'il était précis, et j'ai détesté le résumé B parce qu'il mentait. La prochaine fois, écris comme le résumé A."

L'IA apprend ainsi à "sentir" la vérité sans avoir besoin d'être corrigée mot par mot à chaque fois.

3. Le Résultat : Un Résumé Parfait

Grâce à cette méthode, les résultats sont impressionnants :

Moins d'erreurs : Le taux d'inventions (hallucinations) est passé de 10,7 % à 1,9 %. C'est énorme !
Pas de triche : L'IA n'a pas simplement raccourci ses phrases pour éviter les erreurs (ce qu'on appelle la "dégénérescence par omission"). Elle reste aussi détaillée et utile que avant.
Confiance : Même un autre IA très puissante (GPT-4o) a confirmé que le nouveau résumé était beaucoup plus fiable.

En résumé, avec une analogie culinaire

Imaginez que vous voulez un chef cuisinier (l'IA) préparer un plat complexe (le résumé médical) à partir de recettes anciennes et éparpillées (le dossier patient).

Avant : Le chef ajoutait parfois des ingrédients qu'il n'avait pas trouvés pour rendre le plat plus "goûteux", ou il servait juste un peu de sel pour ne pas se tromper.
Avec VERI-DPO : On a installé un Inspecteur de Qualité (le Vérificateur) dans la cuisine. À chaque fois que le chef propose un plat, l'inspecteur vérifie les ingrédients.
- Si le chef met du "poulet" alors qu'il n'y a que du "poisson" dans le frigo, l'inspecteur crie "NON !".
- On montre ensuite au chef deux plats : l'un avec du poulet (faux) et l'autre avec du poisson (vrai). On lui dit : "Je préfère le poisson."
- Le chef apprend très vite à ne jamais mettre de poulet s'il n'y en a pas, tout en continuant à faire des plats copieux et savoureux.

Conclusion : VERI-DPO est une méthode intelligente qui utilise un "vérificateur" pour apprendre à l'IA à être honnête et précise, sans la rendre paresseuse. C'est un pas de géant pour rendre l'IA fiable dans les hôpitaux.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé du papier de recherche VERI-DPO : Alignement conscient des preuves pour la synthèse clinique via la vérification de revendications et l'optimisation directe des préférences (DPO).

1. Problématique

La génération automatique de résumés cliniques, spécifiquement le Brief Hospital Course (BHC) (résumé du parcours hospitalier), est un défi majeur. Bien que les modèles de langage (LLM) aient progressé, ils souffrent de deux problèmes critiques dans ce contexte :

Hallucinations et manque de fidélité : Les modèles produisent souvent des affirmations cliniques non étayées par les dossiers médicaux électroniques (DME/EHR), ce qui est dangereux car ces résumés guident les soins de suite.
Dégénérescence par omission ("Say-less") : Les méthodes d'alignement actuelles, lorsqu'elles sont entraînées avec des signaux imparfaits, tendent à produire des résumés plus courts et plus vagues pour éviter de faire des affirmations vérifiables, réduisant ainsi l'utilité clinique.

Le problème central est de créer un système qui génère des résumés aussi informatifs que possible tout en étant strictement fidèles aux preuves fragmentées et hétérogènes des DME, sans recourir à une annotation manuelle coûteuse pour chaque affirmation.

2. Méthodologie : VERI-DPO

L'approche proposée, VERI-DPO, est un pipeline d'alignement en trois étapes qui utilise un vérificateur léger pour guider l'optimisation des préférences (DPO) sans nécessiter de rééchantillonnage à l'inférence.

A. Données et Prétraitement

Dataset : Utilisation de MIMIC-III-Ext-VeriFact-BHC (100 patients, 125 admissions). Chaque patient possède un résumé BHC humain (référence) et un résumé généré par LLM, ainsi que des DME de référence (notes infirmières, médicales, radiologiques, etc.).
Granularité : Les résumés sont décomposés en unités de propositions (phrases et affirmations atomiques) étiquetées par des cliniciens comme Supporté, Non Supporté (contradiction/hallucination) ou Non Abordé (absence de preuve).

B. Étape 1 : Entraînement d'un Vérificateur RAG (Retrieval-Augmented Generation)

Un modèle LLM léger (8B paramètres, ex: Llama-3.1 ou Med42) est fine-tuné pour agir comme vérificateur.
Entrée : Une affirmation (claim) + des extraits de preuves récupérés (retrieved evidence) spécifiques au patient.
Sortie : Une classification en un seul token : A (Supporté), B (Non Supporté), C (Non Abordé).
Calibration : Un biais de logit est ajusté sur l'ensemble de développement pour optimiser le compromis Précision/Rappel, en favorisant la détection des erreurs (classe B) tout en maintenant un équilibre global.

C. Étape 2 : Fouille de Préférences Pilotée par le Vérificateur

Pour chaque prompt (fenêtre de preuves EHR) :

Échantillonnage : Génération de plusieurs candidats de résumés BHC.
Scoring : Chaque phrase du candidat est vérifiée par le modèle vérificateur.
Utilité (Utility) : Une fonction d'utilité agrège les scores au niveau du résumé. Elle pénalise fortement les contradictions (classe B) et les omissions, tout en récompensant la couverture des affirmations et la longueur.
- Formule clé : $U = \lambda_A n_A - \lambda_B n_B - \lambda_C n_C + \dots$ (où $n_B$ est fortement pénalisé).
Sélection de paires : On sélectionne des paires $(y_{choisie}, y_{rejetée})$ où la candidate choisie a une utilité supérieure (moins de contradictions, longueur contrôlée) et la candidate rejetée contient au moins une contradiction à haute confiance (HCNS : High-Confidence Not Supported).

D. Étape 3 : Alignement par DPO (Direct Preference Optimization)

Les paires de préférences extraites sont utilisées pour entraîner le modèle de synthèse via DPO.
L'objectif est d'apprendre une politique unique qui internalise les préférences du vérificateur, évitant ainsi le besoin de rééchantillonnage ou de ré-ranking coûteux à l'inférence.
Le modèle de base utilisé est Llama-3.1-8b-Instruct.

3. Contributions Clés

Vérificateur Clinique RAG : Développement d'un vérificateur léger et récupération-augmenté, entraîné avec des splits au niveau patient, capable de détecter les contradictions avec une granularité phrase par phrase.
Fouille de Préférences Contrôlée : Introduction d'une méthode pour extraire des paires de préférences en ancrant les contradictions à haute confiance (HCNS) et en imposant des contraintes strictes sur la longueur et la couverture pour éviter la dégénérescence ("say-less").
Alignement DPO Efficace : Application du DPO pour distiller la supervision du vérificateur dans un seul modèle de synthèse, réduisant les hallucinations tout en préservant la richesse informative.

4. Résultats

Les expériences ont été menées sur un ensemble de test tenu à l'écart (120 prompts) et évaluées par deux juges : le vérificateur local et un juge externe GPT-4o.

Réduction des Hallucinations :
- Juge Local : Le taux d'affirmations non supportées (NS-rate) chute de 10,7 % (Base) à 1,9 % (VERI-DPO).
- Juge GPT-4o : Le taux passe de 11,6 % à 6,4 %.
Préservation de l'Informativité :
- Contrairement aux méthodes qui raccourcissent le texte, VERI-DPO augmente la longueur moyenne (de 1855 à 2159 caractères) et le nombre d'affirmations supportées.
- La validité (respect des contraintes de format) s'améliore (de 76,7 % à 82,5 %).
Comparaison avec les Baselines :
- Le Supervised Fine-Tuning (SFT) seul n'a pas réduit les hallucinations (et les a même légèrement augmentées).
- Le Best-of-K reranking (générer 8 versions et choisir la meilleure) réduit les erreurs mais est coûteux en calcul à l'inférence. VERI-DPO atteint des performances supérieures avec une seule génération.

5. Signification et Impact

Fiabilité Clinique : VERI-DPO démontre qu'il est possible d'aligner les LLM sur des données médicales complexes en utilisant des signaux de vérification automatisés, réduisant drastiquement le risque d'erreurs factuelles dans les résumés de sortie.
Efficacité Opérationnelle : En transformant un processus de vérification itératif en un modèle unique optimisé (DPO), la méthode rend le déploiement clinique plus rapide et moins coûteux en ressources de calcul.
Auditabilité : Le système produit des artefacts intermédiaires (étiquettes de revendications, marges de confiance, identifiants de preuves) qui permettent un débogage facile et une revue par les cliniciens, renforçant la transparence de l'IA en santé.
Limites : L'étude repose sur un petit cohort (100 patients) d'une seule unité de soins intensifs (ICU) et dépend de la qualité de la récupération des preuves. Des biais potentiels dans les juges automatisés (GPT-4o) sont également notés.

En conclusion, VERI-DPO propose un cadre robuste pour l'alignement des LLM en milieu clinique, résolvant le dilemme entre précision factuelle et richesse informative grâce à une boucle de rétroaction basée sur la vérification des preuves.