LLM-Bootstrapped Targeted Finding Guidance for Factual MLLM-based Medical Report Generation

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover chiedere a un genio della scrittura (un'intelligenza artificiale chiamata MLLM) di scrivere un rapporto medico dettagliato basandosi solo su una foto dei raggi X o degli occhi.

Il Problema: Il "Genio" che Sogna a Cuore Aperto

Il problema è che questi genio sono bravissimi a scrivere, ma quando guardano una foto medica, tendono a inventare cose (allucinazioni) o a dimenticare dettagli importanti.
È come se dessi a un giornalista molto colto una foto di un incidente e gli chiedessi di scrivere il resoconto. Lui potrebbe descrivere bene l'auto, ma inventare che c'era un cane che correva (perché il suo cervello associa "incidente" a "cane") o dimenticare che c'era un semaforo rosso. In medicina, inventare una malattia o dimenticare una frattura è pericoloso.

I metodi attuali provano a far guardare la foto e scrivere il testo tutto in una volta sola. È troppo difficile: il modello si confonde tra "cosa vedo" e "come lo scrivo".

La Soluzione: Fact-Flow (Il Flusso dei Fatti)

Gli autori propongono un nuovo metodo chiamato Fact-Flow. Invece di chiedere al genio di scrivere tutto subito, dividiamo il lavoro in tre passaggi chiari, come se fosse una catena di montaggio intelligente.

1. Il "Detective" che fa la lista della spesa (Costruzione del Dataset)

Prima di tutto, serve una lista di cose da cercare. Normalmente, un medico umano dovrebbe guardare migliaia di foto e scrivere a mano: "Qui c'è una macchia, qui c'è un osso rotto". Questo costerebbe una fortuna e richiederebbe anni.
La magia del paper: Usano un'altra intelligenza artificiale (un LLM) per leggere i vecchi rapporti medici e creare da sola questa lista. È come se avessi un assistente che legge 10.000 libri di storia e ne estrae automaticamente un indice perfetto, senza che nessuno scriva nulla a mano. Questo crea un "vocabolario" di fatti medici.

2. Il "Cacciatore di Indizi" (Classificazione Multi-Etica)

Prima che il "Genio della Scrittura" scriva una sola parola, facciamo lavorare un Cacciatore di Indizi (un modello di classificazione).

Cosa fa: Guarda la foto e dice: "Ok, vedo una macchia polmonare, vedo un versamento, ma non vedo fratture".
L'analogia: È come se prima di scrivere il romanzo, un editor ti desse una lista di controllo: "Ricorda di includere: pioggia, ombrello, gatto nero".
Questo passaggio è cruciale perché costringe l'IA a concentrarsi solo sui fatti visibili prima di iniziare a "fantasticare" con le parole.

3. Il "Narratore Guidato" (Generazione del Rapporto)

Ora diamo la lista dei fatti trovati dal "Cacciatore" al "Genio della Scrittura".

Il comando: "Ehi, scrivi il rapporto medico. Ma ecco le regole: devi parlare della macchia polmonare e del versamento. Non inventare nulla di nuovo."
Il risultato: Il genio usa la sua capacità di scrivere bene, ma è ancorato alla realtà dai fatti che gli abbiamo fornito. Non può più inventare il "cane" perché la lista dice che c'è solo "macchia polmonare".

Perché è così importante?

Nessuna etichetta manuale: Non servono medici a scrivere liste a mano per addestrare il sistema. L'IA si auto-addestra.
Precisione: Il sistema non dimentica i dettagli critici (come una cavità nei polmoni) e non inventa malattie inesistenti.
Flessibilità: Funziona su diverse malattie (hanno provato su tubercolosi e problemi agli occhi) e con diversi modelli di intelligenza artificiale.

In Sintesi

Immagina di costruire una casa.

Metodo vecchio: Dai al muratore (l'IA) un disegno e gli dici "Costruiscila". Lui potrebbe mettere una finestra dove non dovrebbe o dimenticare il tetto.
Metodo Fact-Flow: Prima, un ispettore (il Cacciatore) controlla il terreno e fa una lista precisa: "Serve un tetto, due finestre, un camino". Poi, al muratore (il Narratore) dai la lista e gli dici: "Costruisci esattamente questo".

Il risultato è una casa (un rapporto medico) che è sia bella (ben scritta) che sicura (factualmente corretta). È un passo avanti enorme per rendere l'IA affidabile negli ospedali.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Instabilità Fattuale nei Modelli MLLM

La generazione automatica di referti medici da immagini diagnostiche è un compito critico, ma l'adozione dei Modelli Linguistici Multimodali (MLLM) in ambito clinico è ostacolata da un problema fondamentale: l'instabilità fattuale.

Allucinazioni e Omissioni: I modelli MLLM, quando addestrati end-to-end (dall'immagine direttamente al testo), tendono a "allucinare" findings clinici inesistenti o a omettere osservazioni patologiche cruciali.
Mancanza di Base Fattuale: Le metodologie attuali mappano direttamente le caratteristiche visive al linguaggio, senza una base fattuale definita, rendendo i risultati inaffidabili per l'uso reale.
Carenza di Dati Annotati: Esiste una scarsità di dataset su larga scala che associno immagini mediche a etichette di findings clinici granulari. L'annotazione manuale è proibitiva in termini di costi e tempo, specialmente per malattie specifiche.
Limiti dei Metodi Precedenti: Approcci guidati da etichette esistenti (es. TieNet) utilizzano vocabolari fissi legati a dataset specifici, limitando l'adattabilità alle moderne architetture MLLM.

2. Metodologia: Il Framework Fact-Flow

Gli autori propongono Fact-Flow, un framework innovativo che migliora l'accuratezza fattuale separando il processo di identificazione dei fatti visivi dalla generazione del testo. Il framework si articola in tre fasi principali:

Fase 1: Costruzione del Dataset di Etichette Guidata da LLM (LLM-Bootstrapped)

Per superare la mancanza di dati etichettati senza intervento umano costoso, viene creato un pipeline automatizzato:

Estrazione della Tassonomia: Un LLM (es. GPT-5-mini) analizza batch di referti medici esistenti per estrarre concetti clinici significativi (malattie, caratteristiche patologiche, localizzazioni anatomiche, gravità).
Fusione Gerarchica: I set di etichette estratti vengono consolidati iterativamente per normalizzare i sinonimi e rimuovere i duplicati, ottenendo una tassonomia canonica unificata ( $L$ ).
Annotazione Automatica: L'LLM viene utilizzato per annotare ogni referto di addestramento con un vettore binario che indica la presenza o assenza di ciascuna etichetta nella tassonomia.
Filtraggio: Vengono mantenute solo le etichette che appaiono in un numero sufficiente di referti (soglia $\theta$ ) per mitigare problemi di code lunghe (long-tail).

Fase 2: Addestramento del Modello di Guida (Multi-Label Classification)

Viene addestrato un modello di classificazione multi-etichetta ( $f_{MLC}$ ) per prevedere i findings clinici direttamente dall'immagine.

Architettura: Utilizza un encoder visivo pre-addestrato (DINOv3 con backbone ConvNeXt).
Gestione dello Squilibrio: Poiché i dataset medici hanno classi rare ma critiche, viene applicata una tecnica di Logit Adjustment. I logit grezzi vengono spostati in base alla frequenza empirica delle etichette ( $p_j$ ) prima di calcolare la perdita, migliorando la precisione e il richiamo sulle classi minoritarie.

Fase 3: Generazione del Referto Guidata dalle Etichette

L'MLLM viene fine-tunato per generare il referto diagnostico condizionato sia dalle caratteristiche visive che dalle etichette predette.

Addestramento: Le etichette vere (ground-truth) vengono serializzate in un prompt naturale (es. "L'immagine mostra i seguenti findings: [A], [B]...") e inserite prima del target di generazione.
Inferenza: Durante la fase di test, le etichette vere non sono disponibili. Il sistema utilizza le etichette predette dalla Fase 2 ( $\hat{Y}$ ) come guida fattuale. Questo vincola l'MLLM a generare un referto basato su fatti identificati esplicitamente, riducendo le allucinazioni.

3. Contributi Chiave

Fact-Flow: Un nuovo framework che migliora la generazione di referti MLLM tramite un condizionamento esplicito multi-etichetta sui findings clinici.
Pipeline di Dati Automatizzata: Un metodo completamente automatico, guidato da LLM, per costruire dataset su larga scala (immagine, multi-etichetta) da coppie immagine-referto esistenti, eliminando la necessità di annotazione manuale.
Validazione Clinica: Sperimentazione su due dataset focalizzati su malattie specifiche (Tubercolosi e Oftalmologia), dimostrando miglioramenti consistenti rispetto allo stato dell'arte.

4. Risultati Sperimentali

Il metodo è stato valutato su due dataset: un dataset pubblico di radiografie toraciche per la tubercolosi e un dataset multimodale oftalmologico (fotografie fundus, OCT, OCTA) con referti in cinese.

Metriche: Sono stati utilizzati metriche NLG (BLEU, ROUGE, CIDEr, METEOR) e metriche di efficacia clinica (RadFact per la tubercolosi, che valuta Precisione, Recall e F1-score sulle entità cliniche).
Performance sulla Tubercolosi:
- Fact-Flow ha migliorato significativamente tutte le metriche per tre diversi MLLM (MedGemma, LLaVA-Med, Qwen2.5-VL).
- MedGemma + Fact-Flow ha raggiunto le prestazioni migliori complessive.
- I modelli MLLM "vanilla" (senza guida) hanno mostrato un "collasso del modo" (es. Qwen2.5-VL aveva precisione perfetta ma recall quasi zero; LLaVA-Med aveva punteggio clinico zero).
- I modelli VLM chiusi (Gemini-2.5) in setting zero-shot hanno performato male, sottolineando la necessità di addestramento specifico.
Performance in Oftalmologia:
- Qwen2.5-VL + Fact-Flow ha ottenuto i migliori risultati sulla maggior parte delle metriche NLG, dimostrando efficacia anche in scenari multimodali complessi.
Analisi Qualitativa: Gli esempi mostrano che la guida fattuale permette una localizzazione più precisa dei findings (es. lateralità della malattia, regioni anatomiche) rispetto alle baseline.
Analisi delle Fasi Intermedie:
- La Fase 1 ha dimostrato il 100% di copertura delle informazioni cliniche chiave e un'accuratezza di matching del 100% con i referti, con una ridondanza bassa (7,5%).
- La Fase 2 ha raggiunto un Macro-F1 di 0,52 (tubercolosi) e 0,71 (oftalmologia), fornendo una base solida per la generazione.
- L'uso combinato di immagine ed etichette predette ha dato le migliori prestazioni pratiche, confermando che il contesto visivo e la guida fattuale sono complementari.

5. Significato e Impatto

Il lavoro di Fact-Flow rappresenta un passo avanti significativo verso l'implementazione clinica sicura degli MLLM:

Affidabilità Clinica: Risolve il problema critico delle allucinazioni, rendendo i referti generati più sicuri per l'uso medico reale.
Scalabilità: La metodologia di bootstrapping delle etichette risolve il collo di bottiglia della mancanza di dati annotati, permettendo l'adattamento a nuove malattie o domini senza costi di annotazione manuale massicci.
Architettura Modulare: Fact-Flow è un framework "plug-and-play" compatibile con qualsiasi architettura MLLM, offrendo una soluzione pratica per scenari clinici dove i referti ruotano attorno a categorie di findings mirate e enumerabili.

In sintesi, Fact-Flow dimostra che decoupling il riconoscimento visivo dalla composizione linguistica, introducendo un livello intermedio di guida fattuale, migliora drasticamente l'accuratezza clinica mantenendo alta la qualità del testo generato.