VerifAI: A Verifiable Open-Source Search Engine for Biomedical Question Answering

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover chiedere informazioni sulla tua salute a un assistente molto colto, ma un po' "sognatore". Questo assistente legge milioni di libri medici, ma a volte, quando ti risponde, mescola fatti veri con invenzioni che sembrano vere (le cosiddette "allucinazioni"). È come se ti raccontasse una storia avvincente, ma con dettagli inventati che potrebbero farti prendere una decisione sbagliata.

VerifAI è la soluzione a questo problema. È un nuovo motore di ricerca intelligente, open-source (quindi gratuito e trasparente), progettato specificamente per le domande mediche. Non si limita a "inventare" risposte, ma agisce come un detective meticoloso che controlla ogni singola parola prima di dirtela.

Ecco come funziona, diviso in tre "personaggi" che lavorano insieme:

1. Il Bibliotecario Esperto (Il Motore di Ricerca)

Immagina un bibliotecario che ha accesso a una biblioteca enorme piena di milioni di articoli scientifici (PubMed).

Cosa fa: Quando gli fai una domanda, non si limita a cercare parole chiave. Usa due metodi: uno che cerca le parole esatte (come un dizionario) e uno che capisce il significato della tua domanda (come se pensasse al concetto).
L'analogia: È come se avesse due lenti: una per vedere i dettagli nitidi e una per capire il contesto. Mescola i risultati per trovarti i 10 articoli più rilevanti, proprio come un investigatore che raccoglie le prove migliori per un caso.

2. Lo Scrittore Coscienzioso (Il Generatore di Risposte)

Una volta che il bibliotecario ha i 10 articoli giusti, passa la mano a uno scrittore.

Cosa fa: Questo scrittore non inventa nulla dal nulla. Legge i 10 articoli e scrive una risposta chiara e concisa. Ma c'è una regola ferrea: ogni affermazione deve avere una "prova".
L'analogia: Immagina uno studente che scrive un saggio. Se dice "Il farmaco X cura la febbre", deve subito scrivere accanto: (Vedi articolo n. 123). Se non trova la prova nell'articolo, non lo scrive. VerifAI è stato "addestrato" (come un cuoco che impara una ricetta perfetta) per fare esattamente questo: non dire mai nulla senza citare la fonte.

3. Il Controllore di Fatti (Il Verificatore)

Qui sta la vera magia. Dopo che lo scrittore ha finito, entra in scena il Controllore.

Cosa fa: Questo non è un semplice correttore di bozze. È un giudice severo. Prende ogni singola frase della risposta e la confronta con l'articolo originale citato.
L'analogia: Immagina un ispettore sanitario che controlla un ristorante.
- Se il menu dice "Pasta al pomodoro" e in cucina c'è davvero la pasta col pomodoro, l'ispettore mette una spunta verde (Verificato).
- Se il menu dice "Pasta al pomodoro" ma in cucina c'è la pasta al pesto, l'ispettore mette una spunta rossa (Contraddittorio).
- Se il menu dice "Pasta al pomodoro" ma non c'è nessuna pasta, l'ispettore dice "Nessuna prova" (Giallo/Grigio).
Il risultato: L'utente finale vede la risposta colorata. Le frasi sicure sono verdi, quelle dubbie gialle, quelle sbagliate rosse. Non devi fidarti ciecamente dell'AI; puoi vedere subito cosa è vero e cosa no.

Perché è speciale?

La maggior parte delle intelligenze artificiali attuali (come i chatbot generici) sono come cantanti jazz: improvvisano, sono creativi, ma a volte inventano note che non esistono. VerifAI è come un architetto: segue un progetto preciso, usa materiali verificati e controlla ogni mattone.

Affidabilità: Ha dimostrato di essere più bravo a controllare i fatti rispetto a modelli giganti e costosi come GPT-4, specialmente in campo medico.
Trasparenza: Non è una "scatola nera". Puoi vedere esattamente da dove viene ogni informazione.
Open Source: È come un progetto di ingegneria civile aperto a tutti. Chiunque può guardare i piani, modificare i motori o usarlo per costruire cose nuove, senza dover pagare licenze costose.

In sintesi

VerifAI è un assistente medico digitale che non si fida di se stesso. Prima di dirti qualcosa, cerca le prove, le scrive, e poi un "controllore" le verifica. Se c'è un errore, te lo mostra in rosso. È progettato per evitare che le persone prendano decisioni pericolose basandosi su informazioni false, rendendo l'Intelligenza Artificiale un alleato sicuro e affidabile per la salute di tutti.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

L'adozione diffusa dell'Intelligenza Artificiale Generativa (LLM) in ambiti critici come le scienze della vita è ostacolata dal fenomeno delle allucinazioni: affermazioni plausibili ma fattualmente errate o non supportate da evidenze. In contesti biomedici, dove l'accuratezza è vitale, la mancanza di verificabilità e la scarsa tracciabilità delle fonti creano un "divario di fiducia" che impedisce l'uso affidabile di questi modelli. Sebbene tecniche come la Retrieval-Augmented Generation (RAG) esistano per ancorare le risposte a documenti esterni, i sistemi attuali spesso falliscono nel garantire che le citazioni siano corrette o che le affermazioni generate siano effettivamente supportate dai documenti recuperati.

2. Metodologia: Architettura di VerifAI

VerifAI è un sistema esperto open-source che integra tre componenti modulari per garantire risposte verificabili e prive di allucinazioni:

A. Componente di Information Retrieval (IR)

Obiettivo: Recuperare i riassunti scientifici più pertinenti da PubMed (circa 25,5 milioni di abstract indicizzati).
Tecnica: Utilizza un approccio ibrido che combina:
- Ricerca Lessicale: Basata su BM25 (tramite OpenSearch) per la corrispondenza esatta delle parole chiave.
- Ricerca Semantica: Basata su embedding densi e similarità vettoriale (tramite Qdrant e HNSW) per catturare relazioni concettuali.
Fusione: I punteggi delle due ricerche vengono normalizzati e combinati con pesi ottimizzati ( $\alpha$ e $\beta$ ) per massimizzare precisione e richiamo (Recall).

B. Componente Generativa (GC)

Modello: Un modello Mistral-7B-Instruct-v0.2 fine-tunato con QLoRA (4-bit quantization).
Dataset di Addestramento: Il modello è stato addestrato su un dataset personalizzato chiamato PQAref, contenente 9.075 domande tratte da PubMedQA, ciascuna associata a 10 abstract pertinenti e a una risposta generata da GPT-4 Turbo che include citazioni esplicite (ID PubMed) dopo ogni affermazione fattuale.
Funzionamento: Il modello genera risposte concise basandosi sugli abstract recuperati, assegnando dinamicamente una citazione (PMID) a ogni affermazione fattuale, riducendo drasticamente le allucinazioni di citazioni rispetto ai modelli zero-shot.

C. Componente di Verifica (VC)

Obiettivo: Validare la coerenza fattuale tra le affermazioni generate e i documenti citati.
Meccanismo: Utilizza un motore di Inferenza Linguistica Naturale (NLI). Ogni affermazione (ipotesi) viene confrontata con l'abstract citato (premessa) per classificarla in tre categorie: Supporta, Contraddice o Nessuna Evidenza.
Modello: Un modello DeBERTa fine-tunato su un dataset trasformato di SciFact e valutato su HealthVer. Questo approccio discriminativo permette a modelli più piccoli (SLM) di superare i grandi modelli generativi (come GPT-4) nella verifica logica.
Interfaccia Utente: Visualizza le affermazioni con codici colore (verde = supportato, giallo/arancione = parzialmente supportato, rosso = contraddetto, grigio = senza riferimento) e permette di vedere la frase esatta dell'abstract che giustifica la classificazione.

3. Contributi Chiave

Strategia di Fine-tuning per SLM: Dimostrazione che i Small Language Models (SLM), se opportunamente addestrati, possono raggiungere una fedeltà nelle citazioni paragonabile o superiore a quella dei LLM di punta, sfidando la necessità di modelli massicci per QA verificabile.
Superiorità dei Discriminatori NLI Specializzati: Evidenza empirica che i modelli NLI specializzati nel dominio biomedico superano significativamente i modelli generativi generalisti (incluso GPT-4) nei benchmark di verifica delle affermazioni (es. HealthVer).
Pipeline End-to-End Open-Source: Rilascio del primo sistema completo e open-source che integra recupero ibrido, generazione consapevole delle citazioni e verifica post-hoc basata sull'entailment in un unico framework modulare.

4. Risultati

Recupero (IR): Il sistema ibrido ha raggiunto un MAP@10 di 42,7% sul dataset BioASQ, superando significativamente la ricerca standard di PubMed (che ha ottenuto un MAP@10 di circa 19,1% con termini MeSH).
Generazione (GC):
- Il modello fine-tunato (M2) ha ridotto le risposte senza citazioni dal 18,2% (zero-shot) allo 0,6%.
- Le allucinazioni di PMID (codici inesistenti) sono scese dallo 0,60% allo 0,08%.
- Il modello ha migliorato la capacità di citare l'abstract più rilevante (da 22,5% di errori a 1,2%).
Verifica (VC):
- Il modello DeBERTa ha ottenuto un F1-score di 0,88 sul dataset SciFact e un F1-score di 0,48 su HealthVer, superando lo stato dell'arte precedente (che era a 0,36 F1 su HealthVer) e battendo GPT-4 e GPT-4o in modalità zero-shot su entrambi i benchmark.
Valutazione End-to-End: Su 178 domande BioASQ, il sistema ha prodotto risposte con un accordo concettuale dell'81,46% rispetto alle risposte ideali umane quando alimentato con abstract gold-standard, confermando la robustezza dell'intera pipeline.

5. Significato e Impatto

VerifAI rappresenta un passo fondamentale verso l'IA affidabile in ambiti ad alto rischio.

Trasparenza e Fiducia: Fornisce agli utenti non solo una risposta, ma una "linea di provenienza" verificabile per ogni affermazione, permettendo di identificare immediatamente allucinazioni o contraddizioni.
Efficienza Computazionale: Dimostra che è possibile ottenere risultati di alta qualità in domini specializzati utilizzando modelli più piccoli ed efficienti, riducendo i costi computazionali rispetto all'uso di LLM giganti per ogni fase.
Estensibilità: L'architettura modulare permette di adattare il sistema ad altri settori critici (legale, finanziario, normativo) sostituendo semplicemente i componenti di recupero e verifica con dati specifici del dominio.
Open Science: La disponibilità completa di codice, modelli e dataset favorisce la riproducibilità e l'ulteriore sviluppo della ricerca sull'IA verificabile.

In conclusione, VerifAI colma il divario tra la generazione creativa dei contenuti e la necessità di rigore fattuale, offrendo un framework pratico per la mitigazione delle allucinazioni nelle scienze biomediche.