VerifAI: A Verifiable Open-Source Search Engine for Biomedical Question Answering

Each language version is independently generated for its own context, not a direct translation.

VerifAI: De "Fact-Checker" die Zelf Antwoorden Schrijft

Stel je voor dat je een zeer slimme, maar soms wat verwarde bibliothecaris hebt. Deze bibliothecaris (een kunstmatige intelligentie) kan prachtige verhalen schrijven en complexe vragen beantwoorden. Maar er is een groot probleem: deze bibliothecaris is dol op het verzinnen van feiten. Hij kan een verhaal vertellen dat klinkt als waarheid, maar dat volledig uit de duim is gezogen. In de medische wereld, waar het leven van mensen op het spel staat, is dit gevaarlijk.

VerifAI is de oplossing voor dit probleem. Het is geen enkele robot, maar een slim team van drie specialisten die samenwerken om vragen over gezondheid te beantwoorden, waarbij elke bewering wordt gecontroleerd op waarheid.

Hier is hoe het werkt, vertaald naar alledaagse beelden:

1. De Zoeker (De "Boekworm")

Het eerste lid van het team is de Zoeker.

Hoe het werkt: Als je een vraag stelt (bijvoorbeeld: "Helpt medicijn X bij hoofdpijn?"), duikt deze robot niet in zijn eigen geheugen om iets te verzinnen. Nee, hij rent direct naar de grootste medische bibliotheke ter wereld (PubMed) en zoekt naar de 10 meest relevante wetenschappelijke artikelen.
De analogie: Het is alsof je een detective bent die niet op zijn intuïtie vertrouwt, maar eerst alle bewijsstukken verzamelt voordat hij een conclusie trekt. Hij gebruikt een slimme mix van "woordzoekers" (zoals Google) en "betekeniszoekers" (die begrijpen wat je bedoelt, zelfs als je de verkeerde woorden gebruikt).

2. De Schrijver (De "Verteller")

Het tweede lid is de Schrijver.

Hoe het werkt: Deze robot leest de 10 artikelen die de Zoeker heeft gevonden en schrijft een duidelijk antwoord voor jou. Maar hier is de truc: hij mag niet zomaar iets zeggen. Voor elke zin die hij schrijft, moet hij direct een "bewijsstuk" (een verwijzing naar het artikel) toevoegen.
De analogie: Stel je een journalist voor die een artikel schrijft. Een slechte journalist verzint quotes. Een goede journalist schrijft: "Zoals dokter Smith zegt in zijn artikel..." en geeft direct de bron. VerifAI's Schrijver is die perfecte journalist die elke uitspraak direct koppelt aan de bron.

3. De Controleur (De "Waarheidsfinder")

Dit is het meest unieke deel van VerifAI. Het derde lid is de Controleur.

Hoe het werkt: Nadat de Schrijver het antwoord heeft gemaakt, kijkt de Controleur elke zin na. Hij vergelijkt de zin van de Schrijver met het originele artikel.
- Klinkt de zin als een logisch gevolg van het artikel? -> Groen licht (Waar).
- Staat het artikel het tegen? -> Rood licht (Leugen).
- Staat er niets over in het artikel? -> Grijs licht (Geen bewijs).
De analogie: Stel je een strenge leraar voor die een proefwerk nakijkt. De leraar heeft het originele boekje (het artikel) bij de hand. Als de leerling (de Schrijver) schrijft: "De aarde is plat", kijkt de leraar in het boekje, ziet dat het boekje zegt "De aarde is rond", en zet een dikke rode streep erdoor. VerifAI doet dit automatisch, seconde voor seconde.

Waarom is dit zo speciaal?

In de wereld van AI zijn er twee soorten robots:

De "Grote Grootverdieners" (zoals GPT-4): Deze zijn enorm slim en kunnen over alles praten, maar ze zijn soms te zelfverzekerd en verzinnen feiten (hallucineren). Ze zijn als een zeer charmante leugenaar die je overtuigt met zijn verhaal.
VerifAI's "Speciale Team": Ze gebruiken kleinere, gespecialiseerde robots. De Controleur is zo goed getraind op medische teksten dat hij de grote robots zelfs verslaat in het opsporen van leugens.

Het resultaat?
Wanneer je een vraag stelt aan VerifAI, krijg je niet zomaar een antwoord. Je krijgt een antwoord dat gekleurd is:

🟢 Groen: Dit is bewezen door de bron.
🟡 Oranje: Dit is deels waar, maar niet helemaal gedekt.
🔴 Rood: Dit klopt niet met de bron (een leugen!).
⚫ Grijs: Hier is geen bron voor gevonden.

Je kunt met je muis over een zin gaan en zien: "Ah, dit staat in artikel nummer 12345, en de zin in dat artikel zegt precies hetzelfde."

De conclusie in één zin

VerifAI is als een onafhankelijke, onuitputtelijke en uiterst nauwkeurige medische onderzoeker die nooit iets verzint, omdat hij elke zin die hij schrijft direct laat controleren door de originele wetenschappelijke bronnen. Het maakt kunstmatige intelligentie veilig genoeg om te gebruiken in het ziekenhuis of in je eigen huis.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Generatieve kunstmatige intelligentie (AI), en met name Large Language Models (LLMs), heeft de manier waarop we informatie opzoeken en genereren revolutionair veranderd. Echter, de brede adoptie van deze modellen in kritieke domeinen zoals de biowetenschappen en gezondheidszorg wordt belemmerd door het fenomeen van hallucinaties. Dit zijn foutieve of nonsensische uitspraken die door het model als feitelijke waarheid worden gepresenteerd. In de biomedische context kunnen dergelijke fouten ernstige gevolgen hebben. Bestaande Retrieval-Augmented Generation (RAG) systemen verbeteren weliswaar de feitelijke grondslag door externe documenten te raadplegen, maar ze garanderen geen volledige alignering tussen het gevonden bewijs en het gegenereerde antwoord. Vaak worden citaten onjuist toegewezen of worden claims gedaan die niet door de bronnen worden ondersteund. Er is een dringende behoefte aan systemen die niet alleen antwoorden genereren, maar deze ook transparant en verifieerbaar maken.

Methodologie: De VerifAI Architectuur

VerifAI is een open-source expert-systeem dat is ontworpen om betrouwbare antwoorden op biomedische vragen te genereren door drie modulaire componenten te integreren:

Informatie Retrieval (IR) Component:
- Doel: Het efficiënt ophalen van de meest relevante wetenschappelijke abstracts uit PubMed.
- Techniek: Een hybride zoekstrategie die zowel lexicale (keyword-based) als semantische zoekopdrachten combineert.
  - Lexicale zoekopdracht: Gebruikt OpenSearch met het BM25-rangschikkingsalgoritme.
  - Semantische zoekopdracht: Gebruikt Qdrant (vectordatabase) met HNSW-algoritmen en dense embeddings gegenereerd door een bi-encoder sentence transformer (vooraf getraind op MS MARCO).
- Optimalisatie: De scores van beide methoden worden genormaliseerd en gewogen (hybride score = $\alpha \cdot$ lexicaal + $\beta \cdot$ semantisch) om de beste balans te vinden tussen exacte woordovereenkomst en conceptuele relevantie.
Generatieve Component (GC):
- Doel: Het genereren van beknopte, geciteerde antwoorden op basis van de opgehaalde abstracts.
- Model: Een Mistral-7B-Instruct-v0.2 model dat is fine-tuned met een aangepast dataset genaamd PQAref (9.075 vragen uit PubMedQA, elk gekoppeld aan 10 abstracts en een door GPT-4 gegenereerd antwoord).
- Innovatie: Het model is getraind om elke feitelijke claim in het antwoord direct te koppelen aan een PubMed ID (PMID). Dit zorgt voor een traceerbare lijn van claim naar bron. Het gebruik van QLoRA (4-bit kwantisatie) maakt fine-tuning mogelijk op beperkte hardware.
Verificatie Component (VC):
- Doel: Het post-hoc verifiëren van de gegenereerde claims om hallucinaties te detecteren.
- Techniek: Het systeem breekt het gegenereerde antwoord op in atomische claims. Voor elke claim wordt de relatie met het oorspronkelijke abstract (de "premise") geëvalueerd als een Natural Language Inference (NLI) taak.
- Classificatie: De relatie wordt geclassificeerd als: Support (ondersteund), Contradict (tegenstrijdig), of No Evidence (geen informatie).
- Model: Een DeBERTa-model dat is fine-tuned op een aangepaste versie van het SciFact-dataset (waarbij abstracts als volledige documenten worden behandeld in plaats van losse zinnen). Dit model presteert beter dan GPT-4 op specifieke biomedische benchmarks.
- Visualisatie: De interface kleurt zinnen in op basis van de verificatiestatus (groen = ondersteund, oranje = gedeeltelijk, rood = tegenstrijdig, grijs = geen referentie).

Belangrijkste Bijdragen

Fine-tuning Strategie voor SLM's: Het paper toont aan dat Small Language Models (SLMs) zoals Mistral-7B, wanneer ze specifiek worden getraind voor citatie-integriteit, vergelijkbare prestaties kunnen leveren als veel grotere frontier-modellen (zoals GPT-4), maar met minder hallucinaties en betere bronvermelding.
Superioriteit van Gespecialiseerde NLI: Er wordt empirisch bewezen dat een gespecialiseerd, fine-tuned NLI-discriminator (DeBERTa) aanzienlijk beter presteert dan algemene generatieve verificatiemodellen (inclusief GPT-4) op biomedische benchmarks zoals HealthVer.
Eerste Open-Source End-to-End Pipeline: VerifAI is het eerste open-source systeem dat hybride retrieval, citatie-bewust genereren en post-hoc entailment-verificatie integreert in één modulaire framework voor biomedische vraagbeantwoording.

Resultaten

De evaluaties werden uitgevoerd op de BioASQ-dataset, het HealthVer-benchmark en het SciFact-dataset:

Retrieval: De hybride zoekstrategie bereikte een MAP@10 van 42,7% op de BioASQ-dataset, wat aanzienlijk beter is dan de standaard PubMed-zoekmachine (19,1% MAP@10) en puur semantische of lexicale zoekopdrachten.
Generatie: Het fine-tuned model (M2) reduceerde het aantal hallucinaties van PMID's drastisch (van 26 hallucinaties bij de zero-shot versie naar slechts 3). Het model citeerde in 99,4% van de gevallen correct en miste de meest relevante abstract in slechts 1,2% van de gevallen (tegenover 22,5% bij de zero-shot versie).
Verificatie: Het DeBERTa-verificatiemodel bereikte een F1-score van 0,88 op het SciFact-testset en 0,48 op het HealthVer-benchmark, wat een verbetering is van 8 procentpunten ten opzichte van de vorige state-of-the-art. Het systeem overtrof GPT-4, GPT-4 Turbo en GPT-4o in zowel nauwkeurigheid als F1-score bij het verifiëren van claims.
End-to-End: In de volledige pijplijn bereikte het systeem een nauwkeurigheid van 84% bij het verifiëren van claims, waarbij het systeem in staat bleek om de meeste conclusies correct te trekken, hoewel de prestaties afhankelijk waren van de kwaliteit van de opgehaalde documenten.

Betekenis en Toekomstperspectief

VerifAI biedt een cruciale oplossing voor het vertrouwen in generatieve AI in hoog-risicodomeinen. Door het scheiden van generatie en verificatie, en door het gebruik van een transparante, kleurcoderingsinterface, kunnen gebruikers de betrouwbaarheid van elk individueel statement direct beoordelen.

Het systeem is niet beperkt tot de biomedische wetenschap; de modulaire architectuur maakt het eenvoudig om het toe te passen op andere domeinen zoals juridische zaken, financiën of beleidsvorming, mits er een geschikte corpus en verificatielabels beschikbaar zijn. Hoewel er nog uitdagingen zijn, zoals het detecteren van subtiele contradicties en het verbeteren van de prestaties bij vragen die lijsten vereisen, legt VerifAI de basis voor een nieuwe generatie van transparante, verifieerbare en betrouwbare AI-systemen. Alle code, modellen en datasets zijn open-source beschikbaar gesteld om replicatie en verdere ontwikkeling te faciliteren.

VerifAI: A Verifiable Open-Source Search Engine for Biomedical Question Answering

1. De Zoeker (De "Boekworm")

2. De Schrijver (De "Verteller")

3. De Controleur (De "Waarheidsfinder")

Waarom is dit zo speciaal?

De conclusie in één zin

Probleemstelling

Methodologie: De VerifAI Architectuur

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Unbiased Rectification for Sequential Recommender Systems Under Fake Orders

Self-Sovereign Agent

Automated Standardization of Legacy Biomedical Metadata Using an Ontology-Constrained LLM Agent

Multi-Agent Home Energy Management Assistant

ProCap: Projection-Aware Captioning for Spatial Augmented Reality