VerifAI: A Verifiable Open-Source Search Engine for Biomedical Question Answering

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie fragen einen extrem intelligenten, aber manchmal etwas träumerischen Bibliothekar nach einer medizinischen Tatsache. Dieser Bibliothekar (eine Künstliche Intelligenz) antwortet Ihnen sofort flüssig und eloquent. Das Problem: Manchmal erfindet er Details, die gar nicht existieren, oder vermischt Fakten, weil er sich zu sehr auf sein eigenes „Gedächtnis" verlässt. In der Medizin kann so ein Fehler gefährlich sein.

Das Papier stellt VerifAI vor – eine Art „Super-Bibliothekars-Assistenten", der genau dieses Problem löst. Hier ist die Erklärung, wie er funktioniert, mit ein paar einfachen Vergleichen:

1. Das Grundproblem: Der „Halluzinierende" Bibliothekar

Künstliche Intelligenzen sind wie sehr gebildete Schüler, die alles auswendig gelernt haben. Wenn man sie fragt, antworten sie schnell. Aber manchmal „halluzinieren" sie: Sie erfinden Quellen oder Fakten, die so plausibel klingen, dass man ihnen glaubt, obwohl sie falsch sind. In der Medizin ist das wie ein Arzt, der eine falsche Diagnose stellt, nur weil sie gut klingt.

2. Die Lösung: Das Drei-Phasen-System von VerifAI

VerifAI ist kein einzelner Roboter, sondern ein Team aus drei Spezialisten, die zusammenarbeiten. Man kann es sich wie eine hochsichere Nachrichtenredaktion vorstellen:

Phase 1: Der Detektiv (Information Retrieval)

Bevor der Bibliothekar überhaupt antwortet, schickt VerifAI einen Detektiv los.

Was er tut: Er sucht in einer riesigen Bibliothek (PubMed, mit Millionen von medizinischen Artikeln) nach den exakten Beweisen, die zur Frage passen.
Der Trick: Er nutzt zwei Methoden gleichzeitig:
1. Wort-für-Wort-Suche: Er sucht nach exakten Schlüsselwörtern (wie ein klassischer Index).
2. Bedeutungs-Suche: Er versteht den Sinn der Frage, auch wenn die Wörter anders sind (wie ein Mensch, der den Kontext versteht).
Das Ergebnis: Er liefert dem nächsten Teammitglied die 10 besten, relevantesten Artikel als „Beweismittel".

Phase 2: Der Autor (Generative Component)

Jetzt kommt der eigentliche „Schreiber" ins Spiel.

Was er tut: Er liest die 10 Artikel, die der Detektiv gefunden hat, und schreibt eine Antwort.
Die wichtige Regel: Er darf nur das schreiben, was in den Artikeln steht. Und das Wichtigste: Er muss jeder Aussage eine Fußnote geben (eine Art Zitat), die genau zeigt, aus welchem Artikel die Information stammt.
Der Unterschied: Frühere KI-Systeme haben oft einfach nur „geschwafelt". Dieser Schreiber ist trainiert worden, wie ein Journalist, der jede Behauptung belegen muss.

Phase 3: Der Lektor (Verification Component) – Das Herzstück

Das ist die geniale Neuerung. Bevor die Antwort an Sie geht, wird sie von einem strengen Lektor geprüft.

Was er tut: Er nimmt jede einzelne Aussage der Antwort und vergleicht sie mit dem zugehörigen Artikel (dem „Beweis").
Die Frage: „Stimmt das wirklich, was da steht?"
- Grünes Licht (Support): Der Artikel bestätigt die Aussage.
- Gelbes Licht (Teilsupport): Der Artikel sagt etwas Ähnliches, aber nicht ganz das Gleiche.
- Rotes Licht (Widerspruch): Der Artikel sagt das Gegenteil!
- Graues Licht (Kein Beweis): Der Artikel erwähnt das gar nicht.
Das Ergebnis: Wenn der Lektor merkt, dass der Schreiber etwas erfunden hat (eine „Halluzination"), wird die Aussage rot markiert oder gestrichen.

3. Warum ist das so besonders?

Stellen Sie sich vor, Sie lesen eine Nachricht in einer Zeitung. Normalerweise müssen Sie dem Redakteur vertrauen. Bei VerifAI können Sie aber auf jedes Wort klicken und sehen:

Warum das Wort grün ist (weil es im Artikel steht).
Welcher Artikel das ist.
Den genauen Satz aus dem Originalartikel, der es beweist.

Es ist wie eine durchsichtige Brille: Sie sehen nicht nur die Antwort, sondern auch den Weg, wie die KI zu ihr gekommen ist.

4. Die Ergebnisse: Kleiner, aber schlauer

Das Team hat gezeigt, dass dieses System sogar besser ist als die allerstärksten, teuersten KI-Modelle (wie GPT-4), wenn es darum geht, medizinische Fakten zu prüfen.

Der Clou: Sie haben keine riesige, unübersichtliche KI benutzt, sondern kleine, spezialisierte Modelle, die wie gut trainierte Handwerker für ihre jeweilige Aufgabe (Suchen, Schreiben, Prüfen) geschult wurden.
Das Ergebnis: Weniger Lügen, mehr Vertrauen. Die KI macht weniger Fehler, und wenn sie einen macht, wird er sofort erkannt.

Zusammenfassung in einem Satz

VerifAI ist wie ein unbestechlicher medizinischer Fakten-Checker, der jede Antwort eines KI-Chatbots erst dann freigibt, wenn er sie Wort für Wort mit echten wissenschaftlichen Studien abgeglichen hat – und dabei jede einzelne Aussage mit einem grünen, gelben oder roten Stempel versieht, damit Sie sofort sehen, was wahr ist und was nicht.

Das Gute daran: Das ganze System ist Open Source. Das bedeutet, jeder kann es nutzen, nachbauen und verbessern, damit KI in der Medizin sicherer wird.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die zunehmende Verbreitung von generativer Künstlicher Intelligenz (KI) und Large Language Models (LLMs) birgt in hochriskanten Domänen wie der Biomedizin ein erhebliches Problem: Halluzinationen. LLMs neigen dazu, plausible, aber faktisch falsche oder nicht belegbare Aussagen zu generieren. In der Lebenswissenschaft ist die Genauigkeit und Nachvollziehbarkeit von Informationen jedoch kritisch.

Bestehende Ansätze wie Retrieval-Augmented Generation (RAG) verbessern zwar die Faktenbasis, indem sie externe Dokumente einbeziehen, garantieren jedoch keine korrekte Ausrichtung zwischen den abgerufenen Beweisen und den generierten Antworten. Oft fehlen Zitate, oder die Zitate unterstützen die Behauptungen nicht (mangelnde Zitier-Treue). Es fehlt an Systemen, die nicht nur antworten, sondern jede einzelne Aussage logisch gegen die Quelle verifizieren.

2. Methodik: Die VerifAI-Architektur

VerifAI ist ein modulares, Open-Source-Expertensystem, das drei Hauptkomponenten integriert, um eine verifizierbare Antwortkette zu gewährleisten:

A. Informationsretrieval-Komponente (IR)

Ziel: Effiziente Suche in der riesigen Datenbank von PubMed (ca. 25,5 Millionen Abstracts).
Ansatz: Ein hybrider Suchansatz, der lexikalische und semantische Retrieval-Methoden kombiniert.
- Lexikalisch: Nutzung von OpenSearch mit dem BM25-Ranking-Algorithmus (nach Vorverarbeitung wie Stopwort-Entfernung).
- Semantisch: Nutzung von Qdrant als Vektordatenbank mit HNSW-Algorithmus und 8-Bit-Quantisierung für schnelle Ähnlichkeitssuche. Die Embeddings werden durch einen auf MS MARCO vortrainierten Sentence-Transformer erzeugt.
Fusion: Die Scores beider Methoden werden normalisiert und gewichtet kombiniert ( $\alpha \cdot \text{lexikalisch} + \beta \cdot \text{semantisch}$ ), um sowohl exakte Keyword-Matches als auch konzeptionelle Ähnlichkeiten zu erfassen.

B. Generative Komponente (GC)

Ziel: Erzeugung einer präzisen Antwort basierend auf den 10 relevantesten Abstracts, wobei jeder faktischen Behauptung eine PubMed-ID (PMID) als Zitat folgt.
Modell: Ein feinabgestimmtes Mistral-7B-Instruct-v0.2 (32k Kontextfenster).
Training: Das Modell wurde mit dem PQAref-Datensatz (9.075 Fragen aus PubMedQA, jeweils mit 10 Abstracts und GPT-4-generierten Antworten) mittels QLoRA (4-Bit-Quantisierung) nachtrainiert.
Ergebnis des Trainings: Das feinabgestimmte Modell generiert deutlich weniger halluzinierte PMIDs und zitiert relevantere Abstracts als das Zero-Shot-Modell oder größere Modelle wie LLaMA-2-13B.

C. Verifikations-Komponente (VC)

Ziel: Post-hoc-Verifizierung jeder generierten Aussage (Claim) gegen das zitierte Abstract.
Aufgabe: Klassifikation als Support (unterstützt), Contradict (widersprüchlich) oder No Evidence (kein Beleg). Dies wird als Textual Entailment (NLI) Problem formuliert.
Modell: Ein feinabgestimmter DeBERTa-Transformer (basierend auf SciFact-Daten).
Besonderheit: Das System wurde so trainiert, dass es auch granulare Fakten (Zahlen, Dosierungen) und semantische Schlussfolgerungen prüft. Es übertrifft in diesem spezifischen Task sogar GPT-4.
Visualisierung: Die Benutzeroberfläche markiert unterstützte Sätze grün, teilweise unterstützte gelb/orange, widersprüchliche rot und nicht zitierte grau.

3. Wichtige Beiträge

Strategie für Small Language Models (SLMs): Demonstration, dass feinabgestimmte SLMs (wie Mistral-7B) bei der Zitier-Treue und Faktenprüfung mit großen Frontier-Modellen mithalten oder diese übertreffen können, was die Notwendigkeit riesiger Modelle für verifizierbare QA infrage stellt.
Überlegenheit spezialisierter NLI-Diskriminatoren: Empirischer Nachweis, dass ein auf Biomedizin spezialisiertes NLI-Modell (DeBERTa) auf Benchmarks wie HealthVer deutlich besser abschneidet als allgemeine Generativ-Modelle (inkl. GPT-4) bei der Erkennung von Halluzinationen.
Erste Open-Source-Pipeline: Bereitstellung des ersten vollständigen, modularen End-to-End-Systems, das hybrides Retrieval, zitierbewusste Generierung und post-hoc-Entailment-Verifikation in einer einzigen Architektur vereint.

4. Ergebnisse

Die Evaluation umfasste sowohl Einzelkomponenten-Tests als auch eine End-to-End-Bewertung am BioASQ-Datensatz (178 Fragen):

Retrieval: Der hybride Ansatz erreichte einen MAP@10 von 42,7 % und eine Precision@10 von 30,8 %, was signifikant besser ist als der Standard-PubMed-Suchalgorithmus (MAP@10 ~19 %).
Generierung: Das feinabgestimmte Modell (M2) reduzierte die Rate an halluzinierten PMIDs von 0,60 % (Zero-Shot) auf 0,08 %. Es zitierte in 98,8 % der Fälle relevante Abstracts korrekt.
Verifikation: Das DeBERTa-Modell erreichte auf dem HealthVer-Benchmark eine F1-Score von 0,48 (bei 90 % Trainingsdaten), was einen Anstieg von 8 Prozentpunkten gegenüber dem vorherigen State-of-the-Art darstellt. Es übertraf GPT-4, GPT-4 Turbo und GPT-4o in Genauigkeit und F1-Score bei der Verifikation.
End-to-End: Das integrierte System lieferte in 81 % der Fälle Antworten, die zu denselben Schlussfolgerungen kamen wie die menschlichen Referenzantworten. Die Verifikationskomponente erreichte eine Genauigkeit von bis zu 84 % bei der Einordnung der generierten Claims.

5. Bedeutung und Ausblick

VerifAI adressiert die fundamentale Vertrauenslücke bei der Nutzung von KI in der Wissenschaft. Durch die Entkopplung von Generierung und Verifikation sowie die Nutzung spezialisierter, kleinerer Modelle für die logische Prüfung bietet das System:

Transparenz: Jede Aussage ist mit einer Quelle verknüpft und visuell nach ihrer Verlässlichkeit gekennzeichnet.
Überprüfbarkeit: Nutzer können die Logik der KI nachvollziehen, indem sie die ursprünglichen Sätze aus den Abstracts einsehen.
Skalierbarkeit: Die modulare Architektur erlaubt die Anpassung an andere Hochrisiko-Domänen wie Recht, Finanzen oder Politik, indem nur die spezifischen Daten und Embeddings ausgetauscht werden müssen.

Das Paper schließt mit der Betonung, dass für den Einsatz in kritischen Bereichen die Rechenkosten für die zusätzliche Verifikationsschicht eine notwendige Investition für Zuverlässigkeit sind. Alle Code, Modelle und Datensätze sind unter der AGPL-3.0-Lizenz open-sourced.