VerifAI: A Verifiable Open-Source Search Engine for Biomedical Question Answering

Das Paper stellt VerifAI vor, ein quelloffenes Expertensystem für biomedizinische Fragen, das Retrieval-Augmented Generation mit einer neuartigen Nachverifizierung von Behauptungen kombiniert, um faktische Konsistenz zu gewährleisten und Halluzinationen im Vergleich zu bestehenden Modellen signifikant zu reduzieren.

Miloš Košprdic, Adela Ljajic, Bojana Bašaragin, Darija Medvecki, Lorenzo Cassano, Nikola Miloševic

Veröffentlicht 2026-04-13
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie fragen einen extrem intelligenten, aber manchmal etwas träumerischen Bibliothekar nach einer medizinischen Tatsache. Dieser Bibliothekar (eine Künstliche Intelligenz) antwortet Ihnen sofort flüssig und eloquent. Das Problem: Manchmal erfindet er Details, die gar nicht existieren, oder vermischt Fakten, weil er sich zu sehr auf sein eigenes „Gedächtnis" verlässt. In der Medizin kann so ein Fehler gefährlich sein.

Das Papier stellt VerifAI vor – eine Art „Super-Bibliothekars-Assistenten", der genau dieses Problem löst. Hier ist die Erklärung, wie er funktioniert, mit ein paar einfachen Vergleichen:

1. Das Grundproblem: Der „Halluzinierende" Bibliothekar

Künstliche Intelligenzen sind wie sehr gebildete Schüler, die alles auswendig gelernt haben. Wenn man sie fragt, antworten sie schnell. Aber manchmal „halluzinieren" sie: Sie erfinden Quellen oder Fakten, die so plausibel klingen, dass man ihnen glaubt, obwohl sie falsch sind. In der Medizin ist das wie ein Arzt, der eine falsche Diagnose stellt, nur weil sie gut klingt.

2. Die Lösung: Das Drei-Phasen-System von VerifAI

VerifAI ist kein einzelner Roboter, sondern ein Team aus drei Spezialisten, die zusammenarbeiten. Man kann es sich wie eine hochsichere Nachrichtenredaktion vorstellen:

Phase 1: Der Detektiv (Information Retrieval)

Bevor der Bibliothekar überhaupt antwortet, schickt VerifAI einen Detektiv los.

  • Was er tut: Er sucht in einer riesigen Bibliothek (PubMed, mit Millionen von medizinischen Artikeln) nach den exakten Beweisen, die zur Frage passen.
  • Der Trick: Er nutzt zwei Methoden gleichzeitig:
    1. Wort-für-Wort-Suche: Er sucht nach exakten Schlüsselwörtern (wie ein klassischer Index).
    2. Bedeutungs-Suche: Er versteht den Sinn der Frage, auch wenn die Wörter anders sind (wie ein Mensch, der den Kontext versteht).
  • Das Ergebnis: Er liefert dem nächsten Teammitglied die 10 besten, relevantesten Artikel als „Beweismittel".

Phase 2: Der Autor (Generative Component)

Jetzt kommt der eigentliche „Schreiber" ins Spiel.

  • Was er tut: Er liest die 10 Artikel, die der Detektiv gefunden hat, und schreibt eine Antwort.
  • Die wichtige Regel: Er darf nur das schreiben, was in den Artikeln steht. Und das Wichtigste: Er muss jeder Aussage eine Fußnote geben (eine Art Zitat), die genau zeigt, aus welchem Artikel die Information stammt.
  • Der Unterschied: Frühere KI-Systeme haben oft einfach nur „geschwafelt". Dieser Schreiber ist trainiert worden, wie ein Journalist, der jede Behauptung belegen muss.

Phase 3: Der Lektor (Verification Component) – Das Herzstück

Das ist die geniale Neuerung. Bevor die Antwort an Sie geht, wird sie von einem strengen Lektor geprüft.

  • Was er tut: Er nimmt jede einzelne Aussage der Antwort und vergleicht sie mit dem zugehörigen Artikel (dem „Beweis").
  • Die Frage: „Stimmt das wirklich, was da steht?"
    • Grünes Licht (Support): Der Artikel bestätigt die Aussage.
    • Gelbes Licht (Teilsupport): Der Artikel sagt etwas Ähnliches, aber nicht ganz das Gleiche.
    • Rotes Licht (Widerspruch): Der Artikel sagt das Gegenteil!
    • Graues Licht (Kein Beweis): Der Artikel erwähnt das gar nicht.
  • Das Ergebnis: Wenn der Lektor merkt, dass der Schreiber etwas erfunden hat (eine „Halluzination"), wird die Aussage rot markiert oder gestrichen.

3. Warum ist das so besonders?

Stellen Sie sich vor, Sie lesen eine Nachricht in einer Zeitung. Normalerweise müssen Sie dem Redakteur vertrauen. Bei VerifAI können Sie aber auf jedes Wort klicken und sehen:

  1. Warum das Wort grün ist (weil es im Artikel steht).
  2. Welcher Artikel das ist.
  3. Den genauen Satz aus dem Originalartikel, der es beweist.

Es ist wie eine durchsichtige Brille: Sie sehen nicht nur die Antwort, sondern auch den Weg, wie die KI zu ihr gekommen ist.

4. Die Ergebnisse: Kleiner, aber schlauer

Das Team hat gezeigt, dass dieses System sogar besser ist als die allerstärksten, teuersten KI-Modelle (wie GPT-4), wenn es darum geht, medizinische Fakten zu prüfen.

  • Der Clou: Sie haben keine riesige, unübersichtliche KI benutzt, sondern kleine, spezialisierte Modelle, die wie gut trainierte Handwerker für ihre jeweilige Aufgabe (Suchen, Schreiben, Prüfen) geschult wurden.
  • Das Ergebnis: Weniger Lügen, mehr Vertrauen. Die KI macht weniger Fehler, und wenn sie einen macht, wird er sofort erkannt.

Zusammenfassung in einem Satz

VerifAI ist wie ein unbestechlicher medizinischer Fakten-Checker, der jede Antwort eines KI-Chatbots erst dann freigibt, wenn er sie Wort für Wort mit echten wissenschaftlichen Studien abgeglichen hat – und dabei jede einzelne Aussage mit einem grünen, gelben oder roten Stempel versieht, damit Sie sofort sehen, was wahr ist und was nicht.

Das Gute daran: Das ganze System ist Open Source. Das bedeutet, jeder kann es nutzen, nachbauen und verbessern, damit KI in der Medizin sicherer wird.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →