Biomedical Large Language Models and Prompt Engineering for Causality Assessment of Individual Case Safety Reports in Pharmacovigilance

⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Titel: KI-Assistenten auf der Suche nach dem wahren Schuldigen – Eine Reise in die Welt der Arzneimittelsicherheit

Stellen Sie sich vor, Sie sind ein Detektiv in einem riesigen, chaotischen Archiv. Tausende von Menschen schicken Ihnen Briefe (die sogenannten Individual Case Safety Reports oder ICSRs), in denen sie schreiben: „Ich habe dieses Medikament genommen und dann ist mir schwindelig geworden." Ihre Aufgabe als Pharmakovigilanz-Experte ist es, herauszufinden: War das Medikament wirklich der Übeltäter? Oder war es nur ein Zufall? Vielleicht lag es an einer anderen Krankheit? Oder an etwas, das der Patient gegessen hat?

Dies ist eine extrem schwierige Detektivarbeit. In der Vergangenheit mussten menschliche Experten jeden einzelnen Brief mühsam von Hand lesen, Fragen beantworten und eine Entscheidung treffen. Das ist wie das Suchen nach einer Nadel im Heuhaufen – nur dass der Heuhaufen jeden Tag wächst und die Nadeln immer feiner werden.

Das Experiment: KI als neuer Detektiv

Die Autoren dieser Studie haben sich gefragt: „Können wir moderne Künstliche Intelligenz (KI), genauer gesagt sogenannte Large Language Models (LLMs), als Assistenten einsetzen, um diese Detektivarbeit zu erledigen?"

Sie haben nicht irgendeine KI genommen, sondern biomedizinische Spezial-KIs. Stellen Sie sich das so vor:

Eine allgemeine KI ist wie ein sehr gebildeter Student, der alles über die Welt weiß, aber wenig über Medizin gelernt hat.
Eine biomedizinische KI ist wie ein Medizinstudent, der nur medizinische Lehrbücher gelesen hat.

Die Forscher haben drei verschiedene „Medizinstudenten-KIs" getestet. Aber sie haben ihnen nicht einfach nur den Brief gegeben und gesagt: „Entscheide!" Stattdessen haben sie ihnen verschiedene Strategien (Prompts) beigebracht, wie sie denken sollen:

Chain-of-Thought (Gedankenkette): Die KI soll Schritt für Schritt laut denken, wie ein Detektiv, der seine Beweise auf einem Whiteboard anordnet.
Decomposition (Zerlegung): Die KI soll das große Problem in viele kleine, einfache Puzzleteile zerlegen.

Außerdem haben sie zwei verschiedene „Regelbücher" (Algorithmen) verwendet, nach denen die KI entscheiden soll:

Das Naranjo-Regelbuch: Ein strenger Fragebogen mit Punkten (Ja/Nein), der am Ende eine Zahl ergibt.
Das WHO-Regelbuch: Ein etwas freierer, narrativer Ansatz, der mehr auf das Gesamtbild achtet.

Was ist passiert? (Die Ergebnisse)

Die Forscher haben 150 echte Fälle genommen, bei denen menschliche Experten bereits die „richtige" Antwort wussten (das war der Goldstandard). Dann haben sie die KIs getestet und verglichen: „Kommt die KI auf das gleiche Ergebnis wie der menschliche Experte?"

Die guten Nachrichten:
Die biomedizinischen KIs waren deutlich besser als die allgemeinen KIs. Sie haben sich in etwa 64 % der Fälle mit den menschlichen Experten einig. Das ist fast doppelt so gut wie frühere Versuche mit allgemeinen KIs! Besonders die Kombination aus dem Modell „Medicine LLaMA-3", der „Gedankenkette"-Strategie und dem strengen Naranjo-Fragebogen war der Gewinner.

Die schlechten Nachrichten (und warum wir noch nicht feiern können):
Obwohl die KIs manchmal das richtige Ergebnis erreichten, war der Weg dorthin oft holprig. Hier sind die Probleme, die wie Stolpersteine im Weg lagen:

Der „Ja, aber..."-Effekt (Fehlende Begründung):
Manchmal sagte die KI: „Das Medikament ist schuld!" (Punkt: Probable). Aber wenn man fragte: „Warum?", gab sie keine guten Gründe an oder halluzinierte Beweise.
Metapher: Stellen Sie sich vor, ein Schüler schreibt in der Mathearbeit das richtige Ergebnis hin, aber der Rechenweg ist komplett falsch oder erfunden. In der Pharmakovigilanz reicht das Ergebnis allein nicht; wir müssen den Weg verstehen, um sicher zu sein.
Die Zeitreise-Problematik:
KIs waren schlecht darin, die Zeit zu verstehen. „Kam das Symptom nach der Einnahme?" ist eine einfache Frage für Menschen, aber für KIs oft ein Rätsel, besonders wenn die Daten im Brief ungenau sind.
Das „Offizielle Handbuch"-Problem:
Eine Frage lautete: „Steht dieser Effekt im offiziellen Medikamentenhandbuch (SmPC)?" Die KIs scheiterten hier oft, weil sie keinen Zugriff auf die aktuellsten Handbücher hatten. Sie wussten es einfach nicht.
Metapher: Es ist wie ein Detektiv, der den Fall lösen muss, aber das aktuelle Polizeibüro nicht betreten darf. Er muss raten.
Die Regelbuch-Falle:
Die KI funktionierte gut mit dem strengen Naranjo-Fragebogen, aber völlig chaotisch mit dem freieren WHO-Regelbuch.
Metapher: Die KI ist wie ein Schachspieler, der gut ist, wenn die Regeln klar sind. Aber wenn man sagt: „Spielen wir einfach mal frei und schauen, was passiert", verliert sie den Überblick.
Die „Ich bin mir sicher"-Falle:
Selbst wenn im Brief wichtige Informationen fehlten (z. B. wann genau die Symptome begannen), gaben die KIs oft eine sehr selbstbewusste Antwort. Menschen hingegen würden sagen: „Ich weiß es nicht, es fehlen Daten." Die KI hingegen halluzinierte Sicherheit.

Das Fazit: Ein vielversprechender Lehrling, aber noch kein Meister

Die Studie kommt zu einem klaren Schluss: Biomedizinische KIs sind ein großer Fortschritt, aber sie sind noch nicht bereit, allein die Entscheidungen in der Arzneimittelsicherheit zu treffen.

Sie sind wie ein sehr talentierter, aber noch unerfahrener Lehrling. Er kann schnell viel lesen und Muster erkennen, aber ihm fehlt das tiefe Verständnis für Nuancen, die Fähigkeit, echte Beweise von erfundenen zu unterscheiden, und die Bescheidenheit, zuzugeben, wenn etwas unklar ist.

Was bedeutet das für die Zukunft?
In Ländern wie der EU, wo am Ende immer ein Mensch die Verantwortung tragen muss („Human-in-the-Loop"), können diese KIs als Super-Assistenten dienen. Sie können die ersten 80 % der Arbeit erledigen und dem menschlichen Experten sagen: „Hier sind die verdächtigen Fälle, hier ist meine Begründung." Der Mensch muss dann nur noch prüfen, ob die Begründung stimmt.

Damit diese KIs aber wirklich sicher werden, müssen sie noch besser trainiert werden, Zugriff auf aktuelle Datenbanken bekommen und lernen, Unsicherheit zuzugeben, statt immer alles zu wissen. Bis dahin bleibt der menschliche Detektiv der wichtigste Teil des Teams.

Biomedical Large Language Models and Prompt Engineering for Causality Assessment of Individual Case Safety Reports in Pharmacovigilance

Das Experiment: KI als neuer Detektiv

Was ist passiert? (Die Ergebnisse)

Das Fazit: Ein vielversprechender Lehrling, aber noch kein Meister

Technische Zusammenfassung: Biomedizinische Large Language Models und Prompt Engineering für die Kausalitätsbewertung von Individual Safety Reports

1. Problemstellung

2. Methodik

3. Wichtige Ergebnisse

4. Hauptbeiträge der Studie

5. Bedeutung und Fazit

Biomedical Large Language Models and Prompt Engineering for Causality Assessment of Individual Case Safety Reports in Pharmacovigilance

Das Experiment: KI als neuer Detektiv

Was ist passiert? (Die Ergebnisse)

Das Fazit: Ein vielversprechender Lehrling, aber noch kein Meister

Technische Zusammenfassung: Biomedizinische Large Language Models und Prompt Engineering für die Kausalitätsbewertung von Individual Safety Reports

1. Problemstellung

2. Methodik

3. Wichtige Ergebnisse

4. Hauptbeiträge der Studie

5. Bedeutung und Fazit

Mehr davon

Reusing Blood Samples from a Hospital-based Cohort to Apixaban Plasma Concentrations

Randomized controlled trials do not support efficacy of any of the tested doses of fluvoxamine in prevention of disease progression in adults with incipient non-severe COVID-19 disease: a case-study systematic review and meta-analysis

TTI-0102: A Novel Natural Controlled-Release Cysteamine Prodrug for Mitochondrial Disease and Cystinosis

A Phase 1, Single-Center, Randomized, Double-Blind, Placebo-Controlled, Multiple-Dose Escalation Study for the Evaluation of the Safety, Tolerability, and Pharmacokinetics of Recombinant Human Plasma Gelsolin (rhu-pGSN) Following Intravenous Administration to Healthy Volunteers

Adherence to CDC Antimicrobial Stewardship Core Elements and Barriers to stewardship practices among Healthcare Workers at a Tertiary Care Hospital Uttarakhand, India