A statistical framework for evaluating the repeatability and reproducibility of large language models

⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

🧠 Wenn KI-Ärzte nicht immer das Gleiche sagen: Ein neuer Maßstab für Zuverlässigkeit

Stellen Sie sich vor, Sie gehen zu einem sehr klugen, aber etwas nervösen Arzt. Sie beschreiben ihm Ihre Symptome. Er denkt kurz nach und sagt: „Sie haben eine Grippe."

Sie gehen nach Hause, kommen am nächsten Tag wieder (mit exakt denselben Symptomen) und fragen denselben Arzt. Dieses Mal sagt er: „Ich glaube, es ist eher eine Allergie." Und beim dritten Mal: „Vielleicht ist es nur Müdigkeit."

Der Arzt ist vielleicht intelligent, aber er ist nicht konsistent. In der Welt der künstlichen Intelligenz (KI), genauer gesagt bei „Large Language Models" (LLMs) wie ChatGPT, passiert genau das. Wenn Sie dieselbe Frage zweimal stellen, kann die KI zwei völlig unterschiedliche Antworten geben. Das ist ein Problem, besonders wenn es um medizinische Diagnosen geht.

Diese neue Studie von Cathy Shyr und ihrem Team aus Vanderbilt und Yale möchte genau dieses Problem lösen. Sie haben einen neuen „Zuverlässigkeits-Test" entwickelt.

🎯 Das Hauptproblem: Richtig sein reicht nicht

Bisher haben wir KI-Modelle nur darauf getestet, ob sie die richtige Antwort geben (wie in einer Schulprüfung). Aber das reicht nicht.

Die Prüfung: Die KI sagt „Grippe". Das ist richtig.
Das Problem: Wenn Sie die Frage noch einmal stellen, sagt sie vielleicht „Allergie".

Das ist wie ein Schütze, der zufällig einmal die Mitte der Scheibe trifft, aber beim nächsten Mal daneben schießt. Wir wollen wissen: Ist der Schütze verlässlich?

🛠️ Die neue Methode: Ein vier-stufiger Kompass

Die Autoren haben ein neues System entwickelt, das die Zuverlässigkeit der KI auf zwei Ebenen misst:

Die Bedeutung (Semantik): Was sagt die KI inhaltlich?
Der innere Prozess (Internal): Wie sicher ist die KI bei ihrer Entscheidung?

Und sie testen das unter zwei Bedingungen:

Wiederholbarkeit (Repeatability): Wenn alles genau gleich bleibt (gleiche Frage, gleicher Moment).
Reproduzierbarkeit (Reproducibility): Wenn sich etwas ändert (z. B. eine leicht andere Fragestellung).

Stellen Sie sich das wie einen Koch vor:

Semantische Wiederholbarkeit: Kocht der Koch das gleiche Gericht, wenn Sie ihm genau denselben Auftrag geben? (Sagt er immer „Pasta", oder mal „Nudeln" und mal „Spaghetti"?)
Interne Wiederholbarkeit: Ist der Koch sich bei der Zubereitung sicher? (Hat er die Gewürze fest in der Hand, oder zittert er und streut zufällig Salz?)

🧪 Der Test: Was haben sie gemacht?

Die Forscher haben die KI mit echten medizinischen Fällen gefüttert:

Prüfungsfragen: Wie sie in US-Ärzteprüfungen vorkommen (sehr klar definiert).
Echte Patientenfälle: Komplexe, verworrene Fälle von Menschen mit seltenen Krankheiten (wie ein riesiges Puzzle ohne Bildvorlage).

Sie haben die KI 100 Mal dieselbe Frage stellen lassen und geschaut, wie sehr die Antworten voneinander abweichen.

🔍 Die wichtigsten Entdeckungen (in einfachen Worten)

Die Art der Frage ist entscheidend:
Es kommt nicht nur darauf an, welche KI man benutzt, sondern wie man sie fragt. Wenn man die KI auffordert, wie ein Wissenschaftler zu denken (mit Wahrscheinlichkeiten und logischen Schritten), war sie viel konsistenter als wenn man sie einfach nur „rate mal" sagte.
- Vergleich: Ein Schüler, der eine Formel anwendet, macht weniger Fehler als einer, der nur rät.
Richtig sein ≠ Konsistent sein:
Das ist der wichtigste Punkt! Eine KI konnte in einem Durchgang die perfekte Diagnose stellen. Aber wenn man sie 100 Mal fragte, gab sie in 99 anderen Fällen völlig andere (falsche) Diagnosen.
- Die Metapher: Ein Lotteriegewinner, der sein Geld nur einmal gewinnt, ist nicht reich. Eine KI, die nur einmal richtig liegt, ist nicht zuverlässig.
Echte Fälle sind stabiler als Prüfungsfragen:
Überraschenderweise war die KI bei den komplexen, echten Patientenfällen (mit vielen Details) konsistenter als bei den kurzen, trockenen Prüfungsfragen. Vielleicht weil die echten Fälle mehr „Kontext" bieten, der die KI auf einen Pfad lenkt.

💡 Was bedeutet das für uns?

Diese Studie sagt uns: Vertrauen Sie einer KI nicht nur, weil sie einmal eine richtige Antwort gab.

Wenn wir KI in Krankenhäusern einsetzen wollen, müssen wir prüfen:

Spricht sie bei derselben Frage immer dasselbe?
Ist sie sich bei ihrer Antwort sicher, oder zittert sie innerlich?

Die Autoren haben damit einen neuen „Messlatte" geschaffen. Statt nur zu fragen „Ist die KI schlau?", fragen wir jetzt: „Ist die KI verlässlich?"

Das ist wie der Unterschied zwischen einem Glücksspielautomaten (der manchmal gewinnt) und einem gut kalibrierten Thermostat (der immer die gleiche Temperatur hält). Für die Medizin wollen wir den Thermostat.

Each language version is independently generated for its own context, not a direct translation.

Titel: Ein statistisches Framework zur Bewertung der Wiederholbarkeit und Reproduzierbarkeit von Large Language Models (LLMs)

1. Problemstellung

Large Language Models (LLMs) werden zunehmend in biomedizinischen Anwendungen eingesetzt, z. B. für klinische Dokumentation, Patienteninteraktionen und Entscheidungsunterstützung. Die bisherige Evaluierung konzentrierte sich jedoch fast ausschließlich auf Genauigkeitsmetriken (Accuracy). Dies ignoriert ein kritisches Defizit: Da LLMs Text durch Stichprobenziehung aus Wahrscheinlichkeitsverteilungen generieren, können identische Eingabeaufforderungen (Prompts) bei wiederholter Ausführung zu unterschiedlichen Ausgaben führen.

Ein Modell kann in einem Lauf eine korrekte Diagnose stellen, diese aber in einem anderen Lauf nicht reproduzieren. Diese Inkonsistenz erschwert die Interpretation in klinischen Settings erheblich. Bisherige Metriken wie BLEU oder ROUGE messen die Ähnlichkeit zu einem Referenztext, quantifizieren aber nicht die Variabilität über wiederholte Läufe hinweg. Zudem fehlen regulatorisch fundierte Ansätze, um diese Variabilität systematisch zu messen, was für die Zulassung von KI-gestützter Software (z. B. durch die FDA) essenziell ist.

2. Methodik

Die Autoren entwickelten ein regulatorisch informiertes statistisches Framework, das auf den Entwurfsleitlinien der US-amerikanischen FDA für KI-gestützte medizinische Software basiert. Das Framework operationalisiert zwei Hauptkonzepte:

Wiederholbarkeit (Repeatability): Übereinstimmung der Ausgaben unter identischen Bedingungen (gleicher Prompt, Modell, Parameter).
Reproduzierbarkeit (Reproducibility): Übereinstimmung der Ausgaben unter vordefinierten, unterschiedlichen Bedingungen (z. B. verschiedene Prompts).

Innerhalb dieser Konzepte werden zwei komplementäre Dimensionen der Variabilität definiert, die insgesamt vier Metriken ergeben:

Semantische Metriken: Messen die Variabilität der Bedeutung der Ausgaben.
- Semantische Wiederholbarkeit: Konsistenz der Bedeutung über wiederholte Läufe bei identischem Prompt (gemessen via Cosine-Ähnlichkeit von Embeddings).
- Semantische Reproduzierbarkeit: Konsistenz der Bedeutung über verschiedene Prompts hinweg.
Interne Metriken: Messen die Variabilität der token-level Wahrscheinlichkeitsverteilungen während des Generierungsprozesses.
- Interne Wiederholbarkeit: Die Bestimmtheit (Certainty) der Wahrscheinlichkeitsverteilungen bei identischen Bedingungen (gemessen via Shannon-Entropie der Token-Wahrscheinlichkeiten).
- Interne Reproduzierbarkeit: Die Konsistenz dieser Bestimmtheit über verschiedene Bedingungen hinweg.

Empirische Evaluation:
Das Framework wurde auf zwei Datensätzen und drei Modellen getestet:

Datensätze: 518 USMLE-Fragen (MedQA, standardisierte Prüfungsfragen) und 90 reale Fälle seltener Krankheiten vom Undiagnosed Diseases Network (UDN).
Modelle: ChatGPT-4, ChatGPT-4o-mini und LLaMA 3.2-1B.
Prompts: Fünf verschiedene Chain-of-Thought (CoT) Strategien (traditionell, Differentialdiagnose, intuitiv, analytisch, bayesianisch).
Setup: Pro Kombination aus Prompt, Fall und Modell wurden $R=100$ unabhängige Läufe durchgeführt.

3. Wichtige Beiträge

Neues Metrik-Set: Einführung von vier spezifischen Metriken (Semantische/Interne Wiederholbarkeit und Reproduzierbarkeit), die über reine Genauigkeit hinausgehen.
Regulatorische Ausrichtung: Das Framework aligniert sich direkt mit FDA-Empfehlungen, was die Brücke zwischen akademischer Forschung und regulatorischen Anforderungen für Medizinprodukte schlägt.
Zwei-Dimensionale Analyse: Unterscheidung zwischen der semantischen Stabilität (Was sagt das Modell?) und der internen Stabilität (Wie sicher ist das Modell bei der Generierung?). Dies erlaubt Einblicke in die "Black Box" des Generierungsprozesses.
Modellagnostischer Ansatz: Das Framework ist unabhängig von spezifischen Modellen oder Prompts anwendbar und kann auf verschiedene biomedizinische Aufgaben übertragen werden.

4. Ergebnisse

Einfluss von Prompting-Strategien: Prompts, die bayesianisches diagnostisches Denken erforderten, führten bei ChatGPT-4 zu signifikant höheren semantischen Wiederholbarkeitswerten als andere Strategien ( $p < 0.001$ ). Dies zeigt, dass die Konsistenz nicht nur vom Modell, sondern stark von der Art der Abfrage abhängt.
Datensatz-Unterschiede: Die Variabilität war bei den realen UDN-Fällen geringer als bei den USMLE-Fragen. Die längeren, detaillierten narrativen Strukturen der realen Fälle scheinen den Bereich plausibler Antworten einzuschränken.
Kein direkter Zusammenhang mit Genauigkeit: Es wurde kein signifikanter Zusammenhang zwischen der diagnostischen Genauigkeit und den Wiederholbarkeits-/Reproduzierbarkeitswerten gefunden.
- Ein Modell kann in einem Lauf korrekt sein, aber inkonsistent (niedrige Wiederholbarkeit).
- Ein Modell kann inkonsistent sein, aber dennoch oft korrekt.
- Umgekehrt kann ein Modell konsistente, aber falsche Antworten liefern.
Interne vs. Semantische Metriken: Die internen Metriken zeigten weniger Variation über die Prompts hinweg als die semantischen, außer bei bestimmten Konfigurationen (z. B. ChatGPT-4o-mini mit traditionellen Prompts).

5. Bedeutung und Fazit

Die Studie unterstreicht, dass Genauigkeit allein nicht ausreicht, um die Zuverlässigkeit von LLMs in klinischen Szenarien zu bewerten. Ein Modell, das nicht konsistent ist, kann das Vertrauen der Anwender untergraben und zu Fehlentscheidungen führen, selbst wenn es gelegentlich richtige Antworten liefert.

Das vorgestellte Framework bietet einen systematischen Weg, um:

Die Robustheit von LLMs zu quantifizieren.
Verschiedene Modelle, Prompts und Konfigurationen objektiv zu vergleichen.
Die Anforderungen regulatorischer Behörden (wie der FDA) an die Evaluierung von KI-Software zu erfüllen.

Die Autoren schließen, dass die Bewertung von Wiederholbarkeit und Reproduzierbarkeit zusammen mit der Genauigkeit notwendig ist, um ein umfassendes Bild der Modellleistung zu erhalten und die sichere Integration von LLMs in die klinische Praxis zu ermöglichen. Zukünftige Arbeiten sollten diese Metriken mit menschzentrierten Evaluierungen (z. B. durch Kliniker) kombinieren.

A statistical framework for evaluating the repeatability and reproducibility of large language models

🧠 Wenn KI-Ärzte nicht immer das Gleiche sagen: Ein neuer Maßstab für Zuverlässigkeit

🎯 Das Hauptproblem: Richtig sein reicht nicht

🛠️ Die neue Methode: Ein vier-stufiger Kompass

🧪 Der Test: Was haben sie gemacht?

🔍 Die wichtigsten Entdeckungen (in einfachen Worten)

💡 Was bedeutet das für uns?

Titel: Ein statistisches Framework zur Bewertung der Wiederholbarkeit und Reproduzierbarkeit von Large Language Models (LLMs)

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

A case report on gendered biases in a Finnish healthcare AI assistant

An End-to-End Synthetic Oncology Clinical Trial Framework Integrating Radiographic Response, Circulating Tumor DNA, Safety, and Survival for Decision-Oriented Clinical Data Science

Who is leading medical AI? A systematic review and scientometric analysis of chest x-ray research

High-Throughput Observational Evidence Generation Using Linked Electronic Health Record and Claims Data

Perception of Safety in Behavioral Health Crisis Units among Patients and Care Partners versus Artificial Intelligence (AI): A Multimethod Study