Reproducibility and Robustness of Large Language Models for Mobility Functional Status Extraction

⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

🩺 Wenn KI-Arzt nicht zweimal das Gleiche sagt: Ein Test der Zuverlässigkeit

Stellen Sie sich vor, Sie haben einen sehr klugen, aber manchmal etwas nervösen Assistenten, der Ihre medizinischen Notizen liest. Seine Aufgabe ist es, herauszufinden, wie gut sich ein Patient bewegen kann (z. B. kann er gehen? Benötigt er einen Rollstuhl?).

Die Forscher von der Mayo Clinic haben untersucht: Vertrauen wir diesem Assistenten wirklich?

Das Problem ist: Ein guter Assistent muss nicht nur richtig liegen, er muss auch konsistent sein. Wenn Sie ihn heute fragen, ob der Patient gehen kann, und ihn morgen mit denselben Worten wieder fragen, sollte er das Gleiche antworten. Und wenn Sie die Frage nur leicht anders formulieren, sollte er immer noch das Gleiche sagen.

Die Studie hat genau das getestet. Hier ist, was sie herausgefunden haben, übersetzt in Alltagssprache:

1. Die drei Kandidaten (Die Modelle)

Die Forscher haben drei verschiedene "KI-Assistenten" getestet, die alle frei verfügbar sind:

Der Allrounder (Llama 3.3): Ein riesiges, sehr intelligentes Modell, das alles kann, aber nicht speziell für Medizin trainiert wurde.
Der Spezialist mit vielen Köpfen (Llama 4): Ein Modell, das wie ein Team von Experten funktioniert. Es schaltet nur bestimmte "Experten" ein, je nach Frage. Das ist schnell und effizient, aber manchmal etwas chaotisch.
Der Mediziner (MedGemma): Ein Modell, das extra für die Medizin trainiert wurde. Es kennt den Jargon und die Art, wie Ärzte schreiben, sehr gut.

2. Der erste Test: "Der Gleiche Satz, immer wieder" (Reproduzierbarkeit)

Die Forscher haben den Assistenten 100 Mal hintereinander mit exakt derselben Frage und demselben Text konfrontiert.

Das Ergebnis: Je mehr "Zufall" (eine Einstellung namens Temperatur) man in die KI einbaut, desto mehr beginnt sie zu schwanken.
Die Analogie: Stellen Sie sich vor, Sie fragen einen Freund 100 Mal: "Ist das Wetter schön?" Wenn er sehr konzentriert ist (niedrige Temperatur), sagt er immer "Ja". Wenn er aber etwas müde oder unkonzentriert ist (hohe Temperatur), sagt er mal "Ja", mal "Vielleicht", mal "Nein", obwohl das Wetter gleich bleibt.
Der Clou: Die KI war oft genau genug (sie lag richtig), aber sie war nicht stabil. Das ist im Krankenhaus gefährlich, denn wenn die Ergebnisse jeden Tag anders sind, kann man sie nicht für wichtige Entscheidungen nutzen.

3. Der zweite Test: "Die Frage leicht umformulieren" (Robustheit)

Jetzt haben die Forscher die Frage leicht verändert. Statt "Ist der Patient mobil?" fragten sie: "Kann der Patient sich fortbewegen?" oder "Gibt es Hinweise auf Mobilität?".

Das Ergebnis: Hier wurde es kritisch. Selbst wenn die Bedeutung genau gleich ist, haben die Antworten der KI oft komplett gewechselt.
Der große Verlierer: Der "Spezialist mit vielen Köpfen" (Llama 4) war hier besonders chaotisch. Wenn man die Frage nur leicht umdrehte, gab er völlig andere Antworten. Das ist wie ein Übersetzer, der bei "Guten Morgen" "Guten Tag" sagt, aber bei "Morgen, wie geht's?" plötzlich "Guten Abend" ruft.
Die Gewinner: Der "Allrounder" und der "Mediziner" waren hier deutlich stabiler. Der Mediziner (MedGemma) war besonders gut, weil er weiß, wie Ärzte schreiben.

4. Die Lösung: "Die Weisheit der Vielen" (Selbstkonsistenz)

Was tun, wenn die KI so nervös ist? Die Forscher haben einen cleveren Trick ausprobiert: Statt nur einmal zu fragen, fragen sie 10 Mal und lassen die Mehrheitsentscheidung zählen.

Die Analogie: Wenn Sie unsicher sind, ob ein Gericht schmeckt, fragen Sie nicht nur eine Person. Sie fragen 10 Freunde. Wenn 9 von 10 sagen "Lecker", dann ist es wahrscheinlich lecker, auch wenn der eine Freund "Ekelig" gesagt hat.
Das Ergebnis: Dieser Trick hat die Stabilität der KI enorm verbessert! Selbst wenn die KI bei hoher "Temperatur" (Unruhe) war, stimmten die Mehrheitsentscheidungen fast immer überein.
Der Preis: Es kostet mehr Zeit und Rechenleistung, weil man 10 Mal fragen muss statt nur einmal. Aber für wichtige medizinische Entscheidungen lohnt sich dieser Aufwand.

🏆 Das Fazit für den Alltag

Genauigkeit reicht nicht: Eine KI kann oft recht haben, aber wenn sie jeden Tag eine andere Antwort gibt, ist sie im Krankenhaus unbrauchbar.
Wording ist wichtig: Schon kleine Änderungen in der Frage können die Antwort einer KI komplett verändern. Man muss sehr vorsichtig sein, wie man sie fragt.
Der Mediziner gewinnt: Modelle, die speziell für die Medizin trainiert wurden (wie MedGemma), waren oft stabiler als die allgemeinen Riesen.
Der "10-Fragen-Trick": Wenn man absolute Sicherheit braucht, sollte man die KI nicht nur einmal fragen, sondern mehrmals und die Mehrheitsmeinung nehmen. Das macht das Ergebnis viel zuverlässiger.

Kurz gesagt: KI ist ein mächtiges Werkzeug, aber wie ein guter Assistent braucht sie klare Regeln, eine ruhige Umgebung und manchmal ein paar Kollegen, um sicherzustellen, dass sie nicht aus Versehen das Falsche sagt.

Each language version is independently generated for its own context, not a direct translation.

Titel: Reproduzierbarkeit und Robustheit von Large Language Models für die Extraktion des Mobilitätsfunktionsstatus

1. Problemstellung

Klinische Notizen enthalten wertvolle Informationen über den funktionellen Status von Patienten, sind jedoch oft unstrukturiert und linguistisch variabel. Während Large Language Models (LLMs) hohe Genauigkeit bei der klinischen Informationsentnahme (Information Extraction, IE) zeigen, ist ihre Zuverlässigkeit für den klinischen Einsatz unzureichend quantifiziert. Zwei kritische Dimensionen werden oft vernachlässigt:

Reproduzierbarkeit: Die Stabilität der Ausgabe bei wiederholter Abfrage mit demselben Prompt und demselben Text.
Robustheit: Die Stabilität der Ausgabe bei natürlichen, nicht-adversarialen Variationen des Prompts (z. B. durch Umformulierung durch verschiedene Ärzte).

Das Paper untersucht, ob hohe Durchschnittsgenauigkeit (F1-Score) auch stabile und zuverlässige Extraktionen garantiert, insbesondere bei der Extraktion von Mobilitätsdaten basierend auf dem ICF-Rahmenwerk (International Classification of Functioning, Disability and Health).

2. Methodik

Daten und Aufgabe:

Aufgabe: Binäre Extraktion (Vorhandensein/Ausbleiben) für vier Mobilitätsklassen (ICF): Körperposition ändern/beibehalten, Gegenstände tragen/bewegen, Gehen/Bewegen, Fortbewegung mit Transportmitteln.
Datensatz: 800 annotierte klinische Notizabschnitte (je 200 pro Klasse) von drei Anbietern in Rochester, MN.
Modelle: Drei Open-Weight-LLMs mit unterschiedlichen Architekturen wurden verglichen:
1. Llama 3.3 70B: Dichtes, allgemeines Modell (Baseline).
2. Llama 4 (Scout-17B-16E): Mixture-of-Experts (MoE) Modell, bekannt für potenzielle Instabilität durch Routing-Entscheidungen.
3. MedGemma 27B: Domänenspezifisch auf Medizin feinabgestimmtes Modell.

Experimentelles Design:
Die Studie verwendet ein kontrolliertes faktorielles Design mit drei Experimenten:

Intra-Prompt-Reproduzierbarkeit: Der gleiche Prompt wurde 100-mal bei 11 verschiedenen Temperaturwerten (0,0 bis 1,0) ausgeführt.
Inter-Prompt-Robustheit: 10 semantisch äquivalente, aber sprachlich unterschiedliche Paraphrasen des Prompts wurden bei den gleichen Temperaturwerten verwendet.
Selbstkonsistenz (Mitigation): Anwendung von Mehrheitsvoting (Majority Voting) über 10 Generationen, um die Stabilität zu erhöhen.

Metriken:

Leistung: Mittlere F1-Scores (gegenüber dem Ground Truth).
Stabilität: Fleiss' Kappa ( $\kappa$ ), gemessen über die Übereinstimmung der 100 (bzw. 10) Ausgaben pro Bedingung.
Statistik: Drei-Wege-ANOVA (Faktoren: Modell, Temperatur, Mobilitätsklasse) mit Post-hoc-Tests (Tukey HSD).

3. Wichtige Ergebnisse

A. Einfluss der Temperatur auf die Reproduzierbarkeit:

Mit steigender Temperatur nimmt die Reproduzierbarkeit ( $\kappa$ ) bei allen Modellen ab, während der F1-Score oft nur geringfügig variiert oder sogar leicht ansteigt.
Llama 3.3: Zeigt den allmählichsten Abfall der Stabilität.
Llama 4 (MoE): Zeigt den steilsten Abfall der Stabilität, insbesondere bei bestimmten Aufgaben. Die Routing-Mechanismen des MoE-Modells scheinen anfällig für kleine Störungen zu sein.
MedGemma: Zeigt eine starke Aufgabenabhängigkeit; bei "Körperposition" sinkt die Stabilität stark, bei anderen Klassen bleibt sie stabil.
Fazit: Ein höherer F1-Score bei höheren Temperaturen geht oft auf Kosten der klinisch kritischen Reproduzierbarkeit.

B. Robustheit gegenüber Prompt-Paraphrasierung:

Selbst semantisch äquivalente Umformulierungen führen zu signifikanten Stabilitätsverlusten.
Llama 4 zeigt eine deutlich schlechtere Robustheit gegenüber Prompt-Variationen als die anderen Modelle (insbesondere bei "Gegenstände tragen" und "Transport").
Llama 3.3 und MedGemma sind robuster, wobei MedGemma bei niedrigen Temperaturen konsistent hohe Stabilität und Leistung bietet.
Statistische Tests bestätigen, dass das Modell der dominierende Faktor für die Robustheit ist, nicht nur die Temperatur.

C. Wirkung von Selbstkonsistenz (Mehrheitsvoting):

Die Anwendung von Mehrheitsvoting über mehrere Generationen verbessert den Fleiss' Kappa-Wert erheblich, insbesondere bei Modellen mit hoher Varianz (wie Llama 4).
Dies geschieht oft ohne Verlust des F1-Scores, manchmal sogar mit einer leichten Verbesserung.
Der Nachteil ist ein linearer Anstieg der Inferenzkosten und Latenz.

4. Hauptbeiträge

Differenzierte Bewertung: Die Studie trennt strikt zwischen Genauigkeit (F1-Score) und Zuverlässigkeit (Stabilität/Kappa) und zeigt, dass hohe Genauigkeit nicht automatisch hohe Zuverlässigkeit impliziert.
Architekturspezifische Erkenntnisse: Es wird nachgewiesen, dass MoE-Architekturen (Llama 4) trotz ihrer Effizienz signifikant anfälliger für Stabilitätsprobleme (sowohl bei Temperatur als auch bei Prompt-Variation) sein können als dichte Modelle oder domänenspezifische Modelle.
Praktische Leitlinien:
- Für klinische Anwendungen wird Temperatur 0.0 als Standard empfohlen, um deterministisches Verhalten zu gewährleisten.
- MedGemma wird als vielversprechende Single-Configuration-Lösung für den klinischen Einsatz identifiziert, da sie hohe Leistung und Stabilität kombiniert.
- Mehrheitsvoting wird als effektive, modellunabhängige Methode zur Verbesserung der Zuverlässigkeit vorgeschlagen, wenn Inferenzkosten kein Hindernis sind.
Statistische Fundierung: Durch ANOVA und Post-hoc-Tests werden die Einflüsse von Modell, Temperatur und Aufgabenart quantitativ isoliert und signifikante Unterschiede belegt.

5. Bedeutung und Implikationen

Die Arbeit unterstreicht, dass für den klinischen Einsatz von LLMs Zuverlässigkeit und Auditierbarkeit mindestens so wichtig sind wie die reine Vorhersagegenauigkeit.

Klinische Sicherheit: Instabile Ausgaben können zu inkonsistenten Einschlusskriterien in Studien oder fehlerhaften Analysen führen.
Modellauswahl: Die Wahl des Modells sollte nicht nur auf Basis von Benchmarks zur Genauigkeit, sondern auch auf Basis von Robustheitstests gegen Prompt-Variationen erfolgen.
Implementierung: Entwickler sollten Temperaturparameter konservativ wählen und Strategien wie Selbstkonsistenz (Voting) in Betracht ziehen, um die Varianz zu reduzieren, bevor sie auf komplexe Fine-Tuning-Ansätze zurückgreifen.

Die Studie liefert einen reproduzierbaren Rahmenwerk, um die Zuverlässigkeit von LLMs in der klinischen Informationsentnahme systematisch zu evaluieren und zu verbessern.

Reproducibility and Robustness of Large Language Models for Mobility Functional Status Extraction

🩺 Wenn KI-Arzt nicht zweimal das Gleiche sagt: Ein Test der Zuverlässigkeit

1. Die drei Kandidaten (Die Modelle)

2. Der erste Test: "Der Gleiche Satz, immer wieder" (Reproduzierbarkeit)

3. Der zweite Test: "Die Frage leicht umformulieren" (Robustheit)

4. Die Lösung: "Die Weisheit der Vielen" (Selbstkonsistenz)

🏆 Das Fazit für den Alltag

Titel: Reproduzierbarkeit und Robustheit von Large Language Models für die Extraktion des Mobilitätsfunktionsstatus

1. Problemstellung

2. Methodik

3. Wichtige Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Implikationen

Mehr davon

A case report on gendered biases in a Finnish healthcare AI assistant

An End-to-End Synthetic Oncology Clinical Trial Framework Integrating Radiographic Response, Circulating Tumor DNA, Safety, and Survival for Decision-Oriented Clinical Data Science

Who is leading medical AI? A systematic review and scientometric analysis of chest x-ray research

High-Throughput Observational Evidence Generation Using Linked Electronic Health Record and Claims Data

Perception of Safety in Behavioral Health Crisis Units among Patients and Care Partners versus Artificial Intelligence (AI): A Multimethod Study