A Systematic Performance Evaluation of Three Large Language Models in Answering Questions on moderate Hyperthermia

⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

🌡️ Die große Hitze-Testfahrt: Können KI-Chatbots über Krebs-Wärmebehandlung reden?

Stellen Sie sich vor, Sie haben einen sehr intelligenten, aber etwas verwirrten Bibliothekar. Dieser Bibliothekar hat Millionen von Büchern gelesen und kann Ihnen zu fast jedem Thema eine Antwort geben. Aber was passiert, wenn Sie ihn nach einem sehr speziellen, seltenen Fachgebiet fragen, über das nur wenige Bücher existieren und viele davon auch noch widersprüchlich sind?

Genau das haben die Forscher in dieser Studie untersucht. Sie wollten wissen: Können moderne KI-Modelle (wie ChatGPT oder DeepSeek) Ärzte oder Patienten bei der „moderaten Hyperthermie" helfen?

Was ist „moderate Hyperthermie"?
Das ist ein Wort für eine Krebsbehandlung, bei der Tumore gezielt auf 40–43 Grad erhitzt werden (wie ein sehr warmes Bad für den Tumor), um sie empfindlicher für Strahlentherapie oder Chemotherapie zu machen. Es ist ein Nischenthema, bei dem es nicht so viele klare Regeln gibt wie bei anderen Krebstherapien.

🧪 Das Experiment: Der „Blind-Test" mit drei KI-Rivalen

Die Forscher stellten sich drei der aktuell besten KI-Modelle vor:

DeepSeek (ein sehr effizientes Modell)
Llama (ein offenes Modell von Meta)
GPT-4o (das bekannte Modell von OpenAI)

Sie gaben diesen drei KIs 40 schwierige Fragen aus dem Bereich der Hyperthermie. Die Fragen kamen von echten Experten (Ärzten und Physiker) und waren offen formuliert – also keine einfachen „Ja/Nein"-Fragen, sondern komplexe Szenarien wie: „Was tun wir, wenn ein Patient keine Chemotherapie verträgt?" oder „Welche Geräte gibt es für tiefe Hitzebehandlungen?"

Dann nahmen sich 19 internationale Experten die Antworten der KIs vor. Sie wussten nicht, welche KI welche Antwort geschrieben hatte (ein „Blind-Test"). Sie bewerteten jede Antwort auf einer Skala von 1 (sehr schlecht) bis 5 (sehr gut) und mussten auch entscheiden: „Könnte diese Antwort einem Patienten schaden, wenn ein Arzt sie ernst nimmt?"

📉 Das Ergebnis: Ein „Befriedigend", aber mit gefährlichen Lücken

Das Ergebnis war eine Mischung aus „nicht schlecht" und „eher gefährlich".

1. Die Durchschnittsnote: „Befriedigend"
Im Durchschnitt schnitten alle drei KIs mit einer 3 von 5 ab. Das ist wie eine Schulnote „Befriedigend". Sie sind also nicht komplett dumm, aber sie sind auch keine Experten.

2. Die bösen Überraschungen (Die „Halluzinationen")
Das Problem ist: Eine Durchschnittsnote von 3 verdeckt, dass es viele sehr schlechte Antworten gab.

Bei ca. 25 % der Antworten bewerteten die Experten die KI-Antworten als „schlecht" oder „sehr schlecht".
Noch schlimmer: Bei ca. 15 bis 19 % der Antworten sagten die Experten: „Das könnte gefährlich sein!"

Ein Beispiel für eine „schlechte" Antwort:
Eine KI wurde gefragt, welche Geräte es für die Behandlung gibt. Statt eine korrekte Liste zu liefern, erfindete sie Geräte, die es gar nicht gibt, oder verwechselte Dinge. Das ist wie ein Koch, der Ihnen ein Rezept für eine Pizza gibt, aber statt Tomaten und Käse Zutaten wie „Zement" und „Schokolade" vorschlägt. Wenn Sie das glauben, ist das katastrophal.

Ein Beispiel für eine „trickreiche" Antwort:
Bei einer Frage zur Behandlung von Gebärmutterhalskrebs antwortete eine KI mit einer sehr langen, gut formulierten Erklärung. Sie kam am Ende zu einem richtigen Rat, aber auf dem Weg dorthin erfindete sie eine Studie, die es nie gab, und behauptete Dinge, die falsch sind. Ein Laie würde denken: „Wow, wie professionell!", aber ein Experte sieht sofort: „Das ist eine Lüge in einem schönen Gewand."

🧠 Warum machen die KIs das?

Stellen Sie sich die KI wie einen Schüler vor, der für eine Prüfung lernt.

Bei allgemeinen Themen (wie „Was ist Krebs?") hat er Tausende von Büchern gelesen.
Bei Hyperthermie gibt es aber nur wenige, verstreute Bücher, und viele Informationen im Internet sind veraltet oder nicht wissenschaftlich fundiert.

Die KI versucht, aus den wenigen Informationen, die sie hat, eine plausible Geschichte zu erfinden. Da es keine klaren „Lehrbücher" für dieses Nischenthema gibt, halluziniert sie (erfindet Fakten), um die Lücken zu füllen. Sie klingt sehr selbstbewusst, ist aber oft falsch.

💡 Das Fazit: Nicht ohne Aufsicht benutzen!

Die Forscher kommen zu einem klaren Schluss:

Verlassen Sie sich nicht allein auf diese KIs, wenn es um medizinische Entscheidungen geht!

Wenn Sie ein Experte sind, können Sie die Fehler vielleicht erkennen. Aber wenn ein normaler Arzt oder ein Patient die KI fragt, um sich zu informieren, besteht eine hohe Gefahr, dass er auf falsche, potenziell schädliche Informationen hereinfällt.

Die Metapher:
Die KI ist wie ein sehr gut aussehender, aber unerfahrener Reisebegleiter. Er kann Ihnen tolle Geschichten über eine Stadt erzählen (allgemeine Infos), aber wenn Sie ihn nach dem genauen Weg zu einem versteckten, gefährlichen Bergpfad fragen (spezielle medizinische Details), wird er Sie wahrscheinlich in den Abgrund führen, weil er die Landkarte nicht genau kennt.

Was muss passieren?
Damit diese KIs in Zukunft wirklich helfen können, müssen wir die Daten besser strukturieren und klare medizinische Leitlinien für die Hyperthermie schaffen. Erst dann kann die KI lernen, nicht zu erfinden, sondern zu wissen.

Kurz gesagt: Die KI ist ein spannendes Werkzeug, aber im Bereich der Krebs-Wärmebehandlung ist sie noch kein Ersatz für einen echten Arzt.

A Systematic Performance Evaluation of Three Large Language Models in Answering Questions on moderate Hyperthermia

🌡️ Die große Hitze-Testfahrt: Können KI-Chatbots über Krebs-Wärmebehandlung reden?

🧪 Das Experiment: Der „Blind-Test" mit drei KI-Rivalen

📉 Das Ergebnis: Ein „Befriedigend", aber mit gefährlichen Lücken

🧠 Warum machen die KIs das?

💡 Das Fazit: Nicht ohne Aufsicht benutzen!

Titel: Systematische Leistungsbewertung von drei Large Language Models (LLMs) bei der Beantwortung von Fragen zur moderaten Hyperthermie

1. Problemstellung und Hintergrund

2. Methodik

3. Wichtige Ergebnisse

4. Hauptbeiträge und Signifikanz

5. Fazit und Empfehlung

A Systematic Performance Evaluation of Three Large Language Models in Answering Questions on moderate Hyperthermia

🌡️ Die große Hitze-Testfahrt: Können KI-Chatbots über Krebs-Wärmebehandlung reden?

🧪 Das Experiment: Der „Blind-Test" mit drei KI-Rivalen

📉 Das Ergebnis: Ein „Befriedigend", aber mit gefährlichen Lücken

🧠 Warum machen die KIs das?

💡 Das Fazit: Nicht ohne Aufsicht benutzen!

Titel: Systematische Leistungsbewertung von drei Large Language Models (LLMs) bei der Beantwortung von Fragen zur moderaten Hyperthermie

1. Problemstellung und Hintergrund

2. Methodik

3. Wichtige Ergebnisse

4. Hauptbeiträge und Signifikanz

5. Fazit und Empfehlung

Mehr davon

A feasibility study on combining Ayurvedic dietary knowledge and modern nutrition to personalise diets for cancer patients

A Real-World Retrospective Study of Sintilimab in Combination with Neoadjuvant Chemotherapy for Triple-Negative Breast Cancer

Backfill Bayesian Ordered Lattice Design for Phase I Clinical Trials

Cell-free chromatin epigenomic profiling enables non-invasive pancreatic cancer cell-state identification

Clinical and pathological characteristics of thin cutaneous melanomas with rapid recurrence.