Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Each language version is independently generated for its own context, not a direct translation.

Gesunde KI? Ein Check für die Intelligenz von Chatbots im Bereich der britischen öffentlichen Gesundheit

Stellen Sie sich vor, Sie stehen in einer riesigen Bibliothek, die nur von der britischen Regierung geführte Gesundheitsratgeber enthält. Diese Bücher sind voller wichtiger Informationen: Wann sollte man sich impfen lassen? Was tun bei einer Lebensmittelvergiftung? Wie schützt man sich vor neuen Viren?

Jetzt kommen große Sprachmodelle (KI-Chatbots) wie GPT-4 oder Llama ins Spiel. Sie sind wie super-intelligente Bibliothekare, die alles gelesen haben und sofort antworten können. Aber die Frage ist: Verstehen sie wirklich, was in diesen speziellen Büchern steht, oder erfinden sie einfach nette Geschichten?

Dies ist genau das, was die Forscher vom UK Health Security Agency (UKHSA) in ihrer neuen Studie herausfinden wollten. Sie haben einen riesigen Test entwickelt, den sie PubHealthBench nennen.

Hier ist die Geschichte des Experiments, einfach erklärt:

1. Der Test: Ein riesiges Quiz mit 8.000 Fragen

Die Forscher haben über 600 aktuelle Gesundheitsdokumente der britischen Regierung genommen. Aus diesen Texten haben sie automatisch über 8.000 Multiple-Choice-Fragen (Quizfragen mit mehreren Antwortmöglichkeiten) erstellt.

Stellen Sie sich das wie einen riesigen, automatischen Fragebogen vor, der von einer KI erstellt wurde, um andere KIs zu prüfen.

Teil A (Das Quiz): Die KI muss die richtige Antwort aus einer Liste auswählen (wie in einer Schulprüfung).
Teil B (Der freie Vortrag): Die KI muss die Antwort frei formulieren, ohne Hilfestellung durch Antwortmöglichkeiten (wie in einem echten Gespräch mit einem Arzt).

2. Die Teilnehmer: Die Schwergewichte gegen die Leichtgewichte

Sie haben 24 verschiedene KI-Modelle getestet. Darunter waren die neuesten, teuersten Modelle von OpenAI (wie GPT-4.5) und Anthropic, aber auch kleinere, offene Modelle, die jeder nutzen kann.

3. Die Ergebnisse: Wer besteht die Prüfung?

Im Quiz-Modus (Multiple Choice): Die KIs sind brillant!
Die neuesten, teuersten KIs (wie GPT-4.5) haben hier extrem gut abgeschnitten. Sie haben über 90 % der Fragen richtig beantwortet.

Vergleich: Sie waren sogar besser als normale Menschen, die nur schnell im Internet nachschlagen, ohne KI-Hilfe.
Die kleine Schwäche: Kleinere, billigere KIs haben es etwas schwerer, liegen aber immer noch bei über 75 % Richtigkeit.

Im freien Modus (Offene Antworten): Hier wird es knifflig.
Als die KIs gebeten wurden, die Antworten frei zu formulieren (ohne die vorgegebenen Quiz-Antworten), brach die Leistung ein.

Kein einziges Modell erreichte hier über 75 %.
Das Problem: Die KIs fingen an zu "halluzinieren". Das ist wie ein Schüler, der die richtige Antwort nicht weiß, aber so gut lügt, dass es fast klingt, als wäre es wahr. Sie fügten Informationen hinzu, die nicht im offiziellen Text standen, oder ließen wichtige Details weg.

4. Die wichtigsten Erkenntnisse (in Metaphern)

Der "Schulbank"-Effekt: Wenn die KI nur eine Frage mit Antwortmöglichkeiten bekommt, kann sie oft die richtige Antwort "erraten" oder durch Ausschlussverfahren finden. Das ist wie bei einer Multiple-Choice-Klausur, bei der man die richtige Antwort oft schon an der Formulierung erkennt.
Der "Freie Vortrag": Wenn die KI aber frei sprechen muss, zeigt sich ihr wahres Gesicht. Hier verwechseln sie oft Details. Sie sagen vielleicht: "Nehmen Sie dieses Medikament sofort", obwohl der Ratgeber sagt: "Nehmen Sie es nur bei schweren Symptomen".
Die Zielgruppe: Interessanterweise wussten die KIs am meisten über Ratschläge für die Allgemeinbevölkerung (z. B. "Was tun bei Grippewelle?"). Bei sehr speziellen medizinischen Anweisungen für Ärzte waren sie etwas unsicherer.

5. Was bedeutet das für uns?

Die Studie sagt uns zwei Dinge:

Gute Nachrichten: Die modernsten KIs sind sehr gut darin, Fakten aus den offiziellen Gesundheitsbüchern abzurufen. Sie sind eine hervorragende erste Anlaufstelle für Informationen.
Warnung: Wenn Sie eine KI bitten, eine komplexe Gesundheitsfrage frei zu beantworten, verlassen Sie sich nicht blind auf sie. Sie könnte wichtige Nuancen verpassen oder falsche Ratschläge geben, die harmlos klingen, aber gefährlich sein könnten.

Fazit:
Stellen Sie sich die KI wie einen sehr gut ausgebildeten, aber manchmal etwas zu selbstbewussten Assistenten vor. Wenn Sie ihn im Quiz antreten lassen, gewinnt er fast immer. Aber wenn Sie ihn bitten, eine medizinische Entscheidung für Sie zu treffen, sollten Sie ihn immer noch von einem echten Experten (oder einem menschlichen Arzt) überprüfen lassen.

Die Forscher hoffen, dass dieser neue Test (PubHealthBench) dazu hilft, sicherzustellen, dass KIs in Zukunft noch sicherer werden, bevor sie in echten Krankenhäusern oder Gesundheits-Apps eingesetzt werden.

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

1. Der Test: Ein riesiges Quiz mit 8.000 Fragen

2. Die Teilnehmer: Die Schwergewichte gegen die Leichtgewichte

3. Die Ergebnisse: Wer besteht die Prüfung?

4. Die wichtigsten Erkenntnisse (in Metaphern)

5. Was bedeutet das für uns?

1. Problemstellung und Motivation

2. Methodik: Der PubHealthBench

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

1. Der Test: Ein riesiges Quiz mit 8.000 Fragen

2. Die Teilnehmer: Die Schwergewichte gegen die Leichtgewichte

3. Die Ergebnisse: Wer besteht die Prüfung?

4. Die wichtigsten Erkenntnisse (in Metaphern)

5. Was bedeutet das für uns?

1. Problemstellung und Motivation

2. Methodik: Der PubHealthBench

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers