Automation of Systematic Reviews with Large Language Models

Die Studie validiert den auf Large Language Models basierenden Workflow „otto-SR", der die zeitaufwändigen Phasen des Screenings, der Datenaextraktion und der Bias-Bewertung bei systematischen Übersichten automatisiert und dabei eine höhere Genauigkeit als menschliche Forscher aufweist, was eine schnelle und skalierbare Aktualisierung von Evidenzsynthesen ermöglicht.

Cao, C., Arora, R., Cento, P., Budak, A., Manta, K., Farahani, E., Cecere, M., Selemon, A., Sang, J., Gong, L. X., Kloosterman, R., Jiang, S., Saleh, R., Margalik, D., Lin, J., Jomy, J., Xie, J., Chen, D., Gorla, J., Lee, S., Zhang, K., Kuang, J., Ware, H., Whelan, M. G., Teja, B., Leung, A. A., Arora, R. K., Pillay, J., Hartling, L., Detsky, A., Noetel, M., Emerson, D. B., Tricco, A. C., Church, G. M., Moher, D., Bobrovitz, N.

Veröffentlicht 2026-02-18
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre
⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest herausfinden, welche Diät wirklich am besten funktioniert. Du hast Tausende von wissenschaftlichen Studien vor dir, aber niemand hat die Zeit, jede einzelne davon zu lesen, zu verstehen und zusammenzufassen. Das ist das Problem bei systematischen Übersichten (Systematic Reviews): Sie sind wie ein riesiger, mühsamer Berg, den ein Team von Forschern mit bloßen Händen abtragen muss. Oft dauert das über ein Jahr, ist extrem anstrengend und manchmal machen die Menschen dabei kleine Fehler, weil sie müde sind.

Diese Studie stellt nun einen neuen, digitalen Helfer vor: einen KI-Assistenten namens "otto-SR".

Hier ist die Geschichte, wie dieser Roboter-Freund die Welt der Forschung verändert, erklärt mit einfachen Bildern:

1. Das Problem: Der Berg an Papier

Stell dir vor, du bist ein Archivar in einer riesigen Bibliothek. Jemand fragt dich: "Welche Bücher sind über das Wetter?" Du musst durch 30.000 Regale laufen, jedes Buch kurz ansehen und entscheiden: "Ja, das passt" oder "Nein, das ist irrelevant". Dann musst du aus den "Ja"-Büchern noch die wichtigsten Zahlen herauslesen und bewerten, ob die Autoren die Wahrheit gesagt haben.
Das machen menschliche Forscher. Es dauert ewig, und wenn sie müde werden, übersehen sie vielleicht ein wichtiges Buch oder lesen eine Zahl falsch ab.

2. Die Lösung: Der super-schnelle Bibliothekar "otto"

Die Forscher haben nun einen KI-Algorithmus (eine Art sehr schlauer Computer) getestet, der genau diese drei schweren Aufgaben übernimmt:

  1. Aussortieren: Welche Studien sind relevant?
  2. Herauspicken: Welche Zahlen und Fakten sind wichtig?
  3. Bewerten: Ist die Studie vertrauenswürdig oder voller Fehler?

3. Der große Wettkampf: Mensch gegen Maschine

Die Forscher haben "otto" in einem riesigen Test gegen echte, hochqualifizierte Menschen (Absolventen) antreten lassen. Es war wie ein Sportwettkampf in vier Runden:

  • Runde 1 (Das Aussortieren): Otto musste 32.000 Titel durchsuchen.
    • Das Ergebnis: Otto war schneller und genauer als die Menschen. Er hat fast alle relevanten Studien gefunden (96,7 %), während die Menschen einige übersehen haben (81,7 %). Stell dir vor, Otto ist ein Hund mit einem extrem feinen Spürsinn, der keine Spur verpasst, während der menschliche Sucher manchmal abgelenkt ist.
  • Runde 2 (Das Daten-Picken): Otto musste Daten aus fast 500 Studien herauslesen.
    • Das Ergebnis: Auch hier war Otto der Gewinner. Er hatte eine Genauigkeit von 93 %, die Menschen nur 79 %. Otto liest wie ein Scanner, der nie vergisst, während Menschen manchmal einen Buchstaben übersehen.
  • Runde 3 (Die Qualitätsprüfung): Otto sollte bewerten, ob die Studien gut gemacht waren.
    • Das Ergebnis: Otto war sich selbst so treu, dass er bei wiederholter Prüfung fast immer das gleiche Urteil fällte (sehr hohe Zuverlässigkeit). Er ist wie ein Richter, der nie launisch ist.
  • Runde 4 (Der große Test): Otto sollte eine ganze Sammlung von 12 berühmten medizinischen Übersichten (Cochrane Reviews) neu machen und aktualisieren.
    • Das Ergebnis: Otto fand fast doppelt so viele relevante Studien wie die ursprünglichen menschlichen Autoren (114 statt 64!). Er hat also Dinge gefunden, die die Menschen übersehen hatten.

4. Das überraschende Ende

Das Spannendste kam am Ende: Weil Otto so gründlich war und mehr Studien fand, änderten sich die Endergebnisse!

  • In zwei Fällen kamen durch Ottos Arbeit neue, statistisch signifikante Beweise ans Licht (die Menschen hatten etwas Wichtiges übersehen).
  • In einem Fall stellte sich heraus, dass ein früheres Ergebnis gar nicht so sicher war, wie man dachte.

Was bedeutet das für uns?

Stell dir vor, früher musste man einen ganzen Bauernhof mit der Hand abmähen, um Heu zu sammeln. Heute haben wir einen mächtigen Mähroboter.
Diese Studie zeigt, dass Künstliche Intelligenz nicht nur ein Spielzeug ist, sondern ein Werkzeug, das uns helfen kann, medizinisches Wissen viel schneller, genauer und zuverlässiger zu finden.

Das Fazit:
Wir müssen den Menschen nicht ersetzen, aber wir können ihnen einen super-effizienten Assistenten an die Seite stellen. So können wir medizinische Entscheidungen treffen, die auf dem allerneuesten Wissen basieren – und das in einem Bruchteil der Zeit, die es früher gebraucht hätte. Die Zukunft der Medizin wird nicht nur von Menschen, sondern von einer starken Teamarbeit zwischen Mensch und Maschine geprägt sein.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →