Can Large Language Models Derive New Knowledge? A Dynamic Benchmark for Biological Knowledge Discovery

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen extrem intelligenten Bibliothekar, der Millionen von Büchern auswendig gelernt hat. Dieser Bibliothekar ist ein Künstlicher Intelligenz-Modell (LLM). Wenn Sie ihn fragen: „Wer hat die Relativitätstheorie entdeckt?", antwortet er blitzschnell und perfekt. Er hat das in seinen Büchern (den Trainingsdaten) gelesen.

Aber was passiert, wenn Sie ihn fragen: „Wie funktioniert das neue Medikament, das gestern in einem Labor entdeckt wurde?"

Genau hier setzt diese Forschung an. Die Wissenschaftler fragen sich: Kann dieser Bibliothekar wirklich neues Wissen erschaffen, oder kopiert er nur, was er schon kennt?

Hier ist die Erklärung der Studie „DBench-Bio" in einfachen Worten, mit ein paar anschaulichen Vergleichen:

1. Das Problem: Der „Spickzettel"-Effekt

Bisherige Tests für KI waren wie alte Schulprüfungen. Die Fragen und Antworten waren feststehend. Das Problem? Die KI hat diese Prüfungsfragen vielleicht schon beim Lernen gesehen. Es ist, als würde ein Schüler eine alte Mathearbeit auswendig lernen und dann denken, er sei ein Genie, weil er die Lösungen kennt. Er hat nichts neues gelernt, er hat nur gespeichert.

In der Wissenschaft ist das katastrophal. Wenn eine KI nur alte Fakten wiederholt, hilft sie uns nicht, neue Krankheiten zu heilen oder neue Materialien zu finden.

2. Die Lösung: Ein lebendiger, sich bewegender Test

Die Forscher haben einen neuen Test namens DBench-Bio entwickelt. Stellen Sie sich diesen Test nicht als statisches Heft vor, sondern als einen frischen, täglichen Zeitungsstapel, der jeden Monat neu geliefert wird.

Der Trick: Der Test nutzt nur wissenschaftliche Artikel, die nach dem Zeitpunkt veröffentlicht wurden, an dem die KI trainiert wurde. Die KI kann diese Artikel also unmöglich auswendig gelernt haben. Sie muss sie wirklich verstehen und schließen, um die Antwort zu finden.
Der Prozess:
1. Sammeln: Ein Roboter sucht in den besten Biologie-Journalen nach den allerneuesten Artikeln (wie ein Detektiv, der die frischesten Beweise sucht).
2. Erstellen: Eine andere KI liest diese Artikel und formuliert daraus Fragen und Antworten (wie ein Lehrer, der aus einem neuen Buch eine Quizfrage macht).
3. Filtern: Ein strenger Prüfer (eine dritte KI) schaut, ob die Fragen wirklich wichtig sind und nicht nur belanglose Details enthalten. Nur die besten Fragen kommen in den Test.

3. Die Ergebnisse: Die KI ist gut im Auswendiglernen, aber schlecht im Entdecken

Die Forscher haben die besten aktuellen KIs (wie GPT-5, Gemini, DeepSeek) auf diesen Test angesetzt. Das Ergebnis war ernüchternd, aber aufschlussreich:

Der Bibliothekar ist verwirrt: Die KIs waren fantastisch darin, alte Fakten abzurufen (wie bei einem normalen Quiz). Aber sobald es um neue Entdeckungen ging, versagten sie oft.
Die „Mathematik"-Hürde: Besonders in Bereichen, die viel Mathematik und komplexe Berechnungen erfordern (wie mathematische Biologie), kamen die Kins an ihre Grenzen.
Werkzeuge helfen nur bedingt: Man hat den KIs erlaubt, im Internet zu suchen (wie ihnen einen Computer zu geben). Das half nur wenig, weil die KIs oft trotzdem versuchten, aus ihrem alten Gedächtnis zu antworten, statt die neuen Suchergebnisse wirklich zu verarbeiten.

4. Warum scheitern die KIs? (Die vier Fehler)

Die Forscher haben genau hingeschaut, warum die KIs falsch lagen. Hier sind die vier Hauptfehler, verglichen mit menschlichem Verhalten:

Der „Erfinder"-Fehler (Mechanism Error): Die KI erfindet eine plausible Geschichte. Sie sagt: „Das Medikament wirkt so und so", obwohl sie gar nicht weiß, wie es wirklich funktioniert. Sie halluziniert eine Lösung, die logisch klingt, aber falsch ist.
Der „Allrounder"-Fehler (Generic Substitution): Die KI gibt eine Standardantwort. Statt das spezifische neue Ergebnis zu nennen, sagt sie: „Medikamente wirken oft, indem sie Entzündungen reduzieren." Das ist zwar wahr, aber es beantwortet nicht die spezifische Frage nach dem neuen Mechanismus.
Der „Angst"-Fehler (Refusal): Die KI sagt einfach: „Ich weiß das nicht." Sie traut sich nicht zu raten, weil die Information in ihrem Training nicht existiert.
Der „Übermütige"-Fehler (Overconfident Reasoning): Die KI ignoriert ihre Werkzeuge (die Suche nach neuen Fakten) und vertraut blind auf ihr altes Wissen. Sie ist so selbstbewusst, dass sie eine falsche Antwort gibt, die perfekt klingt, aber komplett daneben ist.

5. Was bedeutet das für die Zukunft?

Die Studie zeigt uns eine wichtige Wahrheit: Künstliche Intelligenz ist aktuell ein brillanter Archivar, aber noch kein echter Entdecker.

Sie kann Wissen speichern und verknüpfen, aber sie kann noch nicht wirklich neues Wissen aus dem Nichts erschaffen oder komplexe neue Zusammenhänge verstehen, die sie noch nie gesehen hat.

Die gute Nachricht: Die Methode, die diese Forscher entwickelt haben (DBench-Bio), ist wie ein Baukasten. Man kann sie nicht nur für Biologie nutzen, sondern auch für Physik, Chemie oder sogar Geschichte. Man muss nur die „Bücherquelle" austauschen. So können wir in Zukunft messen, ob KIs wirklich lernen, die Welt neu zu verstehen, oder ob sie nur alte Bücher nachplappern.

Fazit: Wir brauchen KIs, die nicht nur wissen, was gestern war, sondern die verstehen können, was morgen passiert. Dieser neue Test ist der erste Schritt, um genau das zu überprüfen.

Can Large Language Models Derive New Knowledge? A Dynamic Benchmark for Biological Knowledge Discovery

1. Das Problem: Der „Spickzettel"-Effekt

2. Die Lösung: Ein lebendiger, sich bewegender Test

3. Die Ergebnisse: Die KI ist gut im Auswendiglernen, aber schlecht im Entdecken

4. Warum scheitern die KIs? (Die vier Fehler)

5. Was bedeutet das für die Zukunft?

1. Problemstellung

2. Methodik: DBench-Bio

A. Datenerfassung (Data Acquisition)

B. QA-Extraktion (QA Extraction)

C. QA-Filter (QA Filter)

3. Wichtige Beiträge

4. Ergebnisse und Erkenntnisse

5. Bedeutung und Ausblick

Can Large Language Models Derive New Knowledge? A Dynamic Benchmark for Biological Knowledge Discovery

1. Das Problem: Der „Spickzettel"-Effekt

2. Die Lösung: Ein lebendiger, sich bewegender Test

3. Die Ergebnisse: Die KI ist gut im Auswendiglernen, aber schlecht im Entdecken

4. Warum scheitern die KIs? (Die vier Fehler)

5. Was bedeutet das für die Zukunft?

1. Problemstellung

2. Methodik: DBench-Bio

A. Datenerfassung (Data Acquisition)

B. QA-Extraktion (QA Extraction)

C. QA-Filter (QA Filter)

3. Wichtige Beiträge

4. Ergebnisse und Erkenntnisse

5. Bedeutung und Ausblick

Mehr davon

Rethinking and Red-Teaming Protective Perturbation in Personalized Diffusion Models

A Survey of Mamba

A Guide to Bayesian Networks Software Packages for Structure and Parameter Learning -- 2025 Edition

AI Literacy for Legal AI Systems: A practical approach

Parallel BiLSTM-Transformer networks for forecasting chaotic dynamics