Longevity Bench: Are SotA LLMs ready for aging research?

⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

LongevityBench: Der große „Alters-Check" für künstliche Intelligenz

Stellen Sie sich vor, Sie haben einen sehr klugen Roboter, der alles über die Welt weiß – oder zumindest so tut. Er kann Gedichte schreiben, Code programmieren und sogar medizinische Texte zusammenfassen. Aber die Forscher von Insilico Medicine stellen sich eine ganz wichtige Frage: Versteht dieser Roboter wirklich, wie das Altern funktioniert? Oder hat er sich nur die Antworten auswendig gelernt, wie ein Schüler, der die Lösungen im Lehrbuch abgeschrieben hat, ohne die Mathematik dahinter zu verstehen?

Um das herauszufinden, haben sie einen neuen Test entwickelt, den sie „LongevityBench" nennen. Hier ist eine einfache Erklärung, was das ist und was sie herausgefunden haben:

1. Die Idee: Ein Führerschein für Biologie

Stellen Sie sich LongevityBench wie einen Führerschein-Test für KI vor. Aber statt Auto zu fahren, muss die KI hier „Biologie fahren".

Der Test: Die KI bekommt verschiedene Aufgaben rund um das Altern. Sie muss zum Beispiel erraten, wie alt eine Person ist, nur basierend auf einem Bluttest. Oder sie muss entscheiden, welche von zwei Mäusen mit einem bestimmten Gen-Defekt länger lebt.
Die Daten: Der Test nutzt echte Daten aus der Forschung: Blutwerte, DNA-Muster, Gen-Aktivitäten und Krankengeschichten. Es ist wie ein riesiges Puzzle aus tausenden biologischen Hinweisen.

2. Die Kandidaten: Die großen KI-Stars

Die Forscher haben 15 der aktuell klügsten KI-Modelle getestet (wie GPT-5, Gemini 3, Claude und andere). Sie haben diese Modelle durch den Dschungel der Altersforschung geschickt, um zu sehen, wer am besten zurechtkommt.

3. Die Ergebnisse: Wer besteht, wer scheitert?

Das Ergebnis ist gemischt, aber sehr aufschlussreich:

Die Gewinner: Die Modelle von Google (Gemini 3 Pro) und OpenAI (GPT-5) haben im Durchschnitt am besten abgeschnitten. Sie sind wie die Sportler im Team, die in den meisten Disziplinen eine gute Leistung bringen.
Das Problem mit den „Tricks": Hier wird es spannend. Die KI ist sehr gut darin, einfache Ja/Nein-Fragen zu beantworten (z. B. „Lebt diese Person noch 10 Jahre?"). Aber sobald die Frage anders formuliert wird (z. B. „Wer von diesen beiden lebt länger?"), stolpern viele Modelle.
- Die Analogie: Stellen Sie sich vor, ein Schüler kann eine Matheaufgabe lösen, wenn sie als „2 + 2" geschrieben ist. Aber wenn Sie sie als „Wie viele Äpfel habe ich, wenn ich zwei habe und noch zwei dazu bekomme?" formulieren, denkt er, er sei in einem anderen Fach und gibt eine falsche Antwort. Das zeigt: Die KI hat oft kein echtes Verständnis, sondern erkennt nur Muster.

4. Die Schwachstellen: Wo die KI ins Wanken gerät

Die Forscher haben drei große Lücken entdeckt:

Das „Zahlen-Raten": Wenn die KI eine genaue Zahl nennen muss (z. B. „Wie viele Monate lebt die Person noch?"), neigt sie dazu, die Zeit zu unterschätzen. Sie denkt bei Krankheit immer sofort an den Tod, vergisst aber, dass Menschen sich erholen können. Es ist, als würde ein pessimistischer Arzt sein, der bei jedem Husten sofort eine Krebsdiagnose stellt.
Das „Protein-Puzzle": Bei DNA-Daten (den Bauplänen) war die KI ganz gut. Bei Proteinen (den eigentlichen Arbeitern im Körper) war sie aber fast blind. Das liegt daran, dass es in den Trainingsdaten der KI viel weniger Informationen über Proteine gibt als über DNA. Es ist, als würde man jemanden bitten, ein Auto zu reparieren, der zwar die Bauanleitung kennt, aber noch nie einen Motor gesehen hat.
Die „Form-Falle": Die KI ist sehr empfindlich gegenüber der Art, wie die Frage gestellt wird. Eine kleine Änderung in der Formulierung kann die Antwort von „Richtig" zu „Falsch" kippen lassen. Das bedeutet: Wir können ihr noch nicht blind vertrauen.

5. Was bedeutet das für uns?

Die Botschaft der Forscher ist klar: KI ist ein mächtiges Werkzeug, aber noch kein Ersatz für den Wissenschaftler.

Was sie können: KI kann helfen, große Datenmengen zu sortieren, Muster zu finden und neue Ideen zu generieren. Sie ist wie ein sehr schneller Assistent, der Ihnen 100 Bücher in einer Sekunde durchblättert.
Was sie noch nicht können: Sie haben noch kein echtes „Bauchgefühl" für die Biologie. Sie verstehen nicht wirklich, warum etwas passiert, sondern nur, dass es oft zusammen mit etwas anderem vorkommt.

Fazit:
LongevityBench ist wie ein Spiegel, der den KI-Modellen zeigt, wo ihre Brillen schief sitzen. Es hilft den Forschern, die KI besser zu trainieren, damit sie eines Tages nicht nur Muster erkennt, sondern die Geheimnisse des Alterns wirklich versteht. Bis dahin sollten wir ihre Antworten immer mit einem gesunden Menschenverstand prüfen – besonders wenn es um unser Leben geht.

Longevity Bench: Are SotA LLMs ready for aging research?

1. Die Idee: Ein Führerschein für Biologie

2. Die Kandidaten: Die großen KI-Stars

3. Die Ergebnisse: Wer besteht, wer scheitert?

4. Die Schwachstellen: Wo die KI ins Wanken gerät

5. Was bedeutet das für uns?

Titel: LongevityBench: Sind state-of-the-art LLMs bereit für die Altersforschung?

1. Problemstellung und Motivation

2. Methodik: LongevityBench

3. Wichtige Ergebnisse

A. Gesamtleistung und Rankings

B. Formatabhängigkeit und Inkonsistenzen

C. Generative Aufgaben

4. Schlüsselerkenntnisse und Diskussion

5. Bedeutung und Ausblick

Longevity Bench: Are SotA LLMs ready for aging research?

1. Die Idee: Ein Führerschein für Biologie

2. Die Kandidaten: Die großen KI-Stars

3. Die Ergebnisse: Wer besteht, wer scheitert?

4. Die Schwachstellen: Wo die KI ins Wanken gerät

5. Was bedeutet das für uns?

Titel: LongevityBench: Sind state-of-the-art LLMs bereit für die Altersforschung?

1. Problemstellung und Motivation

2. Methodik: LongevityBench

3. Wichtige Ergebnisse

A. Gesamtleistung und Rankings

B. Formatabhängigkeit und Inkonsistenzen

C. Generative Aufgaben

4. Schlüsselerkenntnisse und Diskussion

5. Bedeutung und Ausblick

Mehr davon

Functional-space alignment resolves the eco-evolutionary landscape of siderophore biosynthesis across bacteria

Exploring molecular signatures of senescence with markeR, an R toolkit for evaluating gene sets as phenotypic markers

TFBindFormer: A Cross-Attention Transformer for Transcription Factor-DNA Binding Prediction

TSvelo: Comprehensive RNA velocity by modeling cascade of gene regulation, transcription and splicing

From Movement to METs: A Validation of ActTrust(R) for Energy Expenditure Estimation and Physical Activity Classification in Young Adults