Longevity Bench: Are SotA LLMs ready for aging research?

⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Hoe slim zijn AI's eigenlijk over ouder worden? Een uitleg van "LongevityBench"

Stel je voor dat je een groep zeer intelligente robots hebt die alles over de wereld lijken te weten. Ze kunnen gedichten schrijven, code programmeren en zelfs medische artikelen samenvatten. Maar de vraag is: begrijpen ze echt hoe het menselijk lichaam veroudert, of zijn ze gewoon heel goed in het raden van antwoorden op basis van wat ze eerder hebben gelezen?

Dit is precies wat de onderzoekers van Insilico Medicine hebben willen testen met hun nieuwe proef: LongevityBench.

De "Rijbewijstest" voor AI

Stel je voor dat je een nieuwe chauffeur wilt aannemen. Je kunt niet alleen kijken naar hoe mooi hij zijn auto poets (hoe goed hij praat), je moet hem ook laten rijden in regen, sneeuw en op een smalle bergweg.

LongevityBench is die rijbewijstest voor AI. In plaats van te kijken of een robot een mooi verhaal kan schrijven over ouderdom, geven ze hem echte, moeilijke puzzels uit de biologie:

"Kijk naar deze bloedwaarden en zeg me: over hoeveel jaar zal deze persoon waarschijnlijk overlijden?"
"Dit DNA-methyleringsprofiel (een soort chemische 'tijdstempel' op je DNA) hoort bij iemand van 20 of 80?"
"Als we dit ene gen in een muis uitschakelen, leeft hij dan langer of korter?"

De onderzoekers hebben 30.000 van deze puzzels gemaakt, gebaseerd op echte medische data van mensen en dieren. Ze hebben 15 van de slimste AI's ter wereld (zoals de nieuwste versies van GPT, Gemini, Claude en Grok) deze test laten doen.

De resultaten: Een mix van talent en blinde vlekken

Het resultaat is een beetje zoals een schoolrapport waar sommige leerlingen briljant zijn in wiskunde, maar faal in geschiedenis, en vice versa.

De winnaars: De modellen van Google (Gemini 3 Pro) en OpenAI (GPT-5) deden het over het algemeen het beste. Ze konden vaak goed inschatten of iemand lang zou leven op basis van medische dossiers.
De verrassingen: Soms was een AI heel goed in het voorspellen van overlijden op basis van bloedtesten, maar kon hij totaal niet zeggen welk van twee mensen ouder was op basis van hun genen. Het is alsof een student perfect kan rekenen, maar als je hem vraagt om een kaart te lezen, verdwaalt hij.
De valkuil (De "Gokker"): Een groot probleem dat ze ontdekten, is dat de AI's soms te voorzichtig zijn. Als ze een ziekte zien in een medisch dossier, denken ze direct: "Oh, dit is gevaarlijk, deze persoon gaat snel dood." Ze vergeten vaak dat mensen ziektes kunnen overwinnen of dat ze nog tientallen jaren kunnen leven. Ze "krompen" hun voorspellingen naar een gemiddelde, in plaats van de echte, soms lange levensduur te zien.

De "Spiegel" van de vraag

Een van de meest interessante ontdekkingen is dat de AI's geen echt inzicht hebben, maar vooral heel goed zijn in het herkennen van de vorm van de vraag.

Vraag je: "Wie leeft langer, A of B?" (een vergelijking), dan doet een AI het soms slecht.
Vraag je: "Hoe oud is A?" (een schatting), dan doet dezelfde AI het plotseling veel beter.

Dit is alsof je een robot vraagt: "Is de lucht blauw?" en hij zegt "Ja". Vraag je dan: "Is de lucht groen?" en hij zegt "Nee". Maar als je vraagt: "Wat is de kleur van de lucht?", dan twijfelt hij misschien. De AI's lijken de antwoorden te kennen, maar niet het concept van ouderdom zelf. Ze zijn als een zeer slimme acteur die rollen speelt, maar niet echt begrijpt waarom de personages in het verhaal oud worden.

Wat betekent dit voor de toekomst?

De boodschap van dit onderzoek is niet dat AI nutteloos is voor ouderdomsonderzoek. Integendeel! Het is een krachtig hulpmiddel. Maar het is nog geen dokter.

Gebruik het als een assistent: Laat de AI ideeën genereren of helpen met het schrijven van code.
Vertrouw het niet blindelings: Als een AI zegt dat een patiënt over 2 jaar doodgaat, moet een menselijke arts altijd zeggen: "Wacht even, laten we dat nog eens checken."

De onderzoekers hopen dat deze test (LongevityBench) ervoor zorgt dat AI-bedrijven hun modellen gaan trainen om de echte logica van het leven te begrijpen, in plaats van alleen maar patronen te raden. Ze willen dat de AI's in de toekomst niet alleen slimme praters zijn, maar echte partners in het vinden van manieren om ouderdom te vertragen.

Kortom: De AI's zijn slim, maar ze zijn nog niet volwassen genoeg om de complexe reis van het ouder worden volledig te doorgronden. Ze hebben nog wat meer "levenservaring" nodig voordat ze echt mee kunnen denken met de beste biologen ter wereld.

Longevity Bench: Are SotA LLMs ready for aging research?

De "Rijbewijstest" voor AI

De resultaten: Een mix van talent en blinde vlekken

De "Spiegel" van de vraag

Wat betekent dit voor de toekomst?

Titel: LongevityBench: Zijn State-of-the-Art LLM's klaar voor verouderingsonderzoek?

1. Het Probleem

2. Methodologie

3. Belangrijkste Resultaten

4. Belangrijkste Bijdragen

5. Significantie en Conclusie

Longevity Bench: Are SotA LLMs ready for aging research?

De "Rijbewijstest" voor AI

De resultaten: Een mix van talent en blinde vlekken

De "Spiegel" van de vraag

Wat betekent dit voor de toekomst?

Titel: LongevityBench: Zijn State-of-the-Art LLM's klaar voor verouderingsonderzoek?

1. Het Probleem

2. Methodologie

3. Belangrijkste Resultaten

4. Belangrijkste Bijdragen

5. Significantie en Conclusie

Meer zoals dit

Functional-space alignment resolves the eco-evolutionary landscape of siderophore biosynthesis across bacteria

Exploring molecular signatures of senescence with markeR, an R toolkit for evaluating gene sets as phenotypic markers

TFBindFormer: A Cross-Attention Transformer for Transcription Factor-DNA Binding Prediction

TSvelo: Comprehensive RNA velocity by modeling cascade of gene regulation, transcription and splicing

From Movement to METs: A Validation of ActTrust(R) for Energy Expenditure Estimation and Physical Activity Classification in Young Adults