Performance Characteristics of Reasoning Large Language Models for Evidence Extraction from Clinical Genomics Literature

Dit onderzoek toont aan dat redenerende grote taalmodellen de automatische extractie van klinisch genetisch bewijs (PS4) uit literatuur met hoge nauwkeurigheid kunnen ondersteunen, hoewel prestaties model- en promptafhankelijk zijn en fouten vaak voortkomen uit het incorrect toepassen van richtlijnen, wat een hybride workflow met menselijke escalatie vereist.

Murugan, M., Yuan, B., Stephen, J., Gijavanekar, C., Xu, S., Kadirvel, S., Rivera-Munoz, E. A., Manita, V., Delca, F., Gibbs, R. A., Venner, E.

Gepubliceerd 2026-02-19
📖 3 min leestijd☕ Koffiepauze-leesvoer
⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek hebt vol met duizenden boeken over menselijk DNA. In deze boeken staan verhalen over mensen die ziek zijn geworden door een klein foutje in hun genen (een "variant"). Om te weten of een bepaald foutje echt gevaarlijk is, moeten artsen en onderzoekers deze boeken doorzoeken en tellen: "Hoeveel mensen met dit foutje zijn er ziek, en hoeveel mensen met hetzelfde foutje zijn er gezond?"

Dit is als het zoeken naar een naald in een hooiberg, maar dan met een extra moeilijkheid: je moet niet alleen de naald vinden, maar ook precies tellen hoeveel er zijn, volgens een heel streng en complex regelsboek (de ACMG/AMP-richtlijnen). Tot nu toe moesten mensen dit handmatig doen, wat extreem tijdrovend is en vaak vastloopt.

Wat hebben de onderzoekers gedaan?
Ze hebben geprobeerd om slimme computerprogramma's, zogenaamde "Redenerende AI's" (Large Language Models), in te zetten als digitale bibliothecarissen. Ze hebben vijf van de slimste AI's ter wereld getest (zoals Gemini, GPT-5 en Claude) om te zien of ze dit moeilijke werk kunnen overnemen.

Hoe hebben ze het getest?
Stel je voor dat je vijf verschillende detectives (de AI's) een dossier geeft met 281 verhalen uit wetenschappelijke boeken. Hun opdracht was tweeledig:

  1. De zoektocht: Vinden ze het juiste genetische foutje in het verhaal?
  2. De telling: Kunnen ze precies tellen hoeveel mensen in dat verhaal ziek zijn, volgens de strenge regels?

Wat was het resultaat?
De resultaten waren verrassend goed, maar met een kleine hapering:

  • Het zoeken: De AI's waren uitstekend in het vinden van het juiste foutje. Ze vonden het in bijna 94% tot 98% van de gevallen. Dit is alsof ze in een berg boeken direct de juiste pagina vinden.
  • Het tellen: Hier werd het lastiger. De beste AI's (Gemini 2.5 Pro en GPT-5) hadden het in 90% van de gevallen precies goed. Ze konden het regelsboek goed toepassen om te bepalen wie er meetelde voor de telling.
  • De foutjes: Waar de AI's vastliepen, was niet bij het vinden van de woorden, maar bij het begrijpen van de context. Soms keken ze niet goed genoeg naar de familiegeschiedenis of de specifieke ziekteverschijnselen, waardoor ze iemand telden die eigenlijk niet mee mocht, of iemand over het hoofd zagen. Het is alsof een AI een recept volgt, maar vergeet te kijken of de ingrediënten vers zijn.

Wat betekent dit voor de toekomst?
De conclusie is dat deze slimme AI's geen perfecte vervangers zijn voor menselijke experts, maar wel fantastische assistenten.

Je kunt het vergelijken met een kookteam:

  • De AI is de snelle kok die alle ingrediënten (de bewijzen) uit de boeken haalt en in een kom doet.
  • De menselijke expert is de chef-kok die de kom controleert, de smaak proeft en beslist of het gerecht (de diagnose) veilig is om te serveren.

Door de AI te gebruiken, gaat het werk van het zoeken en tellen veel sneller. De menselijke expert hoeft niet meer uren te zoeken, maar kan zich focussen op het controleren van de moeilijke gevallen. Dit maakt het proces van het diagnosticeren van zeldzame ziekten veel sneller en efficiënter, zonder dat de kwaliteit in gevaar komt.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →