SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: SemioLLM – Hoe slimme computers leren epilepsie te "lezen" uit verhalen

Stel je voor dat een arts een patiënt moet diagnosticeren, maar in plaats van een strakke lijst met symptomen te krijgen, krijgt hij een lang, rommelig verhaal. De patiënt zegt: "Het begon met een vreemd gevoel in mijn maag, toen zag ik vlammetjes en daarna trilde mijn linkerhand."

Vroeger was het heel moeilijk voor computers om uit zo'n verhaal de juiste diagnose te halen. Maar nu hebben we Grote Taalmodellen (LLMs), zoals de slimme AI's die ook ChatGPT aandrijven. De vraag is: Kunnen deze computers net zo goed als een mens een diagnose stellen op basis van zo'n verwarrend verhaal?

Deze studie, genaamd SemioLLM, heeft acht verschillende AI-modellen getest om te zien of ze kunnen raden waar in het brein een epileptische aanval begint, puur op basis van de beschrijving van de symptomen.

Hier is hoe het werkt, vertaald in alledaagse taal:

1. De Uitdaging: Het "Dolfinen-Verhaal"

Epilepsie-aanvallen hebben een eigen taal. Artsen noemen dit semiologie. Een bepaalde beweging (bijv. kauwen) kan betekenen dat de aanval in de slaapkwab begint, terwijl een andere (bijv. trillen van de benen) wijst op het voorhoofdskwab.

Het probleem: De meeste AI-tests gebruiken simpele vragen en antwoorden (zoals een meerkeuzetoets). Maar in het echte leven zijn patiënten geen meerkeuzevragen. Ze vertellen verhalen.
De missie: De onderzoekers wilden weten of AI's die "verhalen" kunnen lezen en begrijpen, net zo goed zijn als een neuroloog.

2. De Test: Acht Computers in de Ring

De onderzoekers gaven acht verschillende AI-modellen (waaronder de bekende GPT-4, maar ook open-source modellen) 1.200 echte patiëntverhalen. De taak was simpel maar lastig:

Lees het verhaal.
Raad: In welk van de 7 hoofdgebieden van het brein begon de aanval?
Geef een kans: Hoe zeker ben je van je antwoord?

3. De Resultaten: Van "Gokken" naar "Expert"

In het begin, zonder extra instructies, deden de meeste AI's het net iets beter dan raden (alsof je een munt opgooit). Maar toen deden de onderzoekers iets slimme: Prompt Engineering.

Stel je voor dat je een stagiair vraagt: "Raad eens waar de aanval begon." Dat gaat vaak mis.
Maar als je zegt: "Je bent nu een ervaren neuroloog. Denk stap voor stap na, leg uit waarom je tot die conclusie komt, en gebruik je kennis van de hersenen," dan verandert het spel.

De "Chain-of-Thought" (Denk-stappen): Toen de AI's werden gevraagd om hun gedachtenproces uit te leggen (net als een mens die hardop denkt), werden ze veel beter.
De "Verkleedpartij": Als je de AI vraagt om zich voor te doen als een epilepsie-expert, presteert hij veel beter dan als hij zich voor doet als een algemene assistent. Het is alsof je een acteur vraagt om een rol te spelen; als hij zich echt in de rol van dokter inleeft, wordt hij slimmer.

De winnaars:

GPT-4 en Mixtral deden het het beste. Met de juiste instructies waren ze net zo goed als de menselijke artsen die in de test meededen.
Let op: Soms gaf de AI het juiste antwoord, maar was de redenatie die hij gaf "uit de lucht gegrepen" (hallucinaties). Hij had het juiste antwoord, maar de verkeerde reden. Dit is gevaarlijk in de geneeskunde.

4. Interessante Ontdekkingen (De "Aha!"-momenten)

Korte en Lange Verhalen zijn beter: De AI's deden het het beste bij heel korte beschrijvingen ("mijn hand trilde") en heel lange, gedetailleerde verhalen. Verhalen van gemiddelde lengte waren het lastigst. Misschien omdat korte verhalen duidelijk zijn en lange verhalen genoeg context geven, maar middellange verhalen verwarrend zijn?
Taal is een hindernis: De AI's waren getraind op Engels. Als je ze een verhaal gaf in het Frans of Chinees, maar de instructies in het Engels, deden ze het nog redelijk goed. Maar als alles (verhaal én instructies) in het Frans was, ging het mis. Ze hebben dus nog hulp nodig om in andere talen net zo goed te denken.
Zekerheid is niet altijd gelijk aan waarheid: Soms was de AI heel zeker van zijn fout. Net als een student die een fout antwoord geeft met een glimlach van vertrouwen. De onderzoekers moesten dus ook kijken of de AI zijn eigen zekerheid goed inschatte.

5. Waarom is dit belangrijk?

Dit onderzoek is een grote stap vooruit. Het toont aan dat AI's niet alleen feiten kunnen opzoeken, maar ook verhalen kunnen analyseren om diagnoses te stellen.

Toekomst: Stel je voor dat een arts in een drukke praktijk een patiënt heeft die niet goed kan spreken of een verwarrend verhaal vertelt. Een AI-assistent kan dat verhaal direct "vertalen" naar een medisch advies: "Kijk eens naar de slaapkwab, de symptomen wijzen daarop."
De waarschuwing: We kunnen de AI nog niet blindelings vertrouwen. Ze kunnen fouten maken en soms "leugens" vertellen over waar ze hun kennis vandaan halen. Menselijke artsen moeten altijd de eindverantwoordelijkheid blijven dragen.

Kortom:
Deze studie laat zien dat AI's, als we ze de juiste instructies geven en hen laten "nadenken" als een dokter, uitstekend kunnen helpen bij het diagnosticeren van epilepsie op basis van patiëntverhalen. Het is alsof we een slimme student hebben die snel leert, maar die we nog steeds moeten controleren voordat hij de diagnose mag stellen.

SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy

1. De Uitdaging: Het "Dolfinen-Verhaal"

2. De Test: Acht Computers in de Ring

3. De Resultaten: Van "Gokken" naar "Expert"

4. Interessante Ontdekkingen (De "Aha!"-momenten)

5. Waarom is dit belangrijk?

Titel: SemioLLM: Evaluatie van Large Language Models voor Diagnostisch Redeneren op Basis van Ongestructureerde Klinische Narratieven bij Epilepsie

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy

1. De Uitdaging: Het "Dolfinen-Verhaal"

2. De Test: Acht Computers in de Ring

3. De Resultaten: Van "Gokken" naar "Expert"

4. Interessante Ontdekkingen (De "Aha!"-momenten)

5. Waarom is dit belangrijk?

Titel: SemioLLM: Evaluatie van Large Language Models voor Diagnostisch Redeneren op Basis van Ongestructureerde Klinische Narratieven bij Epilepsie

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit