Evaluating Large Language Models for Assessment of Psychosis Risk

⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Hoe slimme computers kunnen helpen bij het opsporen van psychosen (in gewone mensentaal)

Stel je voor dat je een zeer ervaren detective bent die moet zoeken naar een heel zeldzame, maar gevaarlijke "zieke geest" (een psychose) voordat deze echt losbreekt. Deze detective moet urenlang luisteren naar verhalen van mensen, waarbij hij op zoek gaat naar subtiele hints in wat ze zeggen. Het probleem? Er zijn maar heel weinig detectives die dit kunnen, en het kost ze enorm veel tijd. Daardoor worden veel mensen pas te laat ontdekt, wanneer de problemen al groot zijn.

In dit onderzoek hebben de auteurs een nieuw idee getest: kunnen we slimme computers (Large Language Models of LLM's) trainen om deze detective-taak over te nemen?

Hier is hoe ze het hebben aangepakt, vertaald naar een verhaal:

1. De Uitdaging: De "Noodhulp" voor de Detective

Psychosen beginnen vaak met een "waarschuwingsfase" (zogenaamde Clinical High Risk). Mensen hebben dan al vreemde gedachten of horen soms geluiden, maar het is nog niet volledig uit de hand gelopen. Als je ze nu helpt, kun je een ernstige crisis voorkomen.
Maar om iemand in deze fase te vinden, moet een specialist urenlang een gesprek voeren en elk woord analyseren. Dit is als het zoeken naar een speld in een hooiberg, maar dan met je ogen dicht. Er zijn te weinig specialisten en te veel mensen die hulp nodig hebben.

2. De Oplossing: De "Digitale Assistent"

De onderzoekers hebben 11 verschillende soorten "AI-detectives" (grote taalmodellen) getest. Ze gaven hen de transcripties (de geschreven versies) van echte gesprekken.

De taak: De computer moest lezen wat de persoon zei en vervolgens zeggen: "Is dit een teken van een psychose?" en "Hoe ernstig is het?"
De methode: Ze gaven de computers een soort "recept" (prompt) met duidelijke regels, net zoals een kok een recept volgt om een gerecht te maken. Ze vroegen de computer zelfs om uit te leggen waarom ze een bepaalde score gaven (zoals een detective die zijn bewijs opschrijft).

3. De Resultaten: Wie is de beste detective?

Ze testten de computers op 678 gesprekken. Hier kwamen interessante dingen naar boven:

De "Giganten" winnen (maar zijn zwaar): De grootste en slimste computers (zoals Llama-3.3-70B) waren het beste. Ze hadden een 80% kans om iemand met een risico correct te identificeren. Ze misten bijna niemand (ze waren heel voorzichtig), maar ze gaven soms ook wel eens een waarschuwing aan iemand die het niet nodig had (een "valse alarm").
- Analogie: Dit is als een zeer gevoelige rookmelder. Hij piept bij de kleinste rookwolkje, zelfs als het alleen maar een boterham is die verbrandt. Voor een dokter is het beter om een valse alarm te hebben dan om een echte brand te missen.
De "Kleintjes" verrassen: De kleinere computers waren ook verrassend goed. Ze waren niet perfect, maar ze deden het bijna net zo goed als de giganten, terwijl ze veel minder stroom en kracht nodig hadden.
- Analogie: Het is alsof je een kleine, wendbare scooter kunt gebruiken in plaats van een zware vrachtwagen om dezelfde boodschap te bezorgen. Soms is de scooter zelfs praktischer omdat hij makkelijker door smalle straatjes (beperkte computerkracht) past.
De "Hallucinaties" zijn zeldzaam: Een groot risico bij AI is dat ze dingen verzinnen (hallucineren). Gelukkig deden de computers dit maar in 3% van de gevallen. Als ze iets verzonnen, was het meestal dat ze iets te serieus namen (bijvoorbeeld: "Ik ben bang dat mijn buren mij haten" werd gezien als een teken van wantrouwen, terwijl het misschien gewoon een vervelende buurman was).

4. Is het eerlijk? (De "Rechtvaardigheids-Test")

De onderzoekers keken of de computers bepaalde groepen mensen (bijvoorbeeld jongeren, mensen van een andere etniciteit of uit een ander land) onterecht vaker of minder vaak als "risico" aanwezen.

Het goede nieuws: De computers waren vrij eerlijk. Ze maakten geen grote fouten op basis van leeftijd, geslacht of taal.
Het kleine probleem: De computers deden het soms iets anders in verschillende steden (bijvoorbeeld Londen vs. Melbourne). Dit komt waarschijnlijk doordat de gesprekken daar net iets anders verliepen, niet omdat de computer vooroordelen heeft.

5. Wat betekent dit voor de toekomst?

Dit onderzoek is als het vinden van een nieuwe, krachtige hulpkracht voor de psychiater.

De computer kan de eerste ronde van gesprekken lezen en een eerste inschatting geven.
De menselijke arts kijkt dan nog even mee ("mens-in-de-lus") om te bevestigen of het klopt.
Hierdoor kunnen veel meer mensen sneller hulp krijgen, zonder dat er duizenden nieuwe specialisten nodig zijn.

Kortom: De onderzoekers hebben bewezen dat slimme computers goed kunnen lezen tussen de regels door in gesprekken over mentale gezondheid. Ze zijn niet perfect, maar ze zijn een krachtig hulpmiddel om te voorkomen dat mensen in een psychotische crisis terechtkomen. Het is alsof we een extra paar ogen hebben gekregen om de waarschuwingssignalen eerder te zien.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De preventie van psychose is afhankelijk van de vroege detectie van individuen met een klinisch hoog risico op psychose (CHR-P). Hoewel gespecialiseerde diensten bestaan, is de detectiegraad laag (slechts 5-14% van degenen die later psychose ontwikkelen, worden in het CHR-P-stadium geïdentificeerd). De huidige standaard voor beoordeling, zoals de Structured Interview for Psychosis-Risk Syndromes (SIPS) of Comprehensive Assessment of At-Risk Mental States (CAARMS), vereist:

Specialistische expertise: Geavanceerde training om subtiele symptomen te interpreteren.
Tijdsintensief: Beoordelingen kunnen tot twee uur duren.
Subjektiviteit: Er is variatie tussen beoordelaars en instellingen, wat de reproduceerbaarheid en schaalbaarheid beperkt.

Er is een dringende behoefte aan gestandaardiseerde, reproduceerbare en schaalbare oplossingen om deze detectie te verbeteren.

Methodologie

De auteurs hebben een end-to-end pipeline ontwikkeld om 11 open-weight Large Language Models (LLMs) te evalueren voor het automatisch scoren van psychometrische interviewtranscripten.

Dataset: Gebruik van het Accelerating Medicines Partnership Schizophrenia (AMP-SCZ) dataset. Dit omvatte 678 gedeeltelijke transcripten (eerste 30 minuten) van PSYCHS-interviews van 373 deelnemers (77,7% met CHR-P).
Taak: De modellen moesten voor 15 symptoomdomeinen (bijv. ongebruikelijke gedachten, auditieve perceptuele afwijkingen) twee scores genereren:
- Ernst (severity) en frequentie (frequency) op een schaal van 0-6.
- Een korte, evidence-based samenvatting (rationale) voor de score.
Modellen: 11 open-weight LLMs met verschillende groottes (van 1B tot 80B parameters), waaronder Llama-3.3-70B, Qwen3-Next-80B, gemma-3n en medgemma.
Prompting Strategie:
- Gebruik van Chain-of-Thought (CoT) prompting om systematische redenering te stimuleren.
- Strikte instructies om scores uitsluitend te baseren op expliciete bewijsvoering in de tekst.
- Output in een gestructureerd JSON-formaat.
- Automatische validatie en "repair"-procedures voor formatfouten.
Validatie: De LLM-scores werden vergeleken met door onderzoekers beoordeelde scores (ground truth).
Evaluatiematen:
- Classificatie: Nauwkeurigheid, sensitiviteit, specificiteit, F1-score en MCC voor het detecteren van CHR-P-status.
- Regressie: Pearson-correlatie ( $r$ ) en Intraclass Correlation Coefficient (ICC) voor ernst en frequentie.
- Fairness: Analyse van demografische pariteit en gelijke kansen (equalised odds) over leeftijd, etniciteit, taal, geslacht en locatie.
- Kwaliteit: Menselijke evaluatie van gegenereerde samenvattingen op nauwkeurigheid, hallucinaties (confabulaties) en veiligheidsrisico's.
- Efficiëntie: Trade-off tussen prestaties (F1-score) en rekencosts (GPU-geheugengebruik en token-generatiesnelheid).

Belangrijkste Resultaten

Classificatieprestaties (CHR-P Detectie):
- Prestaties verbeterden met modelgrootte. Het grootste model, Llama-3.3-70B, behaalde de beste resultaten met een nauwkeurigheid van 0,80, een sensitiviteit van 0,93 en een specificiteit van 0,58.
- De hoge sensitiviteit impliceert dat modellen neigen om symptomen te overschatten (minder vals-negatieven, maar meer vals-positieven), wat in een screeningscontext acceptabel wordt geacht om late detectie te voorkomen.
- Kleinere modellen (<10B) presteerden competitief, maar met lagere specificiteit.
Symptoomscoren (Ernst en Frequentie):
- Er was een sterke correlatie tussen LLM-scores en onderzoekerscores. Voor de beste modellen (Llama-3.3-70B en Qwen3-Next-80B) waren de ICC-waarden voor ernst en frequentie respectievelijk 0,74 en 0,75.
- De prestaties varieerden per symptoomdomein: sterke prestaties bij auditieve en visuele perceptuele afwijkingen, maar zwakkere prestaties bij somatische perceptuele afwijkingen en erotomane ideeën.
- Systematische fouten toonden een neiging tot overschatting bij lage scores.
Algorithmische Fairness:
- Er waren kleine verschillen in prestaties over leeftijd, etniciteit, moedertaal en geslacht.
- Locatieverschillen waren echter opvallender, wat waarschijnlijk wijst op heterogeniteit in interviewstijlen of rekruteringsstrategieën tussen de verschillende onderzoekscentra, eerder dan een inherente bias van het model.
Kwaliteit van Samenvattingen en Foutanalyse:
- Nauwkeurigheid: 93,3% van de samenvattingen vertegenwoordigde de inhoud volledig.
- Hallucinaties: Confabulaties (het verzinnen van symptomen die niet in de tekst stonden) kwamen voor in slechts 2,7% van de rapporten, vaak gerelateerd aan het aannemen van distress of functionele beperking zonder expliciete bewijsvoering.
- Veiligheid: Geen enkele samenvatting liet veiligheidsrisico's (zelf- of andergerichte schade) vallen.
- Foutpatronen: De meeste fouten bestonden uit het "pathologiseren" van normale menselijke ervaringen (bijv. wantrouwen als reactie op een negatieve ervaring) of het overschatten van symptomen die in een ander interviewdomein werden besproken.
Rekenkracht vs. Prestatie:
- Er is een duidelijke afweging: grotere modellen leveren betere prestaties maar vereisen aanzienlijk meer GPU-geheugen en genereren langzamere tokens.
- Het model gemma-3n-E4B-it werd geïdentificeerd als een veelbelovende kandidaat voor implementatie, omdat het een goede balans bood tussen hoge F1-scores en lage geheugeneisen (21 GB) met een hoge doorvoer.

Bijdragen en Betekenis

Technische Innovatie: Dit is de eerste studie die systematisch open-weight LLMs evalueert voor gestructureerde risicobeoordeling van psychose op basis van psychometrische transcripten.
Schaalbaarheid: De resultaten tonen aan dat LLMs potentieel hebben om de schaalbaarheid van CHR-P-detectie te vergroten, waardoor specialistische tijd kan worden vrijgemaakt voor complexere gevallen.
Human-in-the-loop: De studie bepleit een hybride aanpak waarbij LLMs voorlopige scores en samenvattingen genereren die door klinici worden gecontroleerd. Dit verhoogt de reproduceerbaarheid en vermindert de variatie tussen beoordelaars.
Privacy en Ethiek: Door gebruik te maken van lokaal gehoste open-weight modellen, worden privacyzorgen rondom het verzenden van gevoelige psychiatrische data naar externe API's vermeden.
Beperkingen en Toekomst: De studie erkent beperkingen zoals het gebruik van alleen Engelstalige data, het beperkte aantal transcripten voor fine-tuning, en het feit dat de "ground truth" zelf subjectief kan zijn. Toekomstig werk moet zich richten op lokale aanpassing van prompts om locatieverschillen te verminderen en het testen van "reasoning"-modellen.

Conclusie: Open-weight LLMs kunnen klinisch betekenisvolle informatie uit interviewtranscripten extraheren en scoren met een nauwkeurigheid die dicht bij die van gespecialiseerde onderzoekers ligt. Ze bieden een haalbare route naar schaalbare, vroege detectie van psychose binnen een mens-in-de-lus kader.

Evaluating Large Language Models for Assessment of Psychosis Risk

1. De Uitdaging: De "Noodhulp" voor de Detective

2. De Oplossing: De "Digitale Assistent"

3. De Resultaten: Wie is de beste detective?

4. Is het eerlijk? (De "Rechtvaardigheids-Test")

5. Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen en Betekenis

Meer zoals dit

Age-dependent acceleration of structural brain aging in medication-free major depressive disorder linked to neuroanatomical phenotype findings from COORDINATE-MDD consortium

Associations between corticolimbic glutamatergic metabolites and functional connectivity in people at clinical high-risk for psychosis

Digital journaling enables privacy-preserving behavioral phenotyping and real-time risk monitoring at scale

Experiential acceptance during an episode of anxiety: Conceptualizing the process of acceptance through a qualitative study

Measurement Equivalence of the ASRS Across the Adult Lifespan: A Differential Item Functioning Analysis