Oorspronkelijke auteurs: Liqi Zhou, Jiafu Li

Gepubliceerd 2026-05-18✓ Author reviewed ⓘ

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Liqi Zhou, Jiafu Li

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ⚕️ Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Stel je een drukke spoedeisende hulpafdeling in een ziekenhuis voor, maar in plaats van dat mensen door de deur lopen, typen duizenden mensen vragen in op een computerscherm. Sommigen vragen over een milde verkoudheid, anderen moeten een routineafspraak met een arts maken, sommigen hebben symptomen die binnen een dag aandacht van een arts vereisen, en een paar hebben levensbedreigende noodgevallen.

De uitdaging voor het ziekenhuis is: Hoe sorteer je deze duizenden berichten snel en veilig zonder dat een mens elk één voor één leest?

Dit artikel is als een proefrit voor een nieuw soort "digitale sorter" met behulp van Kunstmatige Intelligentie (KI). Hier is de uiteenzetting van wat ze deden en wat ze vonden, met eenvoudige analogieën.

Het Probleem: De "Ruizige" Postvak

Online berichten van patiënten zijn rommelig. Mensen spreken niet als artsen; ze schrijven als vrienden. Ze kunnen vergeten te vermelden hoe lang ze al ziek zijn, hoe erg de pijn is, of of ze andere gezondheidsproblemen hebben.

Het Doel: Sorteer deze berichten in vier bakken:
1. Zelfzorg: "Blijf thuis, drink thee, het komt wel goed."
2. Maak een afspraak: "Maak een afspraak voor volgende week."
3. Dringende beoordeling: "Bel vandaag of morgen een arts."
4. Noodgeval: "Bel 112 of ga direct naar de spoedeisende hulp."

Het Experiment: De "Leraar" versus de "Slimme Leerling"

De onderzoekers wilden zien of nieuwe, krachtige KI-modellen (zogenaamde Large Language Models of LLM's) deze sortering beter konden uitvoeren dan oudere, eenvoudigere computerprogramma's, vooral wanneer ze niet over een enorme stapel vooraf gelabelde voorbeelden beschikten om van te leren.

De Oude Weg (Supervised Models): Stel je een leerling voor die 700 specifieke voorbeelden van patiëntenberichten en hun antwoorden moet memoriseren om de regels te leren. Ze worden getraind op "zilveren labels" (antwoorden gegenereerd door een KI, niet door een menselijke arts).
De Nieuwe Weg (Prompted LLMs): Stel je een zeer slimme leerling voor die miljoenen boeken heeft gelezen. In plaats van 700 voorbeelden te memoriseren, geef je ze gewoon een paar regels en een paar voorbeelden (zogenaamd "few-shot prompting") en vraag je: "Hier is een nieuw bericht; waar hoort dit bij?"

De Resultaten: Wie Won de Wedstrijd?

1. De "Slimme Leerling" (LLM's) deed het beter, maar niet met een overduidelijke voorsprong.
Het beste KI-model (Claude Haiku 4.5) kreeg ongeveer 47,5% van de antwoorden goed toen het 12 voorbeelden kreeg om van te leren. Het beste model van de "Oude Weg" (BioBERT) kreeg ongeveer 37,8% goed.

De Haken en Ogen: Het verschil was niet groot genoeg om te zeggen dat de nieuwe KI zeker "beter" is in statistische zin; hun scores overlapten. Het is alsof twee renners een wedstrijd lopen waarbij de ene iets voorloopt, maar het gat zo klein is dat je niet 100% zeker kunt zijn wie sneller is zonder het opnieuw te doen.

2. De "Veiligheidsscore" is belangrijker dan het "Cijfer".
Bij een sorteringstaak is het erger om een brand te missen (Noodgeval) dan om een niet-noodgeval naar de brandweer te sturen (Over-triage).

De onderzoekers ontdekten dat hoewel de KI-modellen beter werden in het algemene "cijfer" (Macro-F1), ze veel beter waren op het gebied van veiligheid.
De KI-modellen misten bijna nooit een echt noodgeval (Ernstige Under-triage was 0% in de test), terwijl de oudere modellen ongeveer 30% van de tijd gevaarlijke gevallen misten.
Analogie: De KI is als een beveiligingsagent die iets trager is in het controleren van ID's, maar veel beter in het opsporen van een echte bedreiging.

3. Het "Verwarrende Midden" is nog steeds moeilijk.
De KI was geweldig in het opsporen van "Zelfzorg" (makkelijk) en "Noodgeval" (duidelijk). Maar het had moeite met het middengebied: "Dringende beoordeling door een klinisch specialist".

Analogie: Het is makkelijk om het verschil te zien tussen een snijwond en een hartaanval. Het is zeer moeilijk om het verschil te zien tussen een slechte maagpijn die morgen een arts nodig heeft versus een die een week kan wachten. Zelfs de slimste KI raakte hier in de war.

4. De "Twee-Koppige" Strategie (Consensus)
De onderzoekers probeerden een slimme truc: Wat als ze twee verschillende KI-modellen gebruikten om de berichten te sorteren?

Als beide KI's het eens zijn: "Oké, we denken allebei dat dit 'Zelfzorg' is. Laten we het accepteren." (Dit werkte zeer goed).
Als de KI's het oneens zijn: "We kunnen het niet eens worden. Laten we dit naar een menselijke arts sturen om te bekijken."
Het Resultaat: Deze "Twee-Koppige" aanpak creëerde een veiligheidsnet. Het betekende niet dat de KI alleen kon werken; het betekende dat de KI kon fungeren als een filter om mensen te helpen zich te concentreren op de lastige gevallen.

De Conclusie: Een Behulpzame Assistent, Geen Vervanging

Het artikel concludeert dat deze KI-modellen niet klaar zijn om alleen te werken. Ze zijn geen "autonome" artsen.

In plaats daarvan, zie ze als een hightech verpleegkundige-assistent voor triage:

Ze kunnen de makkelijke "zelfzorg"-vragen snel sorteren.
Ze kunnen de voor de hand liggende noodgevallen markeren zodat niemand ze mist.
Maar voor de verwarrende, middengebied-gevallen moeten ze het bericht altijd doorgeven aan een menselijke arts.

Kortom: De KI is een geweldig hulpmiddel om mensen te helpen hun werkdruk te prioriteren, maar het mag nooit de eindbeslissende factor zijn voor patiëntveiligheid.

Technische Samenvatting: Few-Shot Large Language Models voor Actievere Triage-Categorisatie van Online Patiëntvragen

Probleemstelling

Online patiëntvragen op gezondheidsplatforms zijn doorgaans informeel, onvolledig en worden gesteld voordat er een professionele beoordeling heeft plaatsgevonden. Ondanks deze beperkingen vereisen zorgsystemen schaalbare methoden om deze berichten naar een geschikt niveau van klinische opvolging te routeren. Deze studie formuleert het probleem als een vierklassige actievere triage-taak, die verschilt van het genereren van diagnoses of algemene medische tekstclassificatie. Het doel is om aan elke patiëntvraag precies één van vier routeringslabels toe te wijzen:

Zelfzorg: Beheersbaar thuis zonder klinisch contact.
Afspraak plannen: Vereist niet-dringende beoordeling door een clinicus (dagen tot weken).
Dringende clinicusbeoordeling: Vereist tijdige beoordeling binnen 24–48 uur.
Spoedverwijzing: Vereist onmiddellijke spoedbeoordeling.

De taak is uitdagend vanwege het ontbreken van belangrijke klinische details (duur, ernst, vitale functies) in door patiënten geschreven tekst, de zeldzaamheid van gevallen met hoge urgentie, en de klinische asymmetrie van fouten waarbij onderschatting (het missen van een dringende casus) gevaarlijker is dan overschatting.

Methodologie

Dataverzameling

De studie maakt gebruik van het HealthCareMagic-100K-corpus, een openbare dataset van geanonimiseerde uitwisselingen tussen patiënten en artsen.

Preprocessing: Records werden gefilterd om berichten met minder dan 20 tokens of meer dan 500 tokens te verwijderen, waardoor 110.163 bruikbare berichten overbleven.
Gestratificeerde Steekproef: Om klassenonevenwicht aan te pakken (specifiek de schaarste aan spoedgevallen) werd een op trefwoorden gebaseerde gestratificeerde steekproefstrategie toegepast. Records werden gescoord op basis van spoed-trefwoorden en escalatiezinnen van artsen, waarna ze werden toegewezen aan bakken (zelfzorg, afspraak plannen, dringend, spoed) om de werkende pool te verrijken met vragen met hogere urgentie.
Dataverdelingen: Uit een werkende pool van 1.040 records werden drie disjuncte sets gemaakt:
- Zilveren Trainingsset (N=700): Automatisch gelabeld door Claude Sonnet 4.5. Gebruikt voor het trainen van supervised baselines.
- Gouden Evaluatieset (N=300): Menselijk gekalibreerd door twee onderzoekers met behulp van een verfijnde annotatiegids. Gebruikt voor de definitieve evaluatie.
- Few-Shot Pool (N=40): Hoogbetrouwbare, menselijk geverifieerde voorbeelden gebruikt voor demonstraties van in-context learning.

Annotatie en Labeling

Een gestructureerde annotatiegids werd ontwikkeld via een pilot met twee personen en zes rondes van verfijning. Deze legt de nadruk op "triage uitsluitend op basis van tekst", onderscheidt actieve symptomen van informatieve vragen, en past lagere drempels toe voor kwetsbare populaties.

Zilveren Labels: gegenereerd door Claude Sonnet 4.5.
Gouden Kalibratie: Menselijke reviewers vergeleken hun onafhankelijke labels met de initiële Sonnet-labels. Voor de gouden set werden 38% van de labels herzien, wat resulteerde in een Cohen's $\kappa$ van 0,35 tussen Sonnet en mens, wat de noodzaak van menselijke kalibratie onderstreept.

Experimentele Opstelling

De studie vergelijkt supervised baselines met geprompte Large Language Models (LLM's) onder low-resource omstandigheden.

Supervised Baselines:
- TF-IDF: Logistische regressie, Random Forest en XGBoost getraind op de zilveren set van 700 records.
- BioBERT: BioBERT-v1.1 fijngefineerd op de zilveren set.
- Opmerking: Zowel "standaard" (volledige 700 voorbeelden) als "gebalanceerde" (downgesampled naar 91 voorbeelden per klasse) trainingscondities werden geëvalueerd.
Geprompte LLM's: Zes modellen (Llama3.1-8B, Qwen3-8B, Mistral-7B, DeepSeek-R1-7B, GPT-4o-mini, Claude Haiku 4.5) geëvalueerd zonder parameterupdates.
Prompting-condities: Modellen werden getest onder 0-shot, 4-shot (één voorbeeld per klasse) en 12-shot (drie voorbeelden per klasse) instellingen.

Evaluatiemetrics

Primaire Metric: Macro-F1 (om rekening te houden met klassenonevenwicht).
Veiligheidsbewuste Metrics: Recall voor spoed, recall voor dringend of hoger, onderschattingsrate (voorspellen van een lagere ernst dan de werkelijkheid), en ernstige onderschattingsrate (gaping van $\ge$ 2 niveaus).
Consensusanalyse: Een oracle Human-in-the-Loop (HITL)-simulatie waarbij voorspellingen automatisch worden geaccepteerd alleen als twee modellen overeenkomen; anders worden gevallen doorgestuurd naar menselijke beoordeling.

Belangrijkste Resultaten

Classificatieprestaties

Supervised Baselines: De sterkste supervised baseline was BioBERT-v1.1 (standaard) met een macro-F1 van 0,378. De prestaties waren opvallend zwak voor de klasse spoedverwijzing (F1 $\approx$ 0,26).
LLM-prestaties: Few-shot prompting verbeterde de prestaties. Het sterkste model, Claude Haiku 4.5 (12-shot), behaalde een macro-F1 van 0,475. Andere top-presteerders waren Llama3.1-8B (0,464) en Qwen3-8B (0,444).
Statistische Significantie: Hoewel LLM's de baselines overtroffen in puntinschattingen, overlapten de betrouwbaarheidsintervallen. McNemar-tests gaven aan dat alleen Llama3.1-8B significant beter was dan BioBERT-v1.1; de top-LLM's waren niet significant verschillend van elkaar.

Klassespecifieke en Veiligheidsprestaties

Klasse-moeilijkheid: "Zelfzorg" was de makkelijkste klasse voor LLM's (F1 > 0,65). "Dringende clinicusbeoordeling" bleef de moeilijkste klasse voor alle modellen (F1 < 0,35), wat de ambiguïteit van gevallen met intermediaire urgentie weerspiegelt.
Veiligheidsmetrics: LLM's vertoonden een superieur veiligheidsprofiel vergeleken met supervised baselines.
- Onderschatting: Alle top-LLM-configuraties behaalden een ernstige onderschattingsrate van 0,000 op de gouden set, terwijl supervised baselines varieerden van 0,269 tot 0,308.
- Recall: GPT-4o-mini (12-shot) behaalde de hoogste recall voor dringend of hoger (0,984) en de laagste onderschattingsrate (0,053), ondanks een lagere macro-F1 dan Claude Haiku 4.5.

Promptgevoeligheid en Consensus

Promptgevoeligheid: Prestatiewinst door few-shot prompting was niet monotoon of uniform. Terwijl Claude Haiku 4.5 monotoon verbeterde met meer shots, piekte Qwen3-8B bij 4-shot, en presteerde Llama3.1-8B slechter bij 4-shot dan bij 0-shot.
Twee-Model Consensus: Overeenstemming tussen modellen was sterk label-afhankelijk.
- Zelfzorg: Hoge betrouwbaarheid van overeenstemming (consensusnauwkeurigheid > 90%).
- Dringende clinicusbeoordeling: Lage betrouwbaarheid van overeenstemming (consensusnauwkeurigheid $\approx$ 25%).
- Oracle-HITL: Het simuleren van een workflow waarbij meningsverschillen worden doorgestuurd naar mensen leverde een theoretische macro-F1 op van maximaal 0,708 (GPT-4o-mini + Llama3.1-8B), wat wijst op significant potentieel voor besluitvormingsondersteuning.

Betekenis en Aanspraken

Het artikel concludeert dat geprompte LLM's triage-prioritering en selectieve menselijke beoordeling kunnen ondersteunen, maar niet klaar zijn voor autonoom gebruik.

Besluitvormingsondersteuning, geen Vervanging: De auteurs betogen dat de waarde van LLM's ligt in hun vermogen om vrije-tekstsymptomen te interpreteren en complexe richtlijnen te volgen zonder taak-specifieke fijnafstemming. Echter, de aanhoudende moeilijkheid bij het classificeren van gevallen van "dringende clinicusbeoordeling" en het risico op onderschatting in hoog-risico scenario's sluiten autonome routering uit.
Workflow-integratie: De studie stelt een strategie voor selectieve voorspelling voor waarbij LLM's lage-risico "zelfzorg"-overeenkomsten afhandelen (die betrouwbaar zijn) en hoge-risico of onzekere gevallen markeren voor menselijke beoordeling.
Veiligheidsbewuste Evaluatie: Het artikel benadrukt dat geaggregeerde metrics zoals macro-F1 kritieke veiligheidsafwegingen verbergen. Modellen met lagere F1-scores kunnen preferabel zijn als ze onderschatting minimaliseren, een bevinding die veiligheidsbewuste evaluatiekaders in klinische NLP noodzakelijk maakt.
Beperkingen: De auteurs erkennen beperkingen, waaronder het gebruik van een enkel openbaar corpus, de bescheiden omvang van de gouden set (met name voor spoedgevallen), de afhankelijkheid van zilveren labels voor supervised training, en het offline karakter van de evaluatie. Zij stellen dat prospectieve validatie met clinische reviewers vereist is voordat claims over werkdrukvermindering of veiligheid kunnen worden gedaan.

Kortom, dit werk biedt een rigoureuze benchmark voor LLM's in online patiënttriage, en toont aan dat terwijl few-shot LLM's traditionele supervised baselines overtreffen in low-resource omgevingen, hun inzet strikt begrensd moet worden door menselijk toezicht en label-afhankelijke vertrouwenssignalen.

Few-Shot Large Language Models for Actionable Triage Categorization of Online Patient Inquiries