Validation of a Small Language Model for DSM-5 Substance Category Classification in Child Welfare Records

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Een slimme, lokale 'digitale assistent' die drugsproblemen in kinderzorg-dossiers herkent

Stel je voor dat kinderzorgmedewerkers elke dag enorme stapels papieren dossiers maken. In deze dossiers schrijven ze verhalen over gezinnen die hulp nodig hebben. Vaak staat er in die verhalen: "De vader had gedronken" of "Er was sprake van drugsgebruik". Maar tot nu toe konden computers die papieren niet echt 'lezen'. Ze zagen alleen een vinkje: "Ja, er is een probleem" of "Nee, geen probleem". Ze wisten niet welk probleem het precies was.

De auteurs van dit onderzoek hebben een slimme oplossing bedacht met een klein, lokaal AI-model (een soort digitale assistent). Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Grote" versus de "Lokale" Robot

In de wereld van AI zijn er twee soorten robots:

De "Gigant": Dit zijn de superkrachtige, dure AI's (zoals ChatGPT) die in de wolken zitten. Ze zijn enorm slim, maar ze zijn duur, en je moet je vertrouwelijke dossiers naar een externe server sturen. Dat is voor kinderzorgbureaus vaak een no-go vanwege privacy.
De "Lokale Hulp": Dit is wat deze onderzoekers hebben getest. Het is een kleinere robot (20 miljard "hersencellen" in plaats van honderden miljarden) die op de eigen computer van het bureau draait. De vraag was: Is deze kleinere robot slim genoeg om niet alleen te zien dat er een probleem is, maar ook om te zeggen: "Ah, dit is specifiek alcohol" of "Dit is cocaïne"?

2. De Opdracht: De "Smaakproever"

De onderzoekers gaven de robot een taak die lijkt op een smaakproeverij.
Stel je voor dat je een blindproever bent die een glas drank krijgt.

De oude manier: De proever zegt alleen: "Dit is alcohol" of "Dit is water".
De nieuwe manier (deze studie): De proever moet zeggen: "Dit is bier", "Dit is wodka", "Dit is cannabis" of "Dit is rustmiddelen".

De robot moest de verhalen in de kinderzorg-dossiers lezen en precies zeggen welk soort middel er genoemd werd, gebaseerd op de regels van de DSM-5 (een soort "woordenboek" voor psychische stoornissen).

3. De Resultaten: Een Slimme, Lokale Hulp

Het nieuws is geweldig voor de lokale robot:

Bij 5 van de 7 categorieën was de robot bijna net zo goed als een menselijke expert. Als de robot zei "Alcohol", dan was het in 100% van de gevallen echt alcohol. Als hij zei "Opiaten", dan klopte dat ook perfect.
De robot is stabiel: Als je dezelfde tekst twee keer aan de robot gaf, gaf hij bijna altijd hetzelfde antwoord. Hij is niet "wispelturig".
Privacy gewaarborgd: Omdat de robot lokaal draait, verliet er geen enkel dossier het gebouw. Geen data naar de cloud, geen risico op lekken.

4. Waar de Robot Struikelde: De "Valse Vrienden"

De robot had wel twee lastige categorieën: Hallucinogenen en Inhalanten (zoals lijm of verf).

De analogie: Stel je voor dat de robot het woord "gas" ziet. In een verhaal kan "gas" staan voor "gasfles in de keuken" (veilig) of "gas snuiven" (gevaarlijk).
De robot verwarde soms de context. Als er stond "er was gas in de kamer", dacht de robot soms: "Ah, iemand snuift gas!", terwijl het gewoon een lekkende verwarming was.
Omdat deze middelen zelden voorkomen in de dossiers, maakten deze kleine fouten het statistisch gezien minder betrouwbaar. Voor deze twee specifieke middelen is de robot dus nog niet klaar voor de grote zaal.

5. Waarom is dit belangrijk? (De "Schattenjacht")

Voorheen zaten deze waardevolle informatie in een "dode hoek" van de administratie. Nu kunnen kinderzorgbureaus:

Trends zien: Ze kunnen plotseling zien: "Wacht, in onze regio nemen de cocaïne-problemen toe, maar alcohol neemt af."
Beter helpen: Ze kunnen gerichter hulp bieden. Als je weet dat een gezin met opiaten te maken heeft, is de aanpak anders dan bij een gezin met alcohol.
Geen extra werk: De medewerkers hoeven niets extra's te doen. De robot leest gewoon wat er al geschreven staat.

Conclusie

Deze studie bewijst dat je geen supercomputer nodig hebt om slimme analyses te doen op gevoelige data. Een kleine, lokale AI die op de eigen server draait, kan net zo goed als een menselijke expert specifieke drugsproblemen uit verhalen halen. Het is alsof je een slimme, lokale vertaler hebt die de "tussenregels" van de kinderzorgmedewerkers begrijpt, zonder dat je je geheimen hoeft te delen met een groot tech-bedrijf.

Let op: De onderzoekers gebruikten wel een grote AI om te helpen bij het schrijven van dit artikel en het maken van de code, maar de echte "werkpaard" in de kinderzorg is deze kleine, lokale versie.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Validation of a Small Language Model for DSM-5 Substance Category Classification in Child Welfare Records", geschreven in het Nederlands.

Probleemstelling

Kinderbeschermingsinstanties genereren enorme hoeveelheden administratieve data, voornamelijk in de vorm van vrije tekstverhalen (narratieven) waarin caseworkers de omstandigheden rondom kindermishandeling vastleggen. Hoewel deze teksten vaak gedetailleerde informatie bevatten over het gebruik van middelen door ouders of verzorgers, worden deze gegevens in gestructureerde databases vaak gereduceerd tot een simpele binaire indicator (wel/geen probleem). Dit beperkt de mogelijkheid om specifieke trends te traceren, zoals de verschuiving van opioïden naar cannabis of stimulantia, en belemmert het evalueren van gerichte interventies.

Bestaande studies hebben aangetoond dat Large Language Models (LLM's) de aanwezigheid van middelenproblemen kunnen detecteren (binair). De uitdaging die in dit onderzoek wordt aangepakt, is of kleinere, lokaal gehoste modellen (met minder parameters dan commerciële "frontier" modellen) in staat zijn om verder te gaan dan alleen detectie en specifieke soorten middelen kunnen classificeren volgens de DSM-5-categorieën, zonder afhankelijk te zijn van cloud-diensten die privacyrisico's met zich meebrengen.

Methodologie

Data en Context

Bron: Ongestructureerde verhaaltjes uit onderzoeksrapporten van een kinderbeschermingsinstantie in een staat in het Amerikaanse Midwesten (jaren 2013-2024).
Doel: Classificatie van specifieke middelen in records die al als "middelenprobleem" (Substance-Related Problem, SRP) zijn geïdentificeerd.

Het Model en de Pipeline

Model: Een lokaal gehoste gpt-oss:20b, een open-source LLM met 20 miljard parameters (gequantizeerd naar 4-bit precisie).
Hardware: Draaiend op lokale servers met twee NVIDIA A6000 GPU's (48 GB VRAM elk), wat zorgt voor volledige data-privacy (geen data verlaat de server).
Aanpak: Een tweestapsproces:
1. Stap 1 (Validatie uit eerder werk): Binair filteren op aanwezigheid van een SRP.
2. Stap 2 (De focus van deze studie): Multi-label classificatie van de SRP-records over zeven DSM-5-categorieën: alcohol, cannabis, opioïden, stimulantia, sedativa/hypnotica/anxiolytica, hallucinogenen en inhalanten.
Prompt-engineering: Een enkele prompt classificeerde alle zeven categorieën simultaan, inclusief definities en regels. Het model leverde ook verbatim tekstextracten als bewijs voor zijn classificatie.

Validatieontwerp

Steekproef: Stratified random sampling van 900 gevallen voor menselijke validatie:
- 100 positieve gevallen per categorie (700 totaal) voor precisie-analyse.
- 100 SRP-afwezige gevallen voor recall-analyse.
- 100 SRP-aanwezige gevallen zonder specifieke classificatie.
Menselijke Review: Experts beoordeelden de nauwkeurigheid van de classificatie en de relevantie van de geëxtraheerde tekstfragmenten.
Statistieken: Gebruik van Cohen's kappa ( $\kappa$ ) voor inter-methode betrouwbaarheid, PABAK voor prevalentie-correctie, en Wilson score-intervallen voor precisie.
Stabiliteit: Test-hertest-analyse op ~15.000 records die in twee onafhankelijke runs werden verwerkt om de probabilistische variabiliteit van het model te meten.

Belangrijkste Resultaten

Classificatieprestaties (Inter-methode Betrouwbaarheid)
Vijf van de zeven categorieën bereikten een bijna perfecte overeenstemming ( $\kappa = 0,94 - 1,00$ ) met menselijke experts:

Alcohol & Opioïden: Perfecte precisie (100%), $\kappa = 1,00$ .
Cannabis & Stimulantia: Bijna perfecte precisie (99,0%), $\kappa = 0,99$ .
Sedativa/Hypnotica/Anxiolytica: Sterke precisie (92,0%), $\kappa = 0,94$ .

Slecht presterende Categorieën
Twee categorieën presteerden slecht en werden uitgesloten van verdere toepassing:

Hallucinogenen: Precisie 56,1% ( $\kappa = 0,63$ ).
Inhalanten: Precisie 35,0% ( $\kappa = 0,42$ ).
Oorzaak: Deze termen (bijv. "gas", "verf", "zuur") overlappen sterk met niet-middelen gerelateerde context (bijv. huishoudelijke gevaren of chemische oplosmiddelen), wat leidt tot contextuele misclassificaties.

Extraktie en Stabiliteit

Tekstextractie: 90,5% van de door het model geëxtraheerde zinsdelen was geldig en representatief. 92,8% kwam exact overeen met de brontekst; de rest was semantisch correcte parafrase.
Test-hertest Stabiliteit: Over 15.000 records varieerde de overeenstemming tussen twee runs van 92,1% tot 99,1%, wat aantoont dat de lage temperatuur-instelling (0.2) de probabilistische variatie effectief beperkt.

Belangrijkste Bijdragen

Validatie van "Small Language Models" (SLM's): Het bewijs dat een model van slechts 20 miljard parameters (twee ordes van grootte kleiner dan topmodellen) voldoende taalkundige kennis bezit om complexe, contextuele classificaties uit te voeren in administratieve data.
Privacy en Lokale Implementatie: Demonstreert dat organisaties geen cloud-diensten hoeven in te zetten voor geavanceerde NLP-taken, waardoor ze gevoelige kinderbeschermingsdata binnen hun eigen beveiligde infrastructuur kunnen houden.
Van Binair naar Multi-label: Uitbreiding van bestaand werk van eenvoudige "ja/nee"-detectie naar gedetailleerde, DSM-5-gebaseerde typologieën van middelen.
Data-verrijking: Een methode om historische, ongestructureerde teksten om te zetten in gestructureerde variabelen zonder extra last voor caseworkers of nieuwe dataverzameling.

Betekenis en Conclusie

De studie concludeert dat een lokaal gehoste SLM betrouwbaar specifieke middelensoorten kan identificeren in kindbeschermingsnarratieven. Voor vijf van de zeven DSM-5-categorieën is de prestatie vergelijkbaar met die van menselijke experts.

Dit opent de deur voor populatiebewaking en longitudinale analyses van middelenproblematiek op basis van bestaande administratieve data. Instanties kunnen nu trends volgen (bijv. de verschuiving van opioïden naar stimulantia) en gerichter beleid ontwikkelen. De enige beperkingen liggen bij zeer zeldzame middelen met ambiguë terminologie (hallucinogenen en inhalanten), waar contextuele nuance nog te complex is voor het huidige model zonder extra prompt-engineering of filtering.

Kortom, dit onderzoek bewijst dat geavanceerde, privacy-bewuste tekstanalyse binnen de sociale sector haalbaar is met lokaal draaiende, open-source technologie.

Validation of a Small Language Model for DSM-5 Substance Category Classification in Child Welfare Records

1. Het Probleem: De "Grote" versus de "Lokale" Robot

2. De Opdracht: De "Smaakproever"

3. De Resultaten: Een Slimme, Lokale Hulp

4. Waar de Robot Struikelde: De "Valse Vrienden"

5. Waarom is dit belangrijk? (De "Schattenjacht")

Conclusie

Probleemstelling

Methodologie

Belangrijkste Resultaten

Belangrijkste Bijdragen

Betekenis en Conclusie

Meer zoals dit

Image Captioning via Compact Bidirectional Architecture

Correspondence Analysis and PMI-Based Word Embeddings: A Comparative Study

Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus

ThinkQE: Query Expansion via an Evolving Thinking Process

AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios