Validation of a Small Language Model for DSM-5 Substance Category Classification in Child Welfare Records

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de cette recherche, comme si on en discutait autour d'un café.

🕵️‍♂️ L'Enquête : Transformer des carnets de notes en cartes au trésor

Imaginez que les services de protection de l'enfance (comme la DDASS en France) tiennent des milliers de carnets de notes. Dans ces carnets, les travailleurs sociaux écrivent des histoires libres sur ce qu'ils ont vu lors de leurs visites à domicile.

Le problème ? Ces histoires sont écrites en "langage humain" (des phrases, des détails, des nuances), mais les ordinateurs classiques ne savent lire que des cases cochées (Oui/Non). Souvent, un dossier dit juste "Problème de drogue : OUI". C'est comme si on vous disait "Il y a un animal dans la maison" sans vous dire s'il s'agit d'un chat, d'un chien ou d'un lion. C'est trop vague pour aider correctement les familles.

🤖 Le Héros : Un "Petit Génie" Local

Les chercheurs ont voulu utiliser l'intelligence artificielle (IA) pour lire ces carnets et dire exactement de quelle substance il s'agit (alcool, cannabis, héroïne, etc.).

Habituellement, les IA les plus puissantes sont comme des super-héros géants qui vivent dans le cloud (sur des serveurs géants chez Google ou OpenAI). Ils sont très forts, mais ils coûtent cher et posent des problèmes de confidentialité (on ne peut pas envoyer les dossiers sensibles des enfants sur internet).

Alors, les chercheurs ont pris un petit génie (un modèle d'IA plus petit, avec 20 milliards de "neurones") et l'ont installé directement sur les ordinateurs de l'agence. C'est comme avoir un expert privé dans votre propre bureau, qui ne parle à personne d'autre.

🎯 La Mission : Le Tri des Ordures (ou plutôt, des Dossiers)

Le travail de ce petit génie se fait en deux étapes, un peu comme un tri sélectif intelligent :

Le Filtre Grossier (Étape 1) : L'IA lit le texte et dit : "Y a-t-il un problème de drogue ou d'alcool ?" (Oui/Non). C'est déjà validé par le passé.
Le Tri Fin (Étape 2 - Le cœur de l'étude) : Si la réponse est "Oui", l'IA doit maintenant être un détective chimique. Elle doit dire : "Ah, ici c'est de l'alcool", "Là, c'est du cannabis", "Ici, ce sont des opioïdes". Elle doit classer le texte selon 7 catégories officielles (comme celles de l'organisation de la santé mondiale).

🏆 Les Résultats : Un Score de Champion (presque parfait)

Les chercheurs ont fait tester ce petit génie par de vrais experts humains (des spécialistes du travail social) sur 900 dossiers.

Les Victoires Éclatantes : Pour 5 catégories sur 7 (Alcool, Cannabis, Opiacés, Stimulants, Sédatifs), l'IA et l'humain étaient d'accord presque à 100 %. C'est comme si deux détectives experts regardaient la même scène de crime et arrivaient à la même conclusion sans se tromper.
Les Difficultés : Pour deux catégories rares et piégeuses (les hallucinogènes et les inhalants comme la colle ou les aérosols), l'IA s'est un peu trompée.
- Pourquoi ? Imaginez le mot "gaz". Dans un dossier, ça peut vouloir dire "le gaz de la cuisine" (sécurité de l'enfant) ou "l'odeur de la colle" (drogue). Le petit génie a parfois confondu les deux, car le contexte est très subtil. C'est comme essayer de deviner si quelqu'un qui dit "Je suis sous l'effet de..." parle d'un médicament ou d'une drogue, sans avoir le contexte complet.

🔄 La Stabilité : Toujours le même résultat ?

Comme les IA sont un peu comme des humains (elles ont parfois de la chance ou du malheur), les chercheurs ont fait tourner le test deux fois sur 15 000 dossiers. Résultat ? L'IA a donné le même résultat 92 à 99 fois sur 100. C'est très stable.

💡 Pourquoi c'est important ? (La Magie)

Avant cette étude, les agences devaient soit payer des services cloud chers, soit laisser dormir des années de données précieuses.

Grâce à ce "petit génie local" :

Confidentialité totale : Les données ne quittent jamais l'ordinateur de l'agence.
Gratuité à long terme : Pas de frais par message à payer à une grosse entreprise technologique.
Vision d'ensemble : Les agences peuvent maintenant voir les tendances. Par exemple : "Tiens, en 2015, c'était surtout l'héroïne, mais en 2024, ce sont les stimulants qui augmentent." Cela permet d'adapter l'aide aux familles exactement là où c'est nécessaire.

En résumé

Cette recherche prouve qu'on n'a pas besoin d'un "super-héros" géant et coûteux pour comprendre les problèmes de drogue dans les dossiers sociaux. Un petit assistant IA, installé localement et bien entraîné, suffit pour transformer des textes confus en données claires et précieuses, à condition de faire attention aux cas très rares et ambigus. C'est une victoire pour la protection de l'enfance et la vie privée des familles.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article de recherche en français, structuré selon les sections demandées.

Titre de l'étude

Validation d'un petit modèle de langage pour la classification des catégories de substances selon le DSM-5 dans les dossiers de protection de l'enfance.

1. Problématique

Les agences de protection de l'enfance génèrent d'énormes quantités de données administratives, notamment des récits libres (résumés d'enquêtes, notes de cas) contenant des informations riches sur l'usage de substances par les parents. Cependant, les bases de données structurées ne capturent souvent l'implication des substances que par un indicateur binaire (présence/absence), perdant ainsi la nuance sur les types spécifiques de drogues (alcool, opioïdes, cannabis, etc.).

Bien que des études récentes aient démontré que les grands modèles de langage (LLM) peuvent effectuer une classification binaire fiable (détection de la présence de problèmes liés aux substances), il restait à vérifier si des modèles de langage plus petits (Small Language Models - SLM), déployables localement, pouvaient dépasser cette détection binaire pour classer avec précision les types spécifiques de substances alignés sur le DSM-5. Le défi réside dans la capacité de ces modèles plus petits (20 milliards de paramètres) à interpréter le contexte linguistique complexe et ambigu des dossiers administratifs, sans recourir à des services cloud coûteux ou risquant la confidentialité des données.

2. Méthodologie

Source de données :

Récits d'enquête sur la maltraitance d'enfants provenant d'un État du Midwest américain (2013-2024).
Échantillon de 15 000 enregistrements pour la stabilité, avec un échantillon de validation stratifié de 900 cas.

Pipeline de classification :
L'étude utilise une approche en deux étapes :

Étape 1 (Pré-filtrage) : Détection binaire de la présence de problèmes liés aux substances (SRP). Cette étape est considérée comme validée par des travaux antérieurs.
Étape 2 (Classification spécifique) : Pour les récits identifiés comme positifs pour les SRP, un modèle unique classe simultanément les sept catégories de substances du DSM-5 :
- Alcool
- Cannabis
- Opioïdes
- Stimulants
- Sédatifs/Hypnotiques/Anxiolytiques
- Hallucinogènes
- Inhaled (solvants)

Modèle et Infrastructure :

Modèle : gpt-oss:20b, un LLM open-source de 20 milliards de paramètres, quantifié sur 4 bits.
Déploiement : Hébergement local sur deux GPU NVIDIA A6000 (48 Go de VRAM chacun), garantissant que les données ne quittent jamais le serveur de l'agence (confidentialité totale).
Paramètres : Température de 0,2 pour maximiser la cohérence et fenêtre de contexte de 8 192 tokens.

Validation :

Échantillon de validation : 900 cas stratifiés (700 cas positifs par catégorie, 100 cas négatifs pour l'analyse des faux négatifs, 100 cas non classés).
Référence : Revue par un expert humain comparant les résultats du modèle aux récits complets.
Métriques : Précision, rappel, accord inter-méthode (Kappa de Cohen et PABAK), et stabilité test-retest sur 15 000 enregistrements.

3. Contributions Clés

Extension de la classification : Passage d'une détection binaire à une classification multi-étiquettes fine (7 catégories) pour les substances, comblant un vide dans la littérature sur les SLM.
Validation du déploiement local : Démonstration qu'un modèle de 20 milliards de paramètres (environ deux ordres de grandeur plus petit que les modèles commerciaux de pointe) suffit pour des tâches de classification complexes dans un contexte sensible.
Approche de confidentialité : Preuve de concept pour l'analyse de données textuelles non structurées sans transmission de données vers des serveurs externes, résolvant les problèmes de confidentialité et de coûts associés aux API cloud.
Analyse des limites contextuelles : Identification précise des cas où la terminologie ambiguë (ex: "gaz", "peinture" pour les inhalants) pose problème aux modèles, offrant des pistes pour l'amélioration future.

4. Résultats

Accord Inter-méthode et Précision :
Cinq des sept catégories ont atteint un accord "presque parfait" (Kappa $\kappa$ = 0,94 – 1,00) avec la revue humaine :

Alcool et Opioïdes : Précision de 100% ( $\kappa$ = 1,00).
Cannabis et Stimulants : Précision de 99% ( $\kappa$ = 0,99).
Sédatifs/Hypnotiques/Anxiolytiques : Précision de 92% ( $\kappa$ = 0,94).

Performances Faibles :
Deux catégories à faible prévalence ont montré des performances médiocres et ont été exclues des applications substantives :

Hallucinogènes : Précision de 56,1% ( $\kappa$ = 0,63).
Inhalants : Précision de 35,0% ( $\kappa$ = 0,42).
Cause : Confusion terminologique fréquente (ex: "tubes" ou "spray" liés à l'environnement domestique plutôt qu'à l'abus de substances) et faible fréquence de base.

Extraction de texte :
Le modèle a extrait des phrases textuelles comme preuve. 90,5% de ces extraits étaient valides et 92,8% correspondaient exactement au texte source.

Stabilité Test-Retest :
Sur 15 000 enregistrements traités à deux reprises, l'accord était extrêmement élevé :

Détection binaire (SRP) : 99,1%.
Catégories spécifiques : de 92,1% (stimulants) à 97,1% (alcool, cannabis).

5. Signification et Implications

Cette étude valide qu'un modèle de langage local et de petite taille peut transformer des données administratives non structurées en variables structurées de haute qualité pour la surveillance épidémiologique et la recherche.

Surveillance épidémiologique : Permet aux agences de suivre les tendances spécifiques aux substances (ex: le passage de la crise des opioïdes à l'augmentation des stimulants) rétrospectivement sur des années de données historiques.
Prise de décision ciblée : Facilite l'analyse de l'impact de substances spécifiques sur les décisions de placement, les références de services et les résultats des enquêtes.
Accessibilité : Démontre que les agences de services sociaux n'ont pas besoin de modèles massifs coûteux ou de services cloud pour obtenir des analyses avancées, rendant la technologie accessible et sécurisée.

En conclusion, bien que des défis subsistent pour les catégories à faible prévalence et à terminologie ambiguë, le pipeline proposé offre une méthode robuste, évolutive et respectueuse de la vie privée pour enrichir les données de protection de l'enfance.