Evaluation and LLM-Guided Learning of ICD Coding Rationales

Dit artikel introduceert een systematische evaluatie van ICD-codering-rationales op basis van trouw en plausibiliteit, presenteert een nieuw dataset met multi-granulaire annotaties, en toont aan dat het gebruik van door LLM's gegenereerde rationales als distant supervision leidt tot verbeterde plausibiliteit in zowel de LLM als studentmodellen.

Mingyang Li, Viktor Schlegel, Tingting Mu, Wuraola Oyewusi, Kai Kang, Goran Nenadic

Gepubliceerd 2026-03-13
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een ziekenhuis een enorme berg medische dossiers heeft. Elke dag schrijven artsen lange, rommelige verhalen over patiënten: "De patiënt had last van pijn op de borst, hij rookte, en we hebben een ECG gedaan..."

Om deze dossiers bruikbaar te maken voor verzekeringen, statistieken en zorgplanning, moeten deze verhalen worden omgezet in korte, standaardcodes (zoals ICD-10 codes). Dit is als het vertalen van een lang verhaal naar een stempel met een cijfercombinatie.

Vroeger deden mensen dit handmatig. Dat is duur, tijdrovend en foutgevoelig. Dus hebben we slimme computers (AI) gebouwd om dit te doen. Maar hier zit een probleem: deze computers zijn "zwarte dozen". Ze geven je het juiste cijfer, maar ze zeggen niet waarom. Ze zeggen niet: "Ik gaf code X omdat de patiënt 'pijn op de borst' schreef." Ze zeggen alleen: "Het is code X."

In de medische wereld is vertrouwen cruciaal. Een arts wil niet blindelings vertrouwen op een computer die zegt "dit is hartfalen" zonder te kunnen zien op welke zin in het dossier die conclusie gebaseerd is.

Dit artikel van Mingyang Li en zijn team lost precies dat probleem op. Hier is hoe ze dat doen, vertaald in alledaags taal:

1. Het Ontbrekende Puzzelstukje: Een Nieuwe "Antwoordenboek"

Vroeger hadden onderzoekers geen goede manier om te testen of de uitleg van de AI wel klopte. Ze gebruikten oude datasets die niet meer up-to-date waren (zoals een oude telefoonlijst in plaats van een moderne app).

De oplossing: Het team heeft een nieuw, modern "antwoordenboek" gemaakt (een dataset genaamd RD-IV-10).

  • De analogie: Stel je voor dat je een schooltoets maakt. Je hebt een antwoordboekje nodig om te zien of de leerling het goed heeft. Vroeger gebruikten ze een antwoordboekje uit 1990 voor een examen in 2025. Dat gaf verkeerde resultaten.
  • Wat ze deden: Ze hebben medische experts ingehuurd om 150 dossiers handmatig te bekijken en de precieze zinnen aan te strepen die de reden zijn voor een bepaalde diagnose. Dit is hun "gouden standaard".

2. Drie Manieren om te "Uitleggen" (En welke werkt?)

Het team heeft gekeken naar drie verschillende manieren waarop computers hun redenering kunnen geven:

  1. De "Aandacht-Techniek" (De oude manier): De computer kijkt naar welke woorden hij vaak "aankeek" tijdens het rekenen.

    • Analogie: Alsof een student een proefwerk maakt en de docent zegt: "Kijk, hij keek vaak naar het woord 'koorts', dus dat moet de reden zijn."
    • Resultaat: Vaak werkt dit niet. De computer kijkt naar het woord, maar dat betekent niet dat het de echte reden is. Het is alsof iemand naar een woord kijkt, maar het niet begrijpt.
  2. De "Woordenzoeker" (Naive Entity Linking): De computer zoekt gewoon naar bekende ziektenamen in de tekst.

    • Analogie: Een robot die zoekt naar het woord "diabetes" en zegt: "Ah, daar staat diabetes, dus dat is de reden!"
    • Resultaat: Dit is beter dan niets, maar vaak te simpel. Het mist nuance.
  3. De "Slimme Vertaler" (LLM - Large Language Models): Ze hebben een zeer slimme AI (zoals een super-geavanceerde chatbot) gevraagd om de tekst te lezen en in mensentaal uit te leggen: "Welke zinnen bewijzen dat deze patiënt diabetes heeft?"

    • Analogie: Je geeft de tekst aan een ervaren arts-assistent en vraagt: "Leg uit waarom dit een diabetes-patiënt is." Deze assistent pakt de zinnen eruit die echt relevant zijn.
    • Resultaat: Dit was de winnaar. De uitleg van deze slimme AI leek het meest op wat een menselijke arts zou zeggen.

3. De Leerling en de Meester (LLM-Guided Learning)

Nu ze zagen dat de "Slimme Vertaler" (de AI) zo goed was in het vinden van de juiste zinnen, dachten ze: "Laten we die slimme AI gebruiken om een andere, kleinere computer te leren!"

  • De methode: Ze lieten de slimme AI duizenden voorbeelden maken van "goede uitleg". Daarna trainden ze een nieuwe, kleinere computermodel op die voorbeelden.
  • Het effect: De nieuwe computer leerde niet alleen de diagnose te stellen, maar ook hoe hij die diagnose moest onderbouwen met de juiste zinnen.
  • De "Few-shot" truc: Ze gaven de slimme AI ook een paar voorbeelden van echte menselijke uitleg (uit hun nieuwe dataset) om te laten zien hoe het moet. Dit maakte de uitleg van de AI nog menselijker en overtuigender.

Waarom is dit belangrijk?

Stel je voor dat je een auto koopt.

  • Zonder uitleg: De verkoper zegt: "Deze auto is veilig." (Je gelooft het misschien niet).
  • Met slechte uitleg: De verkoper zegt: "Deze auto is veilig omdat er een wiel aan zit." (Dat is waar, maar irrelevant).
  • Met goede uitleg (wat dit artikel doet): De verkoper zegt: "Deze auto is veilig omdat hij airbags heeft, een ABS-systeem en een hoge crashtest-score."

Dit onderzoek zorgt ervoor dat onze medische AI's niet alleen de juiste diagnose geven, maar ook kunnen uitleggen waarom, op een manier die voor mensen (artsen en patiënten) logisch en betrouwbaar is. Ze hebben de "zwarte doos" opengebroken en laten zien wat er binnenin gebeurt.

Kortom: Ze hebben een nieuwe, moderne handleiding gemaakt, getest welke manier van uitleggen het beste werkt (en het was de slimme AI), en die slimme AI gebruikt om andere computers te leren hoe ze hun werk eerlijk en duidelijk moeten uitleggen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →