Evaluation and LLM-Guided Learning of ICD Coding Rationales

Diese Arbeit evaluiert die Erklärbarkeit von ICD-Codierungsmodellen hinsichtlich Glaubwürdigkeit und Plausibilität, stellt einen neuartigen, annotierten Datensatz vor und nutzt von einem LLM generierte Rationale als Fernüberwachungssignale, um die Qualität der Rationale-Generierung zu verbessern.

Mingyang Li, Viktor Schlegel, Tingting Mu, Wuraola Oyewusi, Kai Kang, Goran Nenadic

Veröffentlicht 2026-03-13
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der "Blackbox"-Arzt

Stell dir vor, ein Computerprogramm (eine KI) liest die Krankenakte eines Patienten und sagt: "Der Patient hat Diabetes Typ 2." Das ist gut, aber für einen echten Arzt reicht das nicht. Der Arzt fragt: "Warum?"

Bisherige KI-Systeme waren wie ein Magier, der eine Kugel schwingt und plötzlich das richtige Ergebnis nennt, aber niemand weiß, wie er es gemacht hat. Sie zeigen zwar manchmal an, welche Wörter sie "angeschaut" haben (wie ein unscharfer Fingerzeig), aber diese Hinweise sind oft verwirrend oder für Menschen nicht nachvollziehbar. Das macht es schwer, der KI zu vertrauen.

Was diese Forscher gemacht haben: Ein neues Regelbuch

Die Forscher von der Universität Manchester haben sich drei wichtige Fragen gestellt und Lösungen entwickelt:

1. Der fehlende Bauplan (Der neue Datensatz)

Bisher gab es kaum eine "Goldstandard"-Liste, an der man messen konnte, ob die KI wirklich gute Erklärungen liefert. Die alten Listen waren wie ein veraltetes Kochbuch aus den 90ern – sie passten nicht mehr zu den heutigen Rezepten (den neuen medizinischen Codes).

Die Lösung: Die Forscher haben ein neues, modernes Kochbuch erstellt. Sie haben 150 echte Patientenakten von Hand von medizinischen Experten durchgearbeitet. Diese Experten haben genau markiert: "Hier steht der Beweis für Diabetes, hier für Bluthochdruck."

  • Vergleich: Früher haben die KI-Modelle geraten, welcher Satz wichtig ist. Jetzt haben sie einen echten Lehrer, der mit einem roten Stift genau unterstreicht, was zählt.

2. Drei Arten von Erklärungen im Vergleich

Die Forscher haben getestet, welche Art von "Hinweis" am besten funktioniert:

  • Der "Suchmaschinen"-Ansatz (Entity Linking): Die KI sucht einfach nach bekannten Wörtern wie "Insulin".
    • Vergleich: Wie ein Kind, das nur nach dem Wort "Hund" sucht, um zu wissen, dass da ein Tier ist. Es findet das Wort, versteht aber den Kontext nicht immer.
  • Der "Künstliche Intelligenz"-Ansatz (LLM): Hier nutzen sie eine super-smarte KI (wie Gemini), die den Text liest und in ganzen Sätzen erklärt: "Der Patient nimmt Insulin, also hat er Diabetes."
    • Vergleich: Das ist wie ein kluger Assistent, der den Text liest und dir die Geschichte in eigenen Worten erzählt. Dieser Ansatz war der Gewinner! Die KI-erklärungen klangen fast so menschlich wie die von echten Ärzten.
  • Der "Mathematik"-Ansatz (Attention Scores): Die alte Methode, bei der die KI nur Zahlen berechnet, welche Wörter wichtig waren.
    • Vergleich: Wie ein verwirrter Tourist, der auf eine Landkarte zeigt und sagt: "Da ist was Wichtiges!", aber nicht weiß, was genau. Das funktionierte am schlechtesten.

3. Lernen vom Lehrer (LLM-gesteuertes Lernen)

Das ist der spannendste Teil. Da die "kluge KI" (der Lehrer) so gute Erklärungen liefern kann, haben die Forscher die "kleine KI" (den Schüler) trainiert, diese Erklärungen nachzumachen.

  • Die Methode: Sie haben der kleinen KI gesagt: "Schau, wie der große Lehrer das macht!"
  • Der Trick mit den Beispielen: Um die KI noch besser zu machen, haben sie ihr vor dem Start ein paar Beispielaufgaben gezeigt (Few-Shot Prompting).
    • Vergleich: Stell dir vor, du willst Kochen lernen. Wenn dir jemand nur sagt "Koch das", bist du verloren. Wenn dir jemand aber sagt: "Schau, wie ich das mache (Beispiel 1), und hier ist noch ein Beispiel (Beispiel 2)", dann klappt es viel besser.
    • Ergebnis: Durch diese kleinen Beispiele wurde die KI nicht nur besser im Erklären, sondern auch noch genauer im eigentlichen Diagnosenstellen.

Warum ist das wichtig?

Stell dir vor, du sitzt im Wartezimmer und der Computer sagt dir, du hast eine Krankheit. Wenn der Computer nur sagt "Ja, das ist es", bist du vielleicht verunsichert. Wenn er aber sagt: "Ich habe das hier in deinem Bericht gefunden: 'Patient klagt über Durst und häufiges Wasserlassen', und das passt zu Diabetes", dann vertraust du dem Ergebnis viel mehr.

Zusammenfassend:
Die Forscher haben gezeigt, dass wir KI-Systeme im Gesundheitswesen nicht nur als "Blackbox" nutzen sollten. Indem wir ihnen beibringen, gute, menschenlesbare Erklärungen zu geben (und zwar durch das Lernen von noch smarteren KIs), machen wir die Medizin transparenter, sicherer und vertrauenswürdiger. Sie haben den Weg geebnet, damit Computer nicht nur "wissen", sondern auch "erklären" können.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →