Evaluation and LLM-Guided Learning of ICD Coding Rationales

이 논문은 ICD 코딩 모델의 설명 가능성을 평가하기 위해 새로운 다중 세분화 데이터셋을 구축하고, LLM 이 생성한 합리적인 근거의 신뢰성을 검증한 후 이를 원격 지도 신호로 활용하여 근거 생성 모델의 성능을 향상시키는 방법을 제시합니다.

Mingyang Li, Viktor Schlegel, Tingting Mu, Wuraola Oyewusi, Kai Kang, Goran Nenadic

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏥 배경: 의료 기록의 '번역' 작업

병원에는 환자의 상태를 설명하는 긴 글 (진료 기록) 이 있습니다. 하지만 보험 청구나 통계 분석을 위해서는 이 긴 글을 **'ICD 코드'**라는 짧은 숫자나 기호로 바꿔야 합니다.

  • 예시: "환자가 당뇨병으로 인해 발에 궤양이 생겼습니다" → E11.621 (당뇨병성 발 궤양)

과거에는 전문 코더가 이 작업을 했지만, 비용이 많이 들고 실수할 수도 있어서 **AI(인공지능)**가 이 일을 대신하게 되었습니다.

🤔 문제점: AI 는 '정답'만 알려줄 뿐 '이유'는 안 알려줌

AI 는 "이 환자는 당뇨병 코드가 맞습니다"라고 정답을 말해주지만, **"왜?"**라고 물으면 대답을 못 합니다.

  • 비유: 시험에서 100 점 맞은 학생이 "정답은 A 입니다"라고만 말하고, "어떤 공부를 해서 맞혔는지"는 알려주지 않는 것과 같습니다.
  • 위험: 의사나 환자가 AI 의 판단을 믿지 못하게 됩니다. "이 AI 가 왜 그렇게 생각하지? 혹시 착각한 건 아닐까?"라는 의문이 생기기 때문입니다.

🔍 연구의 핵심: AI 의 '이유'를 평가하고 개선하다

연구팀은 AI 가 내세우는 이유 (rationale) 가 얼마나 **신뢰할 만한지 (Faithfulness)**와 **사람들이 납득할 만한지 (Plausibility)**를 두 가지 기준으로 평가했습니다.

1. 기존 방법들의 한계

기존에는 AI 가 "여기가 중요해!"라고 강조한 부분 (주목도) 을 이유로 들었습니다. 하지만 이는 마치 나침반이 북쪽을 가리킨다고 해서, 그 방향이 진짜 목적지인지는 모른다는 것과 비슷합니다. AI 가 엉뚱한 단어를 강조할 수도 있기 때문입니다.

2. 새로운 도구: 'LLM(거대 언어 모델)'을 활용한 이유 생성

연구팀은 최신 AI(예: Gemini, LLaMA 등) 를 이용해 **"이 진단 코드를 선택한 구체적인 근거를 글에서 찾아줘"**라고 시켰습니다.

  • 비유: 마치 유능한 수석 코디네이터에게 "환자 기록을 보고 당뇨병 코드를 붙일 만한 구체적인 문장들을 찾아와"라고 시킨 것입니다.
  • 결과: 이 AI 코디네이터가 찾아낸 이유들이 인간 전문가가 찾은 이유와 매우 비슷했습니다. 즉, AI 가 만든 이유가 인간이 납득할 만하다는 것이 증명되었습니다.

🚀 혁신적인 방법: AI 가 가르친 AI (LLM-Guided Learning)

이제 연구팀은 이 '유능한 AI 코디네이터'가 찾아낸 이유들을 이용해, 원래의 의료 코딩 AI 를 더 똑똑하게 훈련시켰습니다.

  • 방법 1: 다목적 학습
    • AI 에게 "정답을 맞추는 것"과 "이유를 잘 찾는 것"을 동시에 시켰습니다.
  • 방법 2: NER(개체 인식) 방식
    • 비유: 마치 수색견 훈련과 같습니다. AI 에게 "이 문장 속의 '당뇨병'이라는 단어는 중요해 (이유), '감기'라는 단어는 중요하지 않아"라고 가르치는 방식입니다.
    • 이 방식이 특히 효과적이어서, AI 가 찾아낸 이유의 정확도가 인간이 직접 쓴 이유보다 더 높아지기도 했습니다.

💡 핵심 성과: "작은 예시"가 큰 도움을 줍니다

연구팀은 AI 에게 **"사람이 직접 쓴 좋은 예시 5 개만 보여줄게, 이걸 참고해서 나머지 문장을 분석해"**라고 시켰습니다 (Few-shot prompting).

  • 결과: AI 의 이유 찾기가 훨씬 더 정교해졌습니다. 마치 새로운 직원이 선배의 업무 예시 5 개만 보고도 일을 잘 배우는 것과 같습니다.

📝 결론: 이 연구가 왜 중요한가요?

  1. 새로운 기준 마련: 의료 AI 의 설명을 평가할 수 있는 새로운 데이터셋과 기준을 만들었습니다.
  2. 신뢰도 향상: AI 가 왜 그 진단을 내렸는지, 인간이 이해할 수 있는 명확한 이유를 제시할 수 있게 되었습니다.
  3. 미래 지향: AI 가 스스로 이유를 찾고, 그 이유를 바탕으로 더 똑똑해지는 선순환 구조를 만들었습니다.

한 줄 요약:

"이 연구는 의료 AI 가 '정답'만 외우는 기계가 아니라, '이유'를 설명할 줄 아는 똑똑한 파트너가 되도록 돕는 방법을 찾아냈습니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →