Noise reduction in BERT NER models for clinical entity extraction

이 논문은 BERT 기반 임상 개체명 인식 (NER) 모델의 높은 오탐지율을 해결하기 위해, 단순 확률 임계값 대신 토큰 시퀀스 내의 확률 분포 특성을 포착하는 '확률 밀도 지도 (PDM)'를 활용한 노이즈 제거 모델을 개발하여 오탐지를 50~90% 감소시켰음을 제시합니다.

Kuldeep Jiwani, Yash K Jeengar, Ayush Dhaka

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 배경: 똑똑하지만 때로는 "과신"하는 AI 탐정

병원에는 매일 수많은 환자 기록이 쌓입니다. 이 기록들 속에서 "암의 종류", "사용된 약물", "수술 명칭" 같은 중요한 정보를 찾아내는 건 매우 중요합니다.

이를 위해 연구진은 BERT라는 아주 똑똑한 AI 모델을 훈련시켰습니다. 이 AI 는 문장을 읽고 "이 단어는 암 관련 용어야!"라고 표시해 줍니다.

  • 문제점: 이 AI 는 정보를 찾아내는 능력 (Recall) 은 훌륭했지만, **잘못된 정보를 진짜라고 믿어버리는 실수 (False Positive)**가 꽤 많았습니다.
  • 왜 그럴까? AI 가 "이건 99% 확률로 암이야!"라고 자신 있게 말할 때, 사실은 1% 도 아닐 때가 많았습니다. 마치 자신감만 넘치는 초보 탐정이 잘못된 단서를 보고 "절대 틀리지 않아!"라고 외치는 것과 비슷합니다.

🧠 2. 핵심 아이디어: "주변 분위기"를 보는 새로운 눈

기존에는 AI 가 "확률 점수"가 낮으면 버리고, 높으면 받아들였습니다. 하지만 연구진은 이것이 실패한다고 깨달았습니다. AI 는 틀린 답을 내더라도 점수를 높게 줄 수 있기 때문입니다.

그래서 연구진은 AI 가 단순히 '한 단어'만 보는 게 아니라, 그 단어가 놓인 '주변 환경'을 함께 보게 만들었습니다.

🌟 비유: "ER"이라는 단어의 두 얼굴

문장 속의 **"ER"**이라는 단어를 생각해 보세요.

  1. 진짜 경우: "유방암 환자가 ER(에스트로겐 수용체) 양성으로 치료받았다." → 여기서 ER 은 진짜 암 관련 용어입니다.
  2. 거짓 경우: "환자가 심한 가슴 통증으로 ER(응급실) 에 입원했다." → 여기서 ER 은 단순히 병동 이름일 뿐, 암 관련 용어가 아닙니다.

기존 AI 는 두 경우 모두 "ER"이라고만 보고 똑같이 높은 점수를 줍니다. 하지만 연구진이 개발한 새로운 방법은 **주변 단어들의 '분위기'**를 봅니다.

  • 진짜 경우: 주변에 '유방암', '양성' 같은 단어들이 모여있으니, AI 는 "아, 이 ER 은 암 이야기구나!"라고 주변 단어들과 유리하게 연결됩니다.
  • 거짓 경우: 주변에 '가슴 통증', '입원' 같은 단어들이 있으니, AI 는 "이 ER 은 응급실 이야기구나!"라고 다른 분위기를 느낍니다.

이처럼 **주변 단어들이 모여 있는 '분위기 지도 (Probability Density Map, PDM)'**를 분석하면, AI 가 착각하고 있는 순간을 쉽게 찾아낼 수 있습니다.

🛡️ 3. 해결책: "소음 제거기 (Noise Removal)"

연구진은 이 원리를 이용해 **두 번째 AI (소음 제거 모델)**를 만들었습니다.

  1. 1 단계 (본인 AI): 첫 번째 AI 가 "이건 암 용어야!"라고 찾아낸 모든 후보를 나열합니다.
  2. 2 단계 (소음 제거기): 두 번째 AI 는 이 후보들을 하나씩 검토합니다.
    • "주변 분위기가 암 용어와 잘 어울리는가?"
    • "주변 단어들이 이 용어를 지지하는가?"
    • "아니면 그냥 우연히 붙은 단어인가?"

이 과정을 통해 실수가 의심되는 '약한' 예측은 걸러내고, 분위기가 확실한 '강한' 예측만 남깁니다.

📊 4. 결과: 실수는 90% 줄이고, 진짜는 그대로!

이 방법을 적용한 결과는 놀라웠습니다.

  • 기존 방법 (점수만 보고 걸러내기): 실수를 줄이다 보니 진짜 중요한 정보도 함께 버려버리는 경우가 많았습니다.
  • 새로운 방법 (분위기 분석): 잘못된 정보 (거짓 긍정) 를 50% 에서 90% 까지 줄이면서도, 진짜 중요한 정보는 거의 다 잡아냈습니다.

마치 금광에서 금을 캐는 작업에서, 돌을 골라내는 과정이 훨씬 정교해져서 금 (진짜 정보) 은 다 건드리지 않고, 돌 (오류) 만 대거 제거한 것과 같습니다.

💡 5. 결론: 왜 이 방법이 특별한가?

이 연구의 가장 큰 장점은 기존 AI 를 뜯어고치지 않고도 성능을 높였다는 점입니다.

  • 간단하고 빠름: 복잡한 재학습 없이, AI 가 내린 결론을 한 번 더 '검토'하는 과정만 추가했습니다.
  • 이해하기 쉬움: 왜 이 단어를 버렸는지, 의사 (전문가) 가 그 이유를 쉽게 이해할 수 있습니다. (예: "주변에 암 관련 단어가 없어서 걸러냈습니다.")

한 줄 요약:

"자신감만 넘쳐 실수를 저지르는 AI 탐정에게, **주변의 분위기를 꼼꼼히 살피는 '보조 검사관'**을 붙여주니, 이제 더 이상 잘못된 정보를 진짜라고 착각하지 않게 되었습니다."

이 기술은 앞으로 병원 기록을 분석할 때, 의사들이 더 신뢰할 수 있는 정확한 정보를 제공하는 데 큰 역할을 할 것입니다.