Automated Extraction of Cancer Registry Data from Pathology Reports: Comparing LLM-Based and Ontology-Driven NLP Platforms

이 논문은 존스홉킨스 병원의 병리 보고서 670 건을 대상으로 LLM 기반의 Brim Analytics 와 온톨로지 기반의 DeepPhe 를 비교한 결과, Brim Analytics 이 췌장암과 유방암 모두에서 높은 정확도와 처리 속도를 보여 자동화된 암 등록 데이터 추출에 효과적임을 입증했습니다.

McPhaul, T., Kreimeyer, K., Baris, A., Botsis, T.

게시일 2026-03-23
📖 4 분 읽기☕ 가벼운 읽기
⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

🏥 배경: 왜 이런 실험이 필요할까요?

암 센터에서는 매년 수백만 명의 환자 기록을 정리해야 합니다. 의사들이 쓴 **수술 기록지 (병리 보고서)**에는 암의 크기, 위치, 전이 여부 등 중요한 정보가 적혀 있지만, 이 글들은 모두 **자유로운 문장 (자유 텍스트)**으로 쓰여 있어 컴퓨터가 읽기 어렵습니다.

예를 들어, "암이 췌장 머리에 있다"라고 쓴 기록과 "췌장 두부 (head) 에 병변이 있다"라고 쓴 기록은 같은 뜻이지만, 컴퓨터는 이것이 같은 말인지 모를 수 있습니다. 그래서 지금까지는 **전문가 (등록 관리사)**가 일일이 눈으로 읽고 컴퓨터에 입력해 왔는데, 이는 너무 힘들고 시간이 많이 걸리는 일이었습니다.

이제 **인공지능 (AI)**이 이 일을 대신할 수 있을까요? 연구팀은 두 가지 다른 방식의 AI 를 비교해 보았습니다.


🤖 두 명의 '디지털 비서' 비교

연구팀은 두 가지 다른 AI 시스템을 췌장암과 유방암 기록으로 시험해 보았습니다.

1. 브림 애널리틱스 (Brim Analytics): "규칙을 잘 따르는 똑똑한 인턴"

  • 방식: 이 시스템은 **대형 언어 모델 (LLM, 최신 AI)**을 사용합니다. 마치 인간처럼 문맥을 이해하고, 전문가가 정해준 **'작업 지시서 (규칙)'**를 따라 일을 합니다.
  • 특징: "암의 크기가 2cm 이상이면 T2 로 분류해라"처럼 구체적인 규칙을 입력하면, 그 규칙에 맞춰 텍스트를 분석합니다.
  • 장점: 새로운 질병이나 복잡한 표현이 나와도, 규칙을 조금만 수정하면 잘 따라옵니다.

2. 딥피 (DeepPhe): "오래된 사전을 가진 고전파"

  • 방식: 이 시스템은 **온톨로지 (의학 용어 사전)**와 규칙 기반을 사용합니다. 미리 정해진 의학 용어 목록을 찾아서 일치하는 단어를 긁어모으는 방식입니다.
  • 특징: "T1", "T2" 같은 표준 용어가 명확히 적혀 있을 때는 매우 빠르고 정확합니다.
  • 단점: 의사가 비유적으로 표현하거나 (예: "암이 퍼졌다"), 용어 사전에 없는 표현을 쓰면 헷갈려서 실수를 많이 합니다.

📊 실험 결과: 누가 이겼을까요?

연구팀은 330 편의 췌장암 기록과 34 편의 유방암 기록을 두 시스템에 모두 처리하게 했습니다.

1. 췌장암 기록 처리 (주요 테스트)

  • 브림 (규칙 기반 AI): **96.7%**의 높은 정확도를 보였습니다. 암의 크기 (T 단계) 나 등급을 거의 완벽하게 찾아냈습니다.
  • 딥피 (사전 기반 AI): N 단계 (림프절) 는 잘 찾았지만, **암의 크기 (T 단계) 는 83.6%**로 정확도가 떨어졌습니다. 특히 "암이 퍼졌다"는 표현을 너무 자주 찾아내서 (과다 분류), 실제보다 암이 더 무겁게 판정되는 실수가 많았습니다.

2. 유방암 기록 처리 (다른 질병으로 테스트)

  • 브림: 췌장암에서 배운 규칙을 그대로 적용했는데도 **93.7%**로 여전히 매우 잘했습니다. (질병이 바뀌어도 적응력이 뛰어남)
  • 딥피: 췌장암에서는 90% 이상 잘했지만, 유방암으로 넘어가자 70% 대로 급격히 떨어졌습니다. 특히 암의 크기를 찾는 데서 큰 실수를 했습니다. 사전에 유방암 특유의 표현이 없어서 헷갈린 것입니다.

3. 처리 속도

  • 두 시스템 모두 문서 한 장당 1~4 초 정도밖에 걸리지 않아, 사람이 일일이 읽는 것보다 수천 배 빨랐습니다.

💡 핵심 교훈: "규칙을 아는 AI"가 더 똑똑했다

이 실험에서 가장 중요한 발견은 다음과 같습니다.

  1. 문서 형식이 중요해요: 의사가 정해진 양식 (체크박스) 으로 쓴 기록은 두 시스템 모두 잘 처리했지만, **자유로운 글 (수기)**로 쓴 기록은 '딥피'가 매우 힘들어했습니다. 반면 '브림'은 글씨체나 표현 방식에 상관없이 잘 이해했습니다.
  2. 규칙을 명확히 하는 게 핵심: '브림'은 "이런 경우에는 이렇게 처리해라"라는 **명확한 지시 (규칙)**를 받았기 때문에, 새로운 질병 (유방암) 이 나와도 그 규칙을 적용해 잘 처리했습니다. 반면 '딥피'는 미리 정해진 사전만 믿기 때문에, 사전에 없는 표현이 나오면 당황했습니다.
  3. 실수하는 방식이 다릅니다:
    • 브림: "모르겠다"라고 말하는 경우가 많았습니다 (실수를 안 하려고 조심스러움). 이는 환자를 너무 무겁게 진단하는 위험을 줄여줍니다.
    • 딥피: "아마도 그렇겠지?"라고 추측해서 틀리는 경우가 많았습니다 (과다 진단).

🚀 결론: 앞으로 어떻게 될까요?

이 연구는 **"최신 AI (LLM) 를 활용하면, 의사의 기록을 자동으로 정리하는 일이 현실적으로 가능해졌다"**는 것을 보여줍니다.

  • 미래의 모습: 앞으로는 AI 가 먼저 기록을 읽어보고, 중요한 정보 (암의 크기, 전이 여부 등) 를 미리 채워 넣을 것입니다.
  • 사람의 역할: 전문가는 AI 가 채워 넣은 내용을 검토하고 확인하는 역할만 하면 됩니다. 이렇게 되면 등록 관리사들은 훨씬 더 많은 환자를 처리할 수 있게 되고, 암 연구 데이터도 훨씬 빠르게 모을 수 있게 됩니다.

한 줄 요약:

"의사의 손글씨로 된 복잡한 암 기록을, 규칙을 잘 따르는 최신 AI 비서가 사람보다 훨씬 빠르고 정확하게 정리해 낼 수 있다는 것을 증명했습니다. 이제 AI 가 '첫 번째 정리'를 하고, 사람이 '최종 확인'을 하는 새로운 시대가 열렸습니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →