Performance Evaluation of Open-Source Large Language Models for Assisting Pathology Report Writing in Japanese

Each language version is independently generated for its own context, not a direct translation.

🏥 배경: 병원의 '서기'가 필요한 이유

병원에는 환자들의 조직을 현미경으로 보고 진단하는 **'병리과 의사'**들이 있습니다. 이들은 매일 수많은 환자에 대해 긴 보고서 (진단서) 를 써야 하는데, 이 작업은 매우 바쁘고 지루합니다.

최근 ChatGPT 같은 AI 가 등장하면서, "이 AI 가 서기 역할을 대신해 줄 수 있을까?"라는 질문이 생겼습니다. 하지만 병원에는 **환자 정보 (개인정보)**가 들어있기 때문에, 외부 클라우드에 데이터를 보내는 상용 AI 를 쓰기엔 보안상 위험할 수 있습니다. 그래서 연구진들은 **"내 컴퓨터 안에서만 돌아가는 오픈소스 AI"**들을 시험해 보기로 했습니다.

🧪 실험: 7 명의 '서기' 지원자를 뽑다

연구진은 2026 년 1 월 기준, 일본어에 특화된 7 개의 오픈소스 AI 모델을 뽑아 세 가지 시험을 치렀습니다.

1. 시험 A: "양식 맞추기 및 정보 추출" (정형화된 보고서 작성)

상황: AI 에게는 "환자 A 는 유방암 1 기, 크기는 2cm" 같은 **데이터 (JSON)**만 주어졌습니다.
미션: 이 데이터를 보고, 병원이 정해둔 **정해진 양식 (템플릿)**에 맞춰서 보고서를 작성하거나, 반대로 보고서에서 데이터를 다시 찾아내야 했습니다.
결과:
- 논리적 사고가 필요한 문제 (예: 암의 단계를 계산하는 것): '생각하는 AI (Thinking Model)'들이 압도적으로 잘했습니다. 마치 수학 문제를 풀 때 단계별로 꼼꼼히 계산하는 똑똑한 학생처럼, 단순히 글자를 맞추는 게 아니라 논리를 따져서 정답을 냈습니다.
- 단순 복사/붙여넣기: 대부분의 AI 가 잘했지만, '생각하는 AI'는 너무 꼼꼼하게 계산하느라 시간이 좀 더 걸렸습니다.

2. 시험 B: "오타 수정" (실수 고치기)

상황: 실제 병원에서 만든 보고서에 인위적인 오타를 섞어 넣었습니다. (예: 한자를 틀리게 쓰거나, 글자를 빼먹는 등)
미션: AI 가 이 오타를 찾아서 고쳐야 합니다.
결과:
- 의학적 지식이 많은 AI가 가장 잘 고쳤습니다. 일반 AI 는 "글자"만 보고 고치려다 오히려 내용을 망가뜨리는 경우가 많았는데, 의학 전문 지식을 가진 AI는 "아, 이 단어는 병원에서 이렇게 쓰는구나"라고 이해하고 정확하게 고쳤습니다.
- 반면, 어떤 AI 는 오타를 고치려다 문장 전체를 지워버리는 실수를 하기도 했습니다.

3. 시험 C: "설명글 평가" (사람들이 좋아하는 글쓰기)

상황: AI 가 만든 "환자용 설명글"을 실제 의사들과 임상 전문가들이 읽게 했습니다.
미션: "이 글이 환자에게 설명하기 좋은가?"를 1 점부터 5 점까지 매겨주었습니다.
결과: 가장 흥미로운 부분입니다.
- 사람마다 취향이 달랐습니다. 어떤 의사는 "A AI 가 쓴 글이 최고야!"라고 5 점을 줬는데, 다른 의사는 "이건 너무 어렵네"라고 2 점을 주기도 했습니다.
- 마치 요리사가 만든 요리를 평가할 때, "매운 걸 좋아하는 사람"과 "매운 걸 싫어하는 사람"이 서로 다른 점수를 주는 것과 같습니다. AI 가 쓴 글이 완벽해도, 누가 읽느냐에 따라 평가가 천차만별이었습니다.

💡 결론: AI 는 만능이 아니지만, '특정 업무'에는 훌륭하다

이 연구의 핵심 메시지는 다음과 같습니다.

AI 는 '만능 서기'가 아닙니다.
- 단순히 데이터를 양식에 맞춰 옮기는 일 (A) 은 기존 컴퓨터 프로그램이 더 빠르고 정확합니다.
- 하지만 **논리적 추론이 필요하거나 (암 단계 계산), 의학 용어 오타를 고치는 일 (B)**에서는 AI 가 매우 유용합니다.
의사별 취향 (개인화) 이 중요합니다.
- AI 가 쓴 설명글을 모든 의사가 좋아하지는 않습니다. 병원마다, 의사마다 보고서를 쓰는 스타일이 다르기 때문에, AI 를 한 번에 다 쓰는 게 아니라 각 상황에 맞게 골라쓰거나, 병원 스타일에 맞춰 가르쳐야 (개인화) 합니다.
보안과 실용성.
- 외부 클라우드를 쓰지 않고 병원 내부 컴퓨터에서 돌아가는 오픈소스 AI 는 개인정보 보호에 훨씬 안전합니다. 하드웨어가 좀 필요하지만, 기술이 발전하면 점점 더 쓸모있어질 것입니다.

🎯 한 줄 요약

"이 연구는 오픈소스 AI 가 병리 보고서의 '오타 수정'과 '논리적 계산'에는 훌륭하지만, '사람들이 좋아하는 글쓰기'는 여전히 사람마다 취향이 달라서 신중하게 골라 써야 한다"는 것을 증명했습니다.

미래에는 병원에서 AI 가 서기 역할을 도와주되, 어떤 업무에는 어떤 AI 를 쓸지를 잘 골라 사용하는 '맞춤형 시스템'이 등장할 것으로 보입니다.

Performance Evaluation of Open-Source Large Language Models for Assisting Pathology Report Writing in Japanese

🏥 배경: 병원의 '서기'가 필요한 이유

🧪 실험: 7 명의 '서기' 지원자를 뽑다

1. 시험 A: "양식 맞추기 및 정보 추출" (정형화된 보고서 작성)

2. 시험 B: "오타 수정" (실수 고치기)

3. 시험 C: "설명글 평가" (사람들이 좋아하는 글쓰기)

💡 결론: AI 는 만능이 아니지만, '특정 업무'에는 훌륭하다

🎯 한 줄 요약

논문 개요

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

A. 구조적 보고 및 정보 추출

B. 오타 수정

C. 주관적 평가 (설명 문구)

4. 주요 기여 및 의의 (Contributions & Significance)

5. 결론 (Conclusion)

Performance Evaluation of Open-Source Large Language Models for Assisting Pathology Report Writing in Japanese

🏥 배경: 병원의 '서기'가 필요한 이유

🧪 실험: 7 명의 '서기' 지원자를 뽑다

1. 시험 A: "양식 맞추기 및 정보 추출" (정형화된 보고서 작성)

2. 시험 B: "오타 수정" (실수 고치기)

3. 시험 C: "설명글 평가" (사람들이 좋아하는 글쓰기)

💡 결론: AI 는 만능이 아니지만, '특정 업무'에는 훌륭하다

🎯 한 줄 요약

논문 개요

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

A. 구조적 보고 및 정보 추출

B. 오타 수정

C. 주관적 평가 (설명 문구)

4. 주요 기여 및 의의 (Contributions & Significance)

5. 결론 (Conclusion)

유사한 논문

QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation

Stop Before You Fail: Operational Capability Boundaries for Mitigating Unproductive Reasoning in Large Reasoning Models

Seeing Straight: Document Orientation Detection for Efficient OCR

On the Existence and Behavior of Secondary Attention Sinks