Evaluating Large Language Models for Translating Multimodal Phenotype… — 쉬운 설명

원저자: Yan, C., Xin, Y., Su, W.-C., Gangireddy, S., Durbhakula, S., Bruehl, S. P., Dickson, A. L., Li, L., Feng, Q., Malin, B. A., Derr, T., Wei, W.-Q.

게시일 2026-05-22

📖 3 분 읽기☕ 가벼운 읽기

보기: medRxiv ↗PDF ↗

CC BY 4.0

원저자: Yan, C., Xin, Y., Su, W.-C., Gangireddy, S., Durbhakula, S., Bruehl, S. P., Dickson, A. L., Li, L., Feng, Q., Malin, B. A., Derr, T., Wei, W.-Q.

원본 논문은 CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ⚕️ 이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

당신이 유명한 요리를 재현하려는 셰프라고 상상해 보세요. 하지만 레시피는 없습니다. 대신에는 냅킨에 낙서한 메모, 만화로 그려진 메모, 그리고 혼란스러운 언어로 섞여 쓰인 메모들이 뒤죽박죽 쌓여 있습니다. 당신의 목표는 이 messy 한 메모들을 로봇 주방이 완벽하게 요리를 할 수 있도록 따라갈 수 있는 정밀한 단계별 지침서로 바꾸는 것입니다.

이 논문은 의료 연구에서 이 작업을 수행할 수 있는지 확인하기 위해 두 가지 초지능 AI 셰프(대형 언어 모델, 즉 LLM) 를 테스트한 내용에 관한 것입니다.

문제: "번역 실종" 레시피

의료 연구에서 과학자들은 "2 형 당뇨병 환자"와 같은 특정 환자 그룹을 복잡한 규칙으로 정의합니다. 이러한 규칙은 보통 이야기, 흐름도, 그리고 표가 섞여 있는 것처럼 보이는 사람이 읽을 수 있는 문서로 작성됩니다.

이 규칙들을 병원 컴퓨터 시스템에서 사용하려면 인간 전문가가 수동으로 이를 컴퓨터 언어(SQL) 로 번역해야 합니다. 이는 시를 컴퓨터 코드로 번역하는 것과 같습니다. 시간이 많이 걸리고 매우 지루하며, 서로 다른 두 명의 전문가가 수행하면 약간 다른 결과가 나올 수도 있습니다. 연구자들은 AI 가 이 번역 작업을 자동으로 수행할 수 있는지 확인하고자 했습니다.

실험: AI 셰프 테스트

연구자들은 이용 가능한 가장 똑똑한 두 가지 AI 모델(OpenAI 의 GPT o3와 Anthropic 의 Claude Opus 4.1) 을 선정하고, PheKB 라는 공개 도서관에서 신장 손상, 심장 마비, 당뇨병과 같은 질환에 대한 의료 정의인 다섯 가지 다른 "레시피"를 그들에게 제공했습니다.

그들은 셰프에게 서로 다른 유형의 지시를 주는 것처럼 AI 를 세 가지 다른 방식으로 테스트했습니다:

풀 패키지: AI 는 전체 문서(텍스트, 차트, 다이어그램) 를 받았습니다.
스토리만: AI 는 그림 없이 오직 작성된 텍스트와 표만 받았습니다.
그림만: AI 는 단어가 없이 오직 다이어그램과 흐름도만 받았습니다.

결과: 무엇이 작동했고 무엇이 작동하지 않았는지

1. "그림만"의 함정
AI 가 다이어그램(흐름도) 만을 읽으려 했을 때, 완전히 실패했습니다. 마치 재료를 설명하거나 불 조절을 설명하는 텍스트 없이 냄비와 포크 그림만 보고 복잡한 요리를 하라고 셰프에게 요구하는 것과 같았습니다. AI 는 중요한 세부 사항을 놓치고, 타이밍을 잘못 잡았으며, 작동하지 않는 지침을 생성했습니다.

2. "스토리"가 왕이다
AI 가 그림 없이 작성된 텍스트를 받았을 때, 매우 좋은 성과를 거두었습니다. 작성된 단어들이 필요한 정보의 거의 대부분을 포함하고 있는 것으로 나타났습니다. AI 는 논리를 이해하고 컴퓨터 코드를 정확하게 작성할 수 있었습니다.

3. AI 는 훌륭한 초안 작성자이지만 최종 편집자는 아니다
두 AI 모델 모두 규칙의 전체적인 그림과 논리를 이해하는 데 놀라울 정도로 뛰어났습니다. 그러나 그들은 특정 유형의 실수를 저질렀습니다:

빠진 재료: 그들은 때때로 특정 의료 코드(예: 특정 유형의 약물) 를 포함하는 것을 잊었습니다.
잘못된 숫자: 그들은 임계값을 잘못 잡을 수 있었습니다 (예: 규칙이 "150 이상"인데 "140 이상"이라고 말하는 경우).
지어낸 것: 때로는 AI 가 원래 문서에 전혀 없던 규칙이나 조건을 만들어냈습니다("할루시네이션").
형식 혼란: 다이어그램을 볼 때, 그들은 종종 시각적 화살표를 논리적 "if-then" 컴퓨터 명령으로 어떻게 변환해야 할지 파악하지 못했습니다.

큰 교훈

이 논문은 이러한 AI 모델들이 아직 인간 전문가를 대체할 준비가 되지 않았다고 결론지었습니다. 그들은 messy 한 문서를 보고 완벽한, 바로 사용할 수 있는 컴퓨터 프로그램을 뱉어낼 수 없습니다.

그러나 그들은 훌륭한 초안 생성기입니다. 명확하고 구조화된 텍스트를 제공하면, 그들은 코드에 대한 매우 좋은 시작점을 작성할 수 있습니다. 하지만 그들은 숫자를 잘못 잡거나 규칙을 놓치는 것과 같이 미묘하지만 위험한 실수를 할 수 있기 때문에, 인간 전문가가 반드시 그들의 작업을 확인해야 합니다.

최종 교훈:
가장 큰 문제는 AI 가 충분히 똑똑하지 않기 때문이 아니라, 의료 문서가 컴퓨터가 읽기 쉬운 방식으로 작성되지 않았기 때문입니다. 만약 의사들과 연구자들이 냅킨에 낙서하는 대신 표준 형식으로 레시피를 작성하듯 메모를 더 명확하고 구조화되게 표준화한다면, AI 는 훨씬 더 유용해질 것입니다. 그때까지 AI 는 유용한 조수이지만, 인간 전문가가 반드시 boss 로 남아야 합니다.

Evaluating Large Language Models for Translating Multimodal Phenotype Documentations into Executable EHR Phenotyping Algorithms

문제: "번역 실종" 레시피

실험: AI 셰프 테스트

결과: 무엇이 작동했고 무엇이 작동하지 않았는지

큰 교훈

기술 요약: 다중 양식 표현형 문서화를 실행 가능한 EHR 표현형 알고리즘으로 변환하기 위한 대규모 언어 모델 평가

Evaluating Large Language Models for Translating Multimodal Phenotype Documentations into Executable EHR Phenotyping Algorithms

문제: "번역 실종" 레시피

실험: AI 셰프 테스트

결과: 무엇이 작동했고 무엇이 작동하지 않았는지

큰 교훈

기술 요약: 다중 양식 표현형 문서화를 실행 가능한 EHR 표현형 알고리즘으로 변환하기 위한 대규모 언어 모델 평가

유사한 논문