LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

이 논문은 안과 질환의 조기 진단과 편향 평가를 지원하기 위해 12 가지 질환과 5 가지 영상 모달리티를 아우르는 대규모 멀티모달 데이터셋 LMOD+ 와 24 개의 최신 멀티모달 대규모 언어 모델에 대한 체계적인 벤치마크 평가를 제시합니다.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen

게시일 2026-03-10
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

눈과 AI 의 새로운 만남: 'LMOD+' 프로젝트 설명

이 논문은 **인공지능 **(AI)을 소개합니다. 이 프로젝트는 AI 가 안과 의사가 되어 눈 질환을 진단하고 설명할 수 있도록 돕기 위해 만들어진 거대한 '학습 교재'이자 '시험지'입니다.

이 내용을 일반인이 쉽게 이해할 수 있도록 비유와 일상적인 언어로 설명해 드리겠습니다.


1. 왜 이 프로젝트가 필요했을까요? (문제 상황)

지금까지 안과 AI 는 **'특정 문제만 푸는 기계'**였습니다.

  • 과거의 AI: "이 사진에 녹내장이 있나요?"라고 물으면 "네/아니오"라고만 대답했습니다. 마치 암기만 잘하는 고등학생처럼, 정해진 문제만 풀고 설명은 못 했습니다.
  • **새로운 AI **(대규모 언어 모델) 최근 AI 는 사람처럼 대화하고 설명할 수 있게 되었습니다. 하지만 이 AI 들을 안과에 적용하려면 적당한 시험지가 없었습니다. 기존 시험지는 너무 단순하거나, 눈 사진이 없는 글자 문제만 있어서 실제 진료 상황과 맞지 않았습니다.

비유: 마치 외국어 회화를 가르치려는 선생님이, 학생들에게는 '회화'를 가르치고 싶지만, 시험지는 오직 '단어 뜻 맞추기'만 있는 상황을 상상해 보세요. 학생이 실제 대화 능력을 키울 수 없습니다. 바로 이 **시험지 **(데이터)가 부족했던 것입니다.

2. LMOD+ 란 무엇인가요? (해결책)

저희는 **LMOD+**라는 새로운 거대한 학습 교재를 만들었습니다.

  • 규모: 약 3 만 2 천 개의 눈 사진과 관련 정보로 이루어진 방대한 자료입니다.
  • 다양성: 단순히 '눈' 사진만 있는 게 아닙니다.
    • 다양한 렌즈: 안과에서 쓰는 5 가지 다른 종류의 카메라 사진 (망막 촬영, 단층 촬영, 수술 장면 등) 을 모두 포함했습니다.
    • 다양한 질문: "이 병이 뭐야?", "병의 단계는 몇 단계야?", "환자의 나이나 성별은 어때?" 등 다양한 질문을 던질 수 있습니다.
    • 정답과 설명: 단순히 정답만 있는 게 아니라, 의사처럼 이유를 설명하는 정답도 함께 담았습니다.

비유: LMOD+ 는 **안과 의사가 되기 위한 '만능 훈련 교실'**입니다. 여기서는 다양한 눈 질환 사진 (교과서) 을 보고, 의사가 환자에게 설명하듯 (대화) 진단하고, 병의严重程度 (단계) 를 판단하는 훈련을 할 수 있습니다.

3. 우리는 무엇을 했나요? (실험 과정)

이 새로운 교재 (LMOD+) 를 이용해 최고급 AI 24 개를 시험에 보냈습니다.

  • 참가자: 구글, 알리바바, 딥시크 등 세계적으로 유명한 최신 AI 모델들입니다.
  • 시험 내용:
    1. 해부학 퀴즈: "이 사진의 빨간 박스 안은 뭐야?" (눈의 구조물 찾기)
    2. 질병 진단: "이 환자는 당뇨망막병증이 있나요?" (병 찾기)
    3. 단계 판별: "병이 얼마나 심한가요?" (1 단계~4 단계 구분)
    4. 편향성 테스트: "이 눈 사진으로 환자의 성별을 맞출 수 있나요?" (AI 가 성별을 잘못 판단하면 안 되니까요)

4. 결과는 어땠나요? (결과 분석)

결과는 "기대감"과 "현실"이 공존했습니다.

  • **기대감 **(잘한 점)

    • 일부 AI 는 **눈 질환을 스크리닝 **(선별)하는 데서 꽤 잘했습니다. 특히 'Qwen'과 'InternVL' 모델은 별도의 학습 없이도 (Zero-shot) 58% 정도의 정확도를 보여, 초보 의사가 될 잠재력이 있음을 보였습니다.
    • 눈의 구조물을 찾는 데도 일부 모델이 좋은 성적을 냈습니다.
  • **현실 **(아쉬운 점)

    • **병의 단계 **(심각도)는 매우 어려웠습니다. AI 들은 대부분 무작위 추측과 비슷한 수준이었습니다.
    • 의사처럼 설명하는 능력도 부족했습니다. AI 가 "녹내장입니다"라고 말하면서, 정작 설명에는 "당뇨망막병증의 증상"을 서술하는 혼란을 보이기도 했습니다.
    • 가장 큰 문제: AI 가 눈 사진을 제대로 '이해'하지 못했습니다. 50% 의 오류는 사진을 잘못 해석해서 발생했습니다. 마치 눈이 멀어서 그림을 보고도 내용을 잘못 이해하는 상황과 비슷합니다.

비유: 이 AI 들은 눈이 좋은 초보 의대생 같습니다.

  • "이게 녹내장이에요?"라고 물으면 "네"라고 맞출 수는 있지만,
  • "왜 녹내장인가요?"라고 물으면 다른 병의 증상을 설명하거나,
  • "병이 얼마나 심한가요?"라고 물으면 아무것도 모른 채 막연히 대답합니다.

5. 왜 이런 결과가 나왔을까요? (원인 분석)

연구진은 AI 가 겪는 오류를 5 가지로 분류했습니다.

  1. 텍스트 생성 붕괴: 말을 반복하거나 ("설명: 설명: 설명...") 엉뚱한 말을 합니다.
  2. 의학적 지식 부족: 병의 이름이나 증상을 헷갈립니다.
  3. 논리 모순: "녹내장입니다"라고 결론을 내리면서, 정작 설명에는 "정상입니다"라고 말합니다.
  4. **시각적 오해 **(가장 흔함) 사진을 보고도 병의 징후를 놓치거나, 정상인 부분을 병으로 오인합니다.
  5. 시각 무시: 사진을 보지 않고 "이미지가 불명확합니다"라고 변명하거나, 일반적인 의학 지식을 대충 읊습니다.

핵심: AI 는 **글 **(지식)은 잘하지만, **눈 **(이미지)을 연결하는 능력이 아직 부족합니다.

6. 이 프로젝트의 의의와 미래

이 연구는 단순히 AI 가 못한다는 것을 보여주는 것이 아니라, 어디가 문제인지 정확히 짚어주어 더 나은 AI 를 만들 길을 열었습니다.

  • 공개: 이 모든 데이터와 시험지는 전 세계 연구자들에게 무료로 공개되었습니다. 누구나 이 '교재'를 이용해 더 좋은 AI 를 개발할 수 있습니다.
  • 비전: 앞으로 이 AI 들이 의사들의 든든한 조수가 되어, 눈이 나빠질 위험이 있는 환자를 미리 찾아내고, 치료 시기를 놓치지 않도록 돕는 것이 목표입니다.

마무리 비유:
LMOD+ 는 **AI 가 안과 의사가 되기 위한 '첫걸음'**입니다. 아직 AI 는 유아기 단계라, 의사의 말 (지식) 은 잘 따라하지만 눈 (이미지) 을 제대로 보지는 못합니다. 하지만 이 '시험지'를 통해 어디가 부족하고 어떻게 가르쳐야 할지 알게 되었으니, 앞으로는 더 똑똑한 AI 의대생을 키울 수 있을 것입니다.

이 프로젝트는 AI 기술이 단순히 "멋진 기술"을 넘어, 실제로 전 세계의 실명 위기를 줄이는 데 기여하기를 바라는 따뜻한 마음에서 시작되었습니다.