KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

이 논문은 영어 중심의 기존 벤치마크를 넘어 한국어 문화와 제도적 맥락에 특화된 9 개 학문 분야와 다양한 시각 모달리티를 포괄하는 대규모 멀티모달 이해 평가 벤치마크인 'KMMMU'를 소개하고, 현재 최첨단 모델들이 한국어 전문 지식과 현지 관습 기반의 정보 밀집형 문제 해결에서 여전히 큰 한계를 보이고 있음을 실증적으로 분석합니다.

Nahyun Lee, Guijin Son, Hyunwoo Ko, Chanyoung Kim, JunYoung An, Kyubeen Han, Il-Youp Kwak

게시일 2026-04-16
📖 2 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 왜 새로운 시험이 필요했을까요? (영어 vs 한국어)

지금까지 AI 를 평가할 때는 주로 영어로 된 시험지를 사용했습니다. 이는 마치 "영어를 유창하게 하는지"만 확인하는 것과 같습니다.

하지만 한국에서는 한국의 법, 관습, 공인된 자격증 시험 등 영어권에는 없는 독특한 문제들이 많습니다.

  • 비유: 외국인이 한국에서 운전 면허 시험을 볼 때, 영어로 된 도로 표지판만 보고 답을 맞춘다면 실제 한국 도로를 운전할 수 있을까요? 아마 힘들겠죠.
  • KMMMU 의 역할: 이 논문은 **"한국인처럼 생각하고, 한국 법규와 문화에 맞춰 문제를 풀 수 있는가?"**를 확인하기 위해, 한국 공무원 시험, 기술 자격증, 올림피아드 문제 등을 모아서 3,466 개의 새로운 시험지를 만들었습니다.

2. 시험 결과는 어땠나요? (AI 의 실력)

최고급 AI 모델들을 이 시험지에 풀어보게 했더니, 결과는 생각보다 처참했습니다.

  • 결과: 가장 똑똑한 오픈소스 AI 는 100 점 만점에 42 점밖에 못 맞췄고, 가장 비싼 유료 AI 도 어려운 문제에서는 52 점 정도였습니다.
  • 비유: "이 AI 는 수학 문제를 풀거나 그림을 보는 건 잘하는데, **'한국적인 상황'**을 이해하는 데는 여전히 초등학생 수준"이라는 뜻입니다.
    • 예시: "소형차"와 "승용차"의 법적 정의가 한국에서는 엄격하게 나뉘는데, AI 는 이를 혼동하거나 외국 기준을 대입해서 틀렸습니다.

3. AI 가 틀린 진짜 이유는 무엇일까요? (추론 부족이 아님)

많은 사람이 "AI 가 너무 멍청해서 추론 (논리) 을 못해서 틀린 것"이라고 생각할 수 있습니다. 하지만 연구진은 그게 아니라고 말합니다.

  • 핵심 원인: AI 는 논리 자체는 꽤 잘 세웁니다. 문제는 **"한국 특유의 규칙을 기억하지 못하거나, 용어를 정확히 매칭하지 못한다"**는 점입니다.
  • 비유 1 (규칙 매칭): AI 는 "도로 구조 기준"이라는 책을 읽을 수는 있지만, **"한국 도로법"**의 특정 조항을 기억하지 못해 엉뚱한 답을 냅니다. (지식 부재)
  • 비유 2 (상징 추론): 그림을 보고 "이 기호는 A 를 의미하고, B 는 C 를 의미한다"는 새로운 규칙을 몇 번의 예시만으로 유추해야 하는 문제에서는 AI 가 엉뚱한 가정을 하고 길을 잃습니다. (유추 능력 부족)

4. 결론: 무엇을 의미하나요?

이 논문은 **"AI 가 세상을 이해하려면, 단순히 영어만 잘하면 안 된다"**는 것을 보여줍니다.

  • 요약: AI 가 한국 사회에서 실제로 일하려면, 한국의 법, 문화, 관습, 그리고 전문가들의 세부적인 용어를 정확히 알아야 합니다.
  • 미래: 이 KMMMU 라는 시험지는 앞으로 AI 가 한국 사회에 더 잘 적응할 수 있도록, 개발자들이 AI 를 훈련시키는 나침반 역할을 할 것입니다.

한 줄 요약:

"지금까지의 AI 는 영어권에서는 천재였지만, 한국 문화와 법규가 얽힌 복잡한 상황에서는 여전히 '한국인'이 되기 위해 더 공부해야 하는 학생입니다."

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →