KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

この論文は、韓国語の文化的・制度的文脈に特化した多分野・多モーダル理解評価ベンチマーク「KMMMU」を提案し、既存の英語中心のベンチマークでは捉えきれないローカルな慣習や専門基準に基づく課題において、現在の最先端モデルが依然として高い精度を達成できていないことを示しています。

Nahyun Lee, Guijin Son, Hyunwoo Ko, Chanyoung Kim, JunYoung An, Kyubeen Han, Il-Youp Kwak

公開日 2026-04-16
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

韓国の「難問テスト」で AI を試す:KMMMU の物語

この論文は、**「AI が本当に賢いのか、それともただの『お勉強上手』なのか」**を、韓国という特定の文化とルールの中で厳しく試す新しいテスト(KMMMU)について書かれたものです。

まるで、AI に「世界の一般常識」だけでなく、「韓国の法律や、韓国の学校でしか使わない専門用語、韓国の独特な図解」を解かせるようなものです。

以下に、この研究のポイントを、わかりやすい比喩を使って説明します。


1. なぜ新しいテストが必要だったのか?(「翻訳された料理」の問題)

これまでの AI のテストは、ほとんどが**「英語で作られた料理」**でした。
「この料理(問題)を韓国語に翻訳して、韓国人に食べさせてみよう」というやり方です。

しかし、これには大きな問題がありました。

  • 例え話: 韓国の「泡菜(キムチ)」の作り方を、英語のレシピを翻訳しただけで教えるようなものです。
    • 韓国の伝統的な「お酢の量」や「地域ごとの味付けのルール」が抜けてしまいます。
    • 翻訳では、**「その国独自のルールや、専門的な暗黙の了解」**が伝わらないのです。

そこで、研究者たちは**「最初から韓国語で、韓国の専門家(公務員試験や国家資格試験)が出題する本物の問題」**を集めて、新しいテスト「KMMMU」を作りました。

2. KMMMU とはどんなテスト?(「3,466 問の超難問パズル」)

このテストは、3,466 問もの問題を含んでいます。

  • 9 つの分野: 工学、法律、芸術、数学など、あらゆる専門分野をカバー。
  • 9 つの画像タイプ: 回路図、地図、表、写真、手書きのメモなど、視覚的な情報も多様。
  • 韓国特有の難問: 韓国の法律や行政ルールにしかわからない問題(例:「小型車」の定義が韓国ではこう決まっている、など)も含まれています。

まるで、**「韓国の国家資格試験に、画像を見ながら答える」**という、非常にハードルが高い試験です。

3. 結果はどうだった?(「天才でも 5 割しか取れない」)

最新の超高性能 AI(Google の Gemini や OpenAI の GPT-5 など)にこのテストを解かせてみました。

  • 結果: 最も強い AI でも、正解率は 52% 程度でした。
  • 意味: 100 点満点のテストで、50 点ちょっとしか取れていないということです。
    • 英語のテストなら 90 点以上取るような AI でも、韓国の「ローカルルール」や「専門用語」の前では、**「あやふやな知識」**しか持っていないことがバレてしまいました。

4. AI が間違える理由(「頭が良すぎるが、勘違いしている」)

なぜ AI は失敗するのでしょうか?研究チームが詳しく分析したところ、**「推理能力が足りないから」ではなく、「別の場所が弱いから」**でした。

  • ① ルールとラベルのミスマッチ:

    • 例え話: 「これは『赤いリンゴ』だ」と言いたいのに、韓国の法律では「この形は『青りんご』という名前だ」と決まっているのに、AI は「赤いからリンゴだ」と勝手に判断して間違える。
    • 専門用語や、その国だけの決まりごとの「名前」を正確に結びつけるのが苦手です。
  • ② 韓国特有の知識の欠如:

    • 韓国の行政手続きや、特定の業界の「暗黙のルール」を知らないため、正解に至れません。
  • ③ 記号の読み間違い:

    • 図や記号から「法則」を見抜くのが苦手です。少しの例を見て「あ、これはこうだ!」と推測しようとするのですが、その推測が的外れなことが多いです。

5. 結論:AI は「世界市民」だが、「地域通」ではない

この研究が示しているのは、**「AI は世界の一般常識は知っているが、特定の国や文化の『深層』にはまだ届いていない」**ということです。

  • 今の AI: 英語圏の知識は豊富ですが、韓国の「法律の細かい違い」や「専門家の間だけで通じる言葉」には弱いです。
  • 今後の課題: AI を本当に役立つものにするには、**「その土地の文化やルールを深く理解し、専門家のようになれる」**ように育てる必要があります。

まとめ

この論文は、**「AI に『韓国という国』の専門家になってもらうには、まだ道半ばだ」**と告げる重要な報告書です。

AI が単に「翻訳機」や「検索エンジン」で終わらず、**「現地の専門家として信頼できる存在」**になるためには、KMMMU のような「本物の難問」で鍛え続ける必要がある、と教えてくれています。

自分の分野の論文に埋もれていませんか?

研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。

Digest を試す →