Each language version is independently generated for its own context, not a direct translation.

韓国の「難問テスト」で AI を試す：KMMMU の物語

この論文は、**「AI が本当に賢いのか、それともただの『お勉強上手』なのか」**を、韓国という特定の文化とルールの中で厳しく試す新しいテスト（KMMMU）について書かれたものです。

まるで、AI に「世界の一般常識」だけでなく、「韓国の法律や、韓国の学校でしか使わない専門用語、韓国の独特な図解」を解かせるようなものです。

以下に、この研究のポイントを、わかりやすい比喩を使って説明します。

1. なぜ新しいテストが必要だったのか？（「翻訳された料理」の問題）

これまでの AI のテストは、ほとんどが**「英語で作られた料理」**でした。
「この料理（問題）を韓国語に翻訳して、韓国人に食べさせてみよう」というやり方です。

しかし、これには大きな問題がありました。

例え話: 韓国の「泡菜（キムチ）」の作り方を、英語のレシピを翻訳しただけで教えるようなものです。
- 韓国の伝統的な「お酢の量」や「地域ごとの味付けのルール」が抜けてしまいます。
- 翻訳では、**「その国独自のルールや、専門的な暗黙の了解」**が伝わらないのです。

そこで、研究者たちは**「最初から韓国語で、韓国の専門家（公務員試験や国家資格試験）が出題する本物の問題」**を集めて、新しいテスト「KMMMU」を作りました。

2. KMMMU とはどんなテスト？（「3,466 問の超難問パズル」）

このテストは、3,466 問もの問題を含んでいます。

9 つの分野: 工学、法律、芸術、数学など、あらゆる専門分野をカバー。
9 つの画像タイプ: 回路図、地図、表、写真、手書きのメモなど、視覚的な情報も多様。
韓国特有の難問: 韓国の法律や行政ルールにしかわからない問題（例：「小型車」の定義が韓国ではこう決まっている、など）も含まれています。

まるで、**「韓国の国家資格試験に、画像を見ながら答える」**という、非常にハードルが高い試験です。

3. 結果はどうだった？（「天才でも 5 割しか取れない」）

最新の超高性能 AI（Google の Gemini や OpenAI の GPT-5 など）にこのテストを解かせてみました。

結果: 最も強い AI でも、正解率は 52% 程度でした。
意味: 100 点満点のテストで、50 点ちょっとしか取れていないということです。
- 英語のテストなら 90 点以上取るような AI でも、韓国の「ローカルルール」や「専門用語」の前では、**「あやふやな知識」**しか持っていないことがバレてしまいました。

4. AI が間違える理由（「頭が良すぎるが、勘違いしている」）

なぜ AI は失敗するのでしょうか？研究チームが詳しく分析したところ、**「推理能力が足りないから」ではなく、「別の場所が弱いから」**でした。

① ルールとラベルのミスマッチ:
- 例え話: 「これは『赤いリンゴ』だ」と言いたいのに、韓国の法律では「この形は『青りんご』という名前だ」と決まっているのに、AI は「赤いからリンゴだ」と勝手に判断して間違える。
- 専門用語や、その国だけの決まりごとの「名前」を正確に結びつけるのが苦手です。
② 韓国特有の知識の欠如:
- 韓国の行政手続きや、特定の業界の「暗黙のルール」を知らないため、正解に至れません。
③ 記号の読み間違い:
- 図や記号から「法則」を見抜くのが苦手です。少しの例を見て「あ、これはこうだ！」と推測しようとするのですが、その推測が的外れなことが多いです。

5. 結論：AI は「世界市民」だが、「地域通」ではない

この研究が示しているのは、**「AI は世界の一般常識は知っているが、特定の国や文化の『深層』にはまだ届いていない」**ということです。

今の AI: 英語圏の知識は豊富ですが、韓国の「法律の細かい違い」や「専門家の間だけで通じる言葉」には弱いです。
今後の課題: AI を本当に役立つものにするには、**「その土地の文化やルールを深く理解し、専門家のようになれる」**ように育てる必要があります。

まとめ

この論文は、**「AI に『韓国という国』の専門家になってもらうには、まだ道半ばだ」**と告げる重要な報告書です。

AI が単に「翻訳機」や「検索エンジン」で終わらず、**「現地の専門家として信頼できる存在」**になるためには、KMMMU のような「本物の難問」で鍛え続ける必要がある、と教えてくれています。

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

韓国の「難問テスト」で AI を試す：KMMMU の物語

1. なぜ新しいテストが必要だったのか？（「翻訳された料理」の問題）

2. KMMMU とはどんなテスト？（「3,466 問の超難問パズル」）

3. 結果はどうだった？（「天才でも 5 割しか取れない」）

4. AI が間違える理由（「頭が良すぎるが、勘違いしている」）

5. 結論：AI は「世界市民」だが、「地域通」ではない

まとめ

KMMMU: 韓国語および文脈における大規模多分野マルチモーダル理解の評価に関する技術的サマリー

1. 問題定義と背景

2. 手法とデータセット構築

データ収集と前処理

アドバーサリアルフィルタリング（難易度調整）

データセットの構成

3. 主要な貢献

4. 実験結果

主要な知見

エラー分析の具体例

5. 意義と結論

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

韓国の「難問テスト」で AI を試す：KMMMU の物語

1. なぜ新しいテストが必要だったのか？（「翻訳された料理」の問題）

2. KMMMU とはどんなテスト？（「3,466 問の超難問パズル」）

3. 結果はどうだった？（「天才でも 5 割しか取れない」）

4. AI が間違える理由（「頭が良すぎるが、勘違いしている」）

5. 結論：AI は「世界市民」だが、「地域通」ではない

まとめ

KMMMU: 韓国語および文脈における大規模多分野マルチモーダル理解の評価に関する技術的サマリー

1. 問題定義と背景

2. 手法とデータセット構築

データ収集と前処理

アドバーサリアルフィルタリング（難易度調整）

データセットの構成

3. 主要な貢献

4. 実験結果

主要な知見

エラー分析の具体例

5. 意義と結論

関連論文

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation