KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

Each language version is independently generated for its own context, not a direct translation.

🇰🇷 De Grote "Koreaanse Examen"-Test voor AI

Stel je voor dat je een slimme robot hebt die alles kan zien en lezen. Hij is getraind op miljoenen Engelse boeken en foto's. Hij kan een recept lezen, een wiskundeprobleem oplossen en een schilderij beschrijven. Maar wat gebeurt er als je hem een Koreaans rijbewijsexamen geeft, of een vraag over de lokale bouwvoorschriften in Seoel?

Dat is precies wat dit paper onderzoekt. De onderzoekers hebben KMMMU gemaakt: een gigantische test voor kunstmatige intelligentie (AI), speciaal ontworpen voor de Koreaanse cultuur en taal.

🧩 Waarom was dit nodig? (De "Vertaal-Valstrik")

Vroeger testten we AI's met vragen in het Engels. Als we die vragen vertaalden naar het Koreaans, dachten we dat het goed was. Maar dat is als proberen een Italiaans gerecht te koken met een vertaald recept uit een Duits boek. De smaken kloppen niet, en de ingrediënten missen.

In Korea (en veel andere landen) zijn regels, wetten en examens vaak gebaseerd op lokale gewoontes. Een vraag over "verkeersregels" in de VS is anders dan in Korea. Een vraag over "architectuur" hangt af van lokale stijlen. Bestaande AI's faalden hier omdat ze de context niet begrepen, alleen de woorden.

📚 Wat is KMMMU eigenlijk?

KMMMU is een verzameling van 3.466 moeilijke examenvragen uit Korea. Het is alsof je een AI een dag lang laat meedoen aan:

Het staatsdiploma-examen (voor ambtenaren).
Technische vakanties (elektriciteit, bouwkunde).
Olympiades voor wiskunde en wetenschappen.
Juridische toetsen.

De vragen zijn niet alleen tekst; ze bevatten diagrammen,电路图 (schakelingen), kaarten en foto's. De AI moet dus niet alleen lezen, maar ook zien en begrijpen hoe die plaatjes in de Koreaanse context passen.

🤖 Wat leerden we van de test? (De Resultaten)

De onderzoekers lieten de slimste AI's ter wereld (zoals de nieuwste versies van Google, OpenAI en Qwen) deze test doen. Het nieuws is niet heel bemoedigend:

Ze zijn nog niet slim genoeg: Zelfs de beste AI's haalden maar ongeveer 42% tot 52% goed. Dat is alsof je een student bent die net de helft van de vragen goed heeft. Ze zijn nog lang niet "expert".
Groot is niet altijd beter: Een grotere AI (met meer "hersenen") doet het iets beter, maar dat helpt niet altijd bij de moeilijkste, meest Koreaanse vragen.
Het "Koreaans-probleem": AI's doen het veel slechter op vragen die specifiek Koreaanse kennis vereisen (zoals lokale wetten of administratieve regels). Ze kunnen de taal wel, maar de cultuur niet.

🔍 Waarom zakken ze door? (De Oorzaken)

De onderzoekers keken naar de fouten en ontdekten drie belangrijke redenen waarom de AI's faalden:

De "Vertaal-Valstrik" (Conventie naar Label):
Stel je voor dat de AI een bord ziet met een Koreaans symbool. Ze weten wat het symbool is, maar ze weten niet welke officiële naam die in Koreaanse wetgeving heeft. Ze vertalen het naar het Engels in hun hoofd, en dat klopt niet met de Koreaanse regel. Het is alsof je denkt dat een "sneeuwklokje" in Korea een andere naam heeft dan in Nederland, en je raakt in de war.
Geheugen vs. Redeneren:
De AI's kunnen vaak heel goed redeneren (stap-voor-stap denken), maar ze missen de specifieke kennis. Ze weten niet dat een bepaald type auto in Korea een "kleine auto" is met een specifieke draaicirkel, omdat ze dat niet in hun training hebben gezien.
Het "Puzzel"-probleem:
Bij sommige vragen (vooral in kunst en design) moet je een heel specifiek vakterm gebruiken. De AI ziet het plaatje wel, maar kiest de verkeerde, bijna-juiste term. Het is alsof je een schilderij ziet en zegt "oh, dat is een landschap", terwijl het examen vraagt om de specifieke stijl "Impressionisme" te noemen.

💡 Wat betekent dit voor de toekomst?

Dit paper is een wake-up call. Het zegt: "AI's zijn goed in algemene dingen, maar ze zijn nog niet klaar voor de echte, lokale wereld."

Om AI's echt slim te maken voor experts (zoals artsen, ingenieurs of juristen in Korea), moeten we ze niet alleen meer data geven, maar ze leren lokale regels en culturele nuances begrijpen. KMMMU is nu de "trainingsbaan" waar deze AI's moeten oefenen voordat ze echt op het werk mogen.

Kortom: We hebben een nieuwe, moeilijke test voor AI's gemaakt die laat zien dat "slim zijn" in het Engels niet genoeg is om slim te zijn in Korea. De AI's moeten nog veel leren over de lokale wereld voordat ze onze experts kunnen vervangen.

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

🇰🇷 De Grote "Koreaanse Examen"-Test voor AI

🧩 Waarom was dit nodig? (De "Vertaal-Valstrik")

📚 Wat is KMMMU eigenlijk?

🤖 Wat leerden we van de test? (De Resultaten)

🔍 Waarom zakken ze door? (De Oorzaken)

💡 Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie: KMMMU Benchmark

Belangrijkste Resultaten

Bijdragen en Significantie

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

🇰🇷 De Grote "Koreaanse Examen"-Test voor AI

🧩 Waarom was dit nodig? (De "Vertaal-Valstrik")

📚 Wat is KMMMU eigenlijk?

🤖 Wat leerden we van de test? (De Resultaten)

🔍 Waarom zakken ze door? (De Oorzaken)

💡 Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie: KMMMU Benchmark

Belangrijkste Resultaten

Bijdragen en Significantie

Meer zoals dit

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation