KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest herausfinden, wie gut ein neuer, super-intelligenter Roboter ist. Bisher haben wir ihm nur Aufgaben auf Englisch gegeben, wie zum Beispiel: „Erkläre mir dieses Bild von einer amerikanischen Brücke" oder „Löse dieses Mathe-Problem aus einem US-Lehrbuch".

Aber was passiert, wenn wir ihn in Korea schicken? Dort sind die Regeln, die Bilder und die Sprache ganz anders. Ein Roboter, der in den USA ein Genie ist, könnte in Seoul völlig verloren sein, weil er die lokalen Gesetze, die spezifischen Diagramme in technischen Prüfungen oder die kulturellen Nuancen nicht versteht.

Genau hier kommt KMMMU ins Spiel. Das ist wie ein großer, koreanischer „Führerschein-Test" für künstliche Intelligenz.

Hier ist die einfache Erklärung, was die Forscher gemacht haben und was sie herausgefunden haben:

1. Der Test: Ein riesiges Puzzle aus Korea

Die Forscher haben 3.466 Fragen gesammelt, die echte koreanische Prüfungen sind. Das sind keine einfachen Übersetzungen aus dem Englischen, sondern originale Aufgaben aus:

Staatlichen Prüfungen (wie für Beamte),
Technischen Zertifikaten (für Ingenieure, Elektriker),
Wissenschafts-Olympiaden und
Rechts- und Wirtschaftstests.

Die Besonderheit: Es geht nicht nur um Text. Die Fragen sind multimodal. Das bedeutet, der Roboter muss Bilder, Diagramme, Schaltpläne, Tabellen und Text gleichzeitig verstehen.

Analogie: Stell dir vor, du bekommst einen Bauplan (Bild), eine Liste mit Materialkosten (Tabelle) und eine mündliche Anweisung (Text) auf Koreanisch. Du musst alles zusammenfügen, um die richtige Antwort zu geben.

2. Die Schwierigkeit: Der „Harte Modus"

Die Forscher waren sehr streng. Sie haben alle Fragen genommen, die aktuelle KI-Modelle leicht lösen konnten, und sie weggeworfen. Übrig blieben nur die schwierigsten 627 Fragen (der „Hard Subset").

Metapher: Es ist, als würdest du einen Schüler nicht mit einfachen Rechenaufgaben testen, sondern nur mit den Aufgaben, die selbst die besten Schüler der Welt verwirren.

3. Das Ergebnis: Die KIs stolpern

Das Ergebnis war überraschend und etwas ernüchternd für die KI-Entwickler:

Selbst die stärksten Modelle (die „Super-Computer" der Welt) schafften im Durchschnitt nur ca. 42 % bis 52 % richtige Antworten.
Das ist wie bei einem Schüler, der eine 5 oder 6 in der Schule bekommt, obwohl er eigentlich ein „Genie" sein sollte.
Besonders schlecht schnitten sie bei koreanisch-spezifischen Fragen ab. Hier lag die Lücke bis zu 13 % hinter den allgemeinen Fragen zurück.

4. Warum scheitern die Roboter? (Die Fehleranalyse)

Die Forscher haben sich genau angesehen, warum die KIs falsch lagen. Es lag nicht daran, dass sie nicht „nachdenken" konnten. Das Problem war anders:

Das „Verzeichnis-Problem" (Kulturelles Wissen):
Die KIs wissen oft nicht, was in Korea unter einem „kleinen Fahrzeug" (Sohnyeongcha) im juristischen Sinne genau verstanden wird. Sie verwechseln Begriffe, weil sie nur globale, englische Daten gelernt haben.
- Beispiel: Ein Roboter liest ein Gesetz über Straßenbau, verwechselt aber die Definition eines kleinen Autos mit einem normalen Auto und gibt die falsche Zahl für den Wendekreis an. Er kennt die Wörter, aber nicht die lokale Bedeutung.
Das „Regelbuch-Problem" (Genauigkeit):
In Korea gibt es sehr spezifische Regeln für Dinge wie die Beschriftung von Diagrammen oder die Rechtschreibung. Die KIs geben oft eine Antwort, die „plausibel" klingt, aber nicht exakt nach dem offiziellen Regelbuch ist.
- Analogie: Es ist wie bei einem Koch, der ein Gericht macht, das schmeckt, aber der Chef-Koch (der Prüfer) sagt: „Nein, du hast das Salz falsch gemessen. Nach dem offiziellen Rezept muss es genau 3 Gramm sein, nicht 3,1." Die KI macht den Fehler der „ungefähren Richtigkeit".
Das „Bilder-Problem" (Symbole):
Bei technischen Zeichnungen (z. B. in der Elektrotechnik) erkennen die KIs die Linien, aber sie verstehen nicht, was das spezifische Symbol in einem koreanischen Kontext bedeutet. Sie sehen das Bild, aber lesen die „Bedeutung" falsch.

5. Was bedeutet das für uns?

Die Botschaft der Studie ist klar: KI ist noch nicht wirklich „weltweit" oder „lokal" fit.

Bisher haben wir KI-Modelle trainiert, wie englischsprachige Studenten, die viel lesen. Aber wenn wir sie in die reale Welt schicken – in ein koreanisches Büro, eine Werkstatt oder ein Gericht – merken wir, dass ihnen das lokale Handbuch und das kulturelle Verständnis fehlen.

KMMMU ist also wie ein Spiegel, der zeigt: Um wirklich intelligente Roboter zu bauen, müssen wir sie nicht nur mit mehr Daten füttern, sondern sie auch in der lokalen Kultur und den spezifischen Regeln ihrer Umgebung ausbilden. Sonst bleiben sie wie ein Tourist, der zwar gut Englisch spricht, aber in Seoul trotzdem den Bus nicht findet, weil er die Haltestellenschilder nicht versteht.

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

1. Der Test: Ein riesiges Puzzle aus Korea

2. Die Schwierigkeit: Der „Harte Modus"

3. Das Ergebnis: Die KIs stolpern

4. Warum scheitern die Roboter? (Die Fehleranalyse)

5. Was bedeutet das für uns?

1. Problemstellung

2. Methodik und Aufbau des KMMMU-Datensatzes

3. Wichtige Ergebnisse

4. Beiträge und Bedeutung

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

1. Der Test: Ein riesiges Puzzle aus Korea

2. Die Schwierigkeit: Der „Harte Modus"

3. Das Ergebnis: Die KIs stolpern

4. Warum scheitern die Roboter? (Die Fehleranalyse)

5. Was bedeutet das für uns?

1. Problemstellung

2. Methodik und Aufbau des KMMMU-Datensatzes

3. Wichtige Ergebnisse

4. Beiträge und Bedeutung

Mehr davon

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation