KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

Die Studie stellt KMMMU vor, einen umfassenden, in Koreanisch verfassten Benchmark für die multimodale Verständnisbewertung in kulturellen und institutionellen Kontexten, der zeigt, dass selbst die leistungsstärksten aktuellen Modelle erhebliche Schwierigkeiten bei der Abbildung lokaler Konventionen und fachspezifischer Standards haben.

Nahyun Lee, Guijin Son, Hyunwoo Ko, Chanyoung Kim, JunYoung An, Kyubeen Han, Il-Youp Kwak

Veröffentlicht 2026-04-16
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest herausfinden, wie gut ein neuer, super-intelligenter Roboter ist. Bisher haben wir ihm nur Aufgaben auf Englisch gegeben, wie zum Beispiel: „Erkläre mir dieses Bild von einer amerikanischen Brücke" oder „Löse dieses Mathe-Problem aus einem US-Lehrbuch".

Aber was passiert, wenn wir ihn in Korea schicken? Dort sind die Regeln, die Bilder und die Sprache ganz anders. Ein Roboter, der in den USA ein Genie ist, könnte in Seoul völlig verloren sein, weil er die lokalen Gesetze, die spezifischen Diagramme in technischen Prüfungen oder die kulturellen Nuancen nicht versteht.

Genau hier kommt KMMMU ins Spiel. Das ist wie ein großer, koreanischer „Führerschein-Test" für künstliche Intelligenz.

Hier ist die einfache Erklärung, was die Forscher gemacht haben und was sie herausgefunden haben:

1. Der Test: Ein riesiges Puzzle aus Korea

Die Forscher haben 3.466 Fragen gesammelt, die echte koreanische Prüfungen sind. Das sind keine einfachen Übersetzungen aus dem Englischen, sondern originale Aufgaben aus:

  • Staatlichen Prüfungen (wie für Beamte),
  • Technischen Zertifikaten (für Ingenieure, Elektriker),
  • Wissenschafts-Olympiaden und
  • Rechts- und Wirtschaftstests.

Die Besonderheit: Es geht nicht nur um Text. Die Fragen sind multimodal. Das bedeutet, der Roboter muss Bilder, Diagramme, Schaltpläne, Tabellen und Text gleichzeitig verstehen.

  • Analogie: Stell dir vor, du bekommst einen Bauplan (Bild), eine Liste mit Materialkosten (Tabelle) und eine mündliche Anweisung (Text) auf Koreanisch. Du musst alles zusammenfügen, um die richtige Antwort zu geben.

2. Die Schwierigkeit: Der „Harte Modus"

Die Forscher waren sehr streng. Sie haben alle Fragen genommen, die aktuelle KI-Modelle leicht lösen konnten, und sie weggeworfen. Übrig blieben nur die schwierigsten 627 Fragen (der „Hard Subset").

  • Metapher: Es ist, als würdest du einen Schüler nicht mit einfachen Rechenaufgaben testen, sondern nur mit den Aufgaben, die selbst die besten Schüler der Welt verwirren.

3. Das Ergebnis: Die KIs stolpern

Das Ergebnis war überraschend und etwas ernüchternd für die KI-Entwickler:

  • Selbst die stärksten Modelle (die „Super-Computer" der Welt) schafften im Durchschnitt nur ca. 42 % bis 52 % richtige Antworten.
  • Das ist wie bei einem Schüler, der eine 5 oder 6 in der Schule bekommt, obwohl er eigentlich ein „Genie" sein sollte.
  • Besonders schlecht schnitten sie bei koreanisch-spezifischen Fragen ab. Hier lag die Lücke bis zu 13 % hinter den allgemeinen Fragen zurück.

4. Warum scheitern die Roboter? (Die Fehleranalyse)

Die Forscher haben sich genau angesehen, warum die KIs falsch lagen. Es lag nicht daran, dass sie nicht „nachdenken" konnten. Das Problem war anders:

  • Das „Verzeichnis-Problem" (Kulturelles Wissen):
    Die KIs wissen oft nicht, was in Korea unter einem „kleinen Fahrzeug" (Sohnyeongcha) im juristischen Sinne genau verstanden wird. Sie verwechseln Begriffe, weil sie nur globale, englische Daten gelernt haben.

    • Beispiel: Ein Roboter liest ein Gesetz über Straßenbau, verwechselt aber die Definition eines kleinen Autos mit einem normalen Auto und gibt die falsche Zahl für den Wendekreis an. Er kennt die Wörter, aber nicht die lokale Bedeutung.
  • Das „Regelbuch-Problem" (Genauigkeit):
    In Korea gibt es sehr spezifische Regeln für Dinge wie die Beschriftung von Diagrammen oder die Rechtschreibung. Die KIs geben oft eine Antwort, die „plausibel" klingt, aber nicht exakt nach dem offiziellen Regelbuch ist.

    • Analogie: Es ist wie bei einem Koch, der ein Gericht macht, das schmeckt, aber der Chef-Koch (der Prüfer) sagt: „Nein, du hast das Salz falsch gemessen. Nach dem offiziellen Rezept muss es genau 3 Gramm sein, nicht 3,1." Die KI macht den Fehler der „ungefähren Richtigkeit".
  • Das „Bilder-Problem" (Symbole):
    Bei technischen Zeichnungen (z. B. in der Elektrotechnik) erkennen die KIs die Linien, aber sie verstehen nicht, was das spezifische Symbol in einem koreanischen Kontext bedeutet. Sie sehen das Bild, aber lesen die „Bedeutung" falsch.

5. Was bedeutet das für uns?

Die Botschaft der Studie ist klar: KI ist noch nicht wirklich „weltweit" oder „lokal" fit.

Bisher haben wir KI-Modelle trainiert, wie englischsprachige Studenten, die viel lesen. Aber wenn wir sie in die reale Welt schicken – in ein koreanisches Büro, eine Werkstatt oder ein Gericht – merken wir, dass ihnen das lokale Handbuch und das kulturelle Verständnis fehlen.

KMMMU ist also wie ein Spiegel, der zeigt: Um wirklich intelligente Roboter zu bauen, müssen wir sie nicht nur mit mehr Daten füttern, sondern sie auch in der lokalen Kultur und den spezifischen Regeln ihrer Umgebung ausbilden. Sonst bleiben sie wie ein Tourist, der zwar gut Englisch spricht, aber in Seoul trotzdem den Bus nicht findet, weil er die Haltestellenschilder nicht versteht.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →