Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

Die Autoren stellen das „Open Korean Historical Corpus" vor, eine groß angelegte, offen lizenzierte Sammlung von 1,3 Milliarden Token über 1.300 Jahre hinweg, die quantitative Analysen der koreanischen Sprachgeschichte ermöglicht und als Vorab-Trainingskorpus für große Sprachmodelle dient.

Seyoung Song, Nawon Kim, Songeun Chae, Kiwoong Park, Jiho Jin, Haneul Yoo, Kyunghyun Cho, Alice Oh

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich die Geschichte der koreanischen Sprache wie einen riesigen, aber teilweise verschlossenen Schatzkeller vor. Seit Jahrhunderten wurde dort geschrieben, aber die Schlüssel zu den alten Türen waren entweder verloren gegangen oder nur wenigen zugänglich. Die Forscher aus diesem Papier haben nun einen riesigen, offenen Schlüsselbund namens „Open Korean Historical Corpus" (Offenes Korea-Historisches Korpus) geschaffen.

Hier ist die einfache Erklärung, was sie getan haben und warum es wichtig ist:

1. Das Problem: Ein verschlossener Schatz

Stellen Sie sich vor, Sie wollen die Geschichte Ihres Landes lesen, aber die Bücher sind in einer Mischung aus verschiedenen Schriftarten geschrieben:

  • Hanja: Alte chinesische Zeichen (wie wenn wir heute noch Latein oder Griechisch für alles nutzen würden).
  • Idu: Eine Art „koreanische Stenografie", bei der chinesische Zeichen so gelesen wurden, wie Koreaner sprechen (eine Art Brücke zwischen den Sprachen).
  • Hangul: Das moderne koreanische Alphabet.
  • Gemischte Schriften: Texte, die wie ein Puzzle aus allen oben genannten bestehen.

Früher war es extrem schwer, diese Texte zu finden. Sie lagen verstreut in verschiedenen Archiven, waren oft nur auf DVD oder in geschützten Datenbanken, die man nicht einfach kopieren oder für Computerprogramme nutzen durfte. Es war, als ob man ein riesiges Puzzle hätte, aber die Hälfte der Teile fehlte und der Rest war hinter Glas eingesperrt.

2. Die Lösung: Der „Open Korean Historical Corpus"

Die Forscher haben sich an die Arbeit gemacht und 17,7 Millionen Dokumente aus 19 verschiedenen Quellen gesammelt. Das ist wie ein digitaler Zeitstrahl, der von der Zeit vor 1.300 Jahren bis ins Jahr 2025 reicht.

  • Die Sammlung: Sie enthält Texte in 6 verschiedenen Sprachen und Schreibweisen (von altkoreanisch über klassisches Chinesisch bis hin zu nordkoreanischen Nachrichten).
  • Der Schlüssel: Das Wichtigste ist, dass sie dieses Material frei zugänglich gemacht haben. Jeder Forscher, Student oder KI-Entwickler kann es herunterladen und nutzen, ohne um Erlaubnis fragen zu müssen (unter bestimmten, fairen Bedingungen).

3. Was haben sie damit gelernt? (Die Entdeckungen)

Mit diesem riesigen Datensatz konnten sie Dinge messen, die man vorher nur ahnte. Hier sind drei spannende Entdeckungen, erklärt mit Analogien:

  • Der plötzliche Sturz des „Idu":
    Stellen Sie sich „Idu" wie einen alten, beliebten Dialekt vor, den alle Beamten benutzten. Die Forscher haben gesehen, dass dieser Dialekt in den 1860er Jahren seinen Höhepunkt erreichte und dann plötzlich abgestürzt ist. Warum? Weil die Regierung neue Gesetze machte, die das moderne Alphabet (Hangul) vorschrieben. Es war kein langsames Aussterben, sondern ein schneller Wechsel, wie wenn man heute plötzlich von Briefen auf E-Mails umsteigt.

  • Der Wechsel von Hanja zu Hangul:
    Lange Zeit wurde alles in chinesischen Zeichen (Hanja) geschrieben. Die Forscher haben gemessen, wie schnell sich das geändert hat. Es war kein langsamer Sonnenuntergang, sondern eher wie ein Lichtschalter. Um 1890 war fast alles noch Hanja, aber durch Reformen und Modernisierung kippte die Waage rasch. Bis in die 1980er Jahre war Hangul der unangefochtene König und machte über 93 % aller Zeichen aus.

  • Der Nord-Süd-Unterschied (Das „Wort-Problem"):
    Seit der Teilung Koreas haben sich die Sprachen im Norden und Süden so stark entwickelt, dass sie sich fast wie zwei verschiedene Sprachen anhören. Die Forscher haben getestet, wie gut moderne Computerprogramme (KIs) Texte aus Nordkorea verstehen. Das Ergebnis: Die Computer waren bis zu 51-mal häufiger verwirrt (sie kannten die Wörter nicht).

    • Analogie: Stellen Sie sich vor, ein Computer lernt nur, wie man „Sneakers" sagt. Wenn er dann ein Wort wie „Turnschuhe" (ein altes oder regionales Wort) hört, denkt er: „Was ist das?". In Nordkorea gibt es viele solche „Turnschuhe" für Dinge, die im Süden anders heißen, oder sie schreiben Fremdwörter (wie „Deutschland") ganz anders.

4. Warum ist das wichtig?

Früher waren Computer-KIs (wie Chatbots) nur auf die moderne Sprache trainiert. Sie konnten alte Texte nicht lesen und verstanden die Geschichte nicht richtig.

Mit diesem neuen Datensatz können KIs jetzt:

  • Alte Bücher lesen: Sie können Texte aus dem 15. oder 17. Jahrhundert verstehen, die bisher für Computer unlesbar waren.
  • Die Geschichte besser verstehen: Sie lernen, wie sich die Sprache über die Jahrhunderte verändert hat.
  • Fairer sein: Sie verstehen auch die Sprache im Norden Koreas besser, nicht nur die im Süden.

Zusammenfassung

Die Autoren haben einen digitalen Zeitmaschinen-Bibliothekskatalog gebaut. Sie haben tausende verstaubte, verschlüsselte und verstreute Dokumente gesammelt, gereinigt und für alle geöffnet. Damit ermöglichen sie nicht nur Historikern, die Vergangenheit zu lesen, sondern geben auch den Computern der Zukunft die Fähigkeit, die Geschichte der koreanischen Sprache wirklich zu verstehen. Es ist ein riesiger Schritt von „wir wissen nur wenig über die alte Sprache" hin zu „wir haben die ganze Geschichte digital vor uns".