Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

Deze paper introduceert het Open Korean Historical Corpus, een openbaar domein dataset van 1,300 jaar met 17,7 miljoen documenten die diachronische taalkundige verschuivingen analyseert en dient als basis voor het trainen van grote taalmodellen.

Seyoung Song, Nawon Kim, Songeun Chae, Kiwoong Park, Jiho Jin, Haneul Yoo, Kyunghyun Cho, Alice Oh

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Open Koreaanse Historische Corpus: Een Tijdreis door Woorden

Stel je voor dat je een enorme, stoffige bibliotheek binnenloopt die 1.300 jaar aan geschiedenis bevat. Maar er is een probleem: de boeken zijn geschreven in talloze verschillende talen en met vreemde schrijfsystemen die bijna niemand meer kent. Sommige pagina's zijn geschreven in klassiek Chinees, andere in een mix van Chinese karakters en het Koreaanse alfabet, en weer andere in een oude vorm van het Koreaans die we vandaag de dag niet meer begrijpen.

Vroeger was dit een gesloten bibliotheek waar niemand bij mocht. Onderzoekers moesten zelf op zoek gaan naar losse bladen op internet, wat als het zoeken naar een naald in een hooiberg was.

Wat hebben deze onderzoekers gedaan?
Een team van wetenschappers (van universiteiten in Zuid-Korea en New York) heeft die bibliotheek schoongemaakt, ingesorteerd en gratis openbaar gemaakt. Ze noemen het de Open Korean Historical Corpus.

Het is alsof ze een gigantische tijdmachine hebben gebouwd. Deze verzameling bevat:

  • 17,7 miljoen documenten (van oude koninklijke dagboeken tot moderne kranten).
  • 5,1 miljard woorden (tokens).
  • Een tijdspanne van de 7e eeuw tot 2025.

Waarom is dit zo speciaal? (De Analogieën)

  1. De "Taal-Transformatie":
    Stel je voor dat je een familie hebt die eeuwenlang in het Chinees schreef, maar later besloot om over te stappen op hun eigen alfabet (Hangul). In het begin schreven ze een mix van beide. Deze nieuwe database laat precies zien hoe en wanneer die overstap plaatsvond.

    • Het inzicht: Ze ontdekten dat de overstap niet langzaam gebeurde, maar als een plotselinge storm. Rond 1890 veranderde alles in een mum van tijd van "alleen Chinees" naar "voornamelijk Hangul".
  2. De "Verdwijnende Teken":
    Er was een systeem genaamd Idu, waarbij Chinese karakters werden gebruikt om Koreaanse zinnen te schrijven (zoals een soort code). Het was populair, maar verdween bijna volledig.

    • Het inzicht: De database toont aan dat dit systeem piekte in de jaren 1860 en daarna snel verdween, vooral omdat de overheid nieuwe regels invoerde. Het is alsof je ziet hoe een oude dialect die niemand meer spreekt, langzaam uit het landschap verdwijnt.
  3. De "Noord-Zuid Kloof":
    Sinds de Koreaanse oorlog zijn Noord- en Zuid-Korea gescheiden. Ze spreken nu bijna twee verschillende talen, vooral wat betreft leenwoorden (woorden die ze van andere talen lenen).

    • Het inzicht: Als je een moderne computerprogramma (een AI) laat lezen wat er in Noord-Korea wordt geschreven, raakt de computer in de war. Het programma kent 51 keer meer woorden niet dan normaal! Het is alsof je een Zuid-Koreaan vraagt om een Noord-Koreaanse krant te lezen: hij ziet woorden als "brood" en "auto", maar ze zijn er geschreven als "graan" en "voertuig" in een andere code.

Waarom is dit belangrijk voor de toekomst?

Vandaag de dag zijn slimme computers (zoals ChatGPT) getraind op moderne teksten. Ze zijn goed in wat we nu zeggen, maar ze zijn vaak "analfabeet" als het gaat om oude teksten of historische documenten.

Met deze nieuwe, gratis bibliotheek kunnen onderzoekers:

  • Slimmere AI's bouwen: Computers die niet alleen moderne Koreaans begrijpen, maar ook oude koninklijke brieven of koloniale teksten kunnen lezen.
  • Geschiedenis levend houden: Taalonderzoekers kunnen nu precies zien hoe de taal veranderde door de eeuwen heen, zonder dat ze zelf uren moeten zoeken naar de juiste bronnen.
  • De kloover dichten: Het helpt om de taal van Noord-Korea te begrijpen, wat nu vaak een mysterie is voor de rest van de wereld.

Kortom:
Deze paper is niet zomaar een lijst met data. Het is de sleutel die de deur opent naar een eeuwenoude schatkamer. Het maakt de geschiedenis van de Koreaanse taal toegankelijk voor iedereen, van studenten tot computerwetenschappers, zodat we kunnen leren van het verleden terwijl we de toekomst bouwen. En het beste deel? De deur staat wijd open voor iedereen.