Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

Each language version is independently generated for its own context, not a direct translation.

De Open Koreaanse Historische Corpus: Een Tijdreis door Woorden

Stel je voor dat je een enorme, stoffige bibliotheek binnenloopt die 1.300 jaar aan geschiedenis bevat. Maar er is een probleem: de boeken zijn geschreven in talloze verschillende talen en met vreemde schrijfsystemen die bijna niemand meer kent. Sommige pagina's zijn geschreven in klassiek Chinees, andere in een mix van Chinese karakters en het Koreaanse alfabet, en weer andere in een oude vorm van het Koreaans die we vandaag de dag niet meer begrijpen.

Vroeger was dit een gesloten bibliotheek waar niemand bij mocht. Onderzoekers moesten zelf op zoek gaan naar losse bladen op internet, wat als het zoeken naar een naald in een hooiberg was.

Wat hebben deze onderzoekers gedaan?
Een team van wetenschappers (van universiteiten in Zuid-Korea en New York) heeft die bibliotheek schoongemaakt, ingesorteerd en gratis openbaar gemaakt. Ze noemen het de Open Korean Historical Corpus.

Het is alsof ze een gigantische tijdmachine hebben gebouwd. Deze verzameling bevat:

17,7 miljoen documenten (van oude koninklijke dagboeken tot moderne kranten).
5,1 miljard woorden (tokens).
Een tijdspanne van de 7e eeuw tot 2025.

Waarom is dit zo speciaal? (De Analogieën)

De "Taal-Transformatie":
Stel je voor dat je een familie hebt die eeuwenlang in het Chinees schreef, maar later besloot om over te stappen op hun eigen alfabet (Hangul). In het begin schreven ze een mix van beide. Deze nieuwe database laat precies zien hoe en wanneer die overstap plaatsvond.
- Het inzicht: Ze ontdekten dat de overstap niet langzaam gebeurde, maar als een plotselinge storm. Rond 1890 veranderde alles in een mum van tijd van "alleen Chinees" naar "voornamelijk Hangul".
De "Verdwijnende Teken":
Er was een systeem genaamd Idu, waarbij Chinese karakters werden gebruikt om Koreaanse zinnen te schrijven (zoals een soort code). Het was populair, maar verdween bijna volledig.
- Het inzicht: De database toont aan dat dit systeem piekte in de jaren 1860 en daarna snel verdween, vooral omdat de overheid nieuwe regels invoerde. Het is alsof je ziet hoe een oude dialect die niemand meer spreekt, langzaam uit het landschap verdwijnt.
De "Noord-Zuid Kloof":
Sinds de Koreaanse oorlog zijn Noord- en Zuid-Korea gescheiden. Ze spreken nu bijna twee verschillende talen, vooral wat betreft leenwoorden (woorden die ze van andere talen lenen).
- Het inzicht: Als je een moderne computerprogramma (een AI) laat lezen wat er in Noord-Korea wordt geschreven, raakt de computer in de war. Het programma kent 51 keer meer woorden niet dan normaal! Het is alsof je een Zuid-Koreaan vraagt om een Noord-Koreaanse krant te lezen: hij ziet woorden als "brood" en "auto", maar ze zijn er geschreven als "graan" en "voertuig" in een andere code.

Waarom is dit belangrijk voor de toekomst?

Vandaag de dag zijn slimme computers (zoals ChatGPT) getraind op moderne teksten. Ze zijn goed in wat we nu zeggen, maar ze zijn vaak "analfabeet" als het gaat om oude teksten of historische documenten.

Met deze nieuwe, gratis bibliotheek kunnen onderzoekers:

Slimmere AI's bouwen: Computers die niet alleen moderne Koreaans begrijpen, maar ook oude koninklijke brieven of koloniale teksten kunnen lezen.
Geschiedenis levend houden: Taalonderzoekers kunnen nu precies zien hoe de taal veranderde door de eeuwen heen, zonder dat ze zelf uren moeten zoeken naar de juiste bronnen.
De kloover dichten: Het helpt om de taal van Noord-Korea te begrijpen, wat nu vaak een mysterie is voor de rest van de wereld.

Kortom:
Deze paper is niet zomaar een lijst met data. Het is de sleutel die de deur opent naar een eeuwenoude schatkamer. Het maakt de geschiedenis van de Koreaanse taal toegankelijk voor iedereen, van studenten tot computerwetenschappers, zodat we kunnen leren van het verleden terwijl we de toekomst bouwen. En het beste deel? De deur staat wijd open voor iedereen.

Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten en Analyse

Betekenis en Toekomstperspectief

Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten en Analyse

Betekenis en Toekomstperspectief

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers