Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

Il paper presenta l'Open Korean Historical Corpus, un vasto dataset di testi di dominio pubblico che copre 1.300 anni e 6 lingue, permettendo per la prima volta un'analisi quantitativa dell'evoluzione linguistica coreana e offrendo una risorsa fondamentale per il pre-addestramento di modelli linguistici.

Seyoung Song, Nawon Kim, Songeun Chae, Kiwoong Park, Jiho Jin, Haneul Yoo, Kyunghyun Cho, Alice Oh

Pubblicato 2026-03-06
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immaginate di voler raccontare la storia completa di una persona, ma aveste a disposizione solo le sue foto recenti e qualche lettera scritta da bambino, mentre tutto ciò che è stato scritto tra l'adolescenza e l'età adulta è stato nascosto in una cassaforte o scritto in un codice che nessuno sa più leggere.

Questo è esattamente il problema che gli scienziati informatici si sono trovati ad affrontare con la lingua coreana. Per decenni, l'intelligenza artificiale (AI) ha potuto "leggere" solo il coreano moderno, ignorando secoli di storia, di parole antiche e di scritture ibride.

Il paper che avete davanti presenta una soluzione rivoluzionaria: l'Open Korean Historical Corpus (Il Grande Archivio Storico Coreano Aperto).

Ecco di cosa si tratta, spiegato in modo semplice:

1. Il "Super-Enciclopedia" del Tempo

Pensate a questo progetto come a una macchina del tempo digitale. Gli autori hanno raccolto e pulito 17,7 milioni di documenti che coprono un arco di 1.300 anni, dal VII secolo fino al 2025.
È come se avessero scavato in una biblioteca polverosa e avessero trovato:

  • Diari reali e registri governativi antichi.
  • Giornali moderni.
  • Testi scritti in cinese classico (che era la "lingua latina" dell'Asia orientale per secoli).
  • Testi scritti in coreano antico, medio e moderno.
  • Persino documenti scritti in giapponese durante l'epoca coloniale.

Tutto questo materiale è stato messo in un unico "contenitore" digitale, gratuito e aperto a tutti i ricercatori, un po' come Wikipedia, ma per la storia della lingua.

2. Il Mistero delle Scritture Miste

Per secoli, i coreani hanno avuto un "problema di identità" nella scrittura.

  • L'analogia: Immaginate di dover scrivere una lettera, ma non avete le chiavi per aprire la porta della vostra casa (la scrittura coreana, Hangul, inventata nel 1443). Quindi, usate le chiavi del vicino (i caratteri cinesi, Hanja). Ma la vostra lingua parlata è diversa da quella del vicino!
  • La soluzione ibrida: Hanno creato sistemi strani, come l'Idu, che usava i caratteri cinesi ma li leggeva come se fossero coreani, o miscele di caratteri cinesi e alfabeto coreano.
  • Il risultato: Oggi, la maggior parte dei coreani non riesce a leggere i documenti di 200 anni fa perché sono scritti in queste "lingue morte" o miste. Questo corpus è la chiave per decifrare tutto questo tesoro.

3. Cosa hanno scoperto guardando indietro?

Usando questa immensa raccolta di dati, gli autori hanno fatto delle scoperte sorprendenti, come se avessero analizzato l'ADN della lingua:

  • La fine dell'Idu: Hanno visto che l'uso di questo sistema di scrittura ibrido (Idu) era al suo apice negli anni '1860, ma è crollato come un castello di carte dopo le riforme del 1894. È stato un cambiamento brusco, non lento.
  • La rivoluzione dell'alfabeto: Fino al 1890, quasi tutti scrivevano solo in cinese classico. Poi, in un lampo (relativamente parlando), la scrittura è passata al coreano puro (Hangul). Oggi, oltre il 93% dei caratteri usati sono Hangul.
  • La divisione Nord-Sud: Hanno scoperto che il coreano del Nord e quello del Sud sono diventati così diversi che i computer moderni, quando provano a leggere le notizie nordcoreane, si perdono completamente! Usano parole diverse e scrivono i nomi stranieri in modo unico (ad esempio, la Germania è scritta in modo diverso). I computer attuali sbagliano a riconoscere fino a 51 volte più parole nel testo nordcoreano rispetto a quello sudcoreano.

4. Perché è importante?

Fino a oggi, l'Intelligenza Artificiale parlava coreano come un turista che sa solo ordinare al ristorante: sa le parole di oggi, ma non capisce la storia, le sfumature antiche o i dialetti.

Con questo nuovo "manuale di istruzioni" (il corpus), gli scienziati possono:

  • Addestrare AI più sagge: Creare modelli che capiscono non solo il coreano di oggi, ma anche quello di 500 anni fa.
  • Preservare la cultura: Rendere leggibile la storia che altrimenti rimarrebbe chiusa in codici incomprensibili.
  • Studiare l'evoluzione: Capire come le lingue cambiano quando i paesi si dividono o quando le tecnologie (come l'alfabeto) cambiano.

In sintesi

Questo paper non è solo una lista di dati noiosi. È come se avessimo appena trovato la chiave di accesso a un intero continente culturale che era stato sigillato per secoli. Ora, finalmente, possiamo ascoltare la voce del passato coreano e farla parlare con l'intelligenza artificiale del futuro.