Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

Cet article présente l'Open Korean Historical Corpus, un ensemble de données ouvert et à grande échelle couvrant 1 300 ans d'évolution linguistique coréenne, qui permet d'analyser quantitativement les transitions scripturales majeures et les divergences lexicales tout en servant de corpus d'entraînement pour les modèles de langage.

Seyoung Song, Nawon Kim, Songeun Chae, Kiwoong Park, Jiho Jin, Haneul Yoo, Kyunghyun Cho, Alice Oh

Publié 2026-03-06
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que la langue coréenne est comme un grand fleuve qui coule depuis des siècles. Pendant longtemps, ce fleuve a été traversé par des ponts de pierre (les caractères chinois, ou Hanja), puis il a commencé à construire des ponts de bois (le mélange Hanja-Hangul), avant de finalement devenir un pont moderne en acier et verre (le Hangul pur que nous connaissons aujourd'hui).

Le problème ? La plupart des gens qui étudient ce fleuve aujourd'hui ne regardent que l'eau qui coule sous le pont moderne. Ils ont oublié comment les ponts de pierre et de bois étaient construits, et ils ne comprennent pas pourquoi le fleuve a changé de cours.

C'est exactement ce que propose cette recherche : le "Open Korean Historical Corpus" (OKHC).

Voici une explication simple de ce projet, avec quelques images pour mieux comprendre :

1. Le "Super-Bibliothécaire" Numérique

Pensez à ce corpus comme à une immense bibliothèque numérique ouverte à tout le monde. Avant, si un chercheur voulait étudier l'histoire du coréen, il devait faire le tour de 19 bibliothèques différentes, souvent fermées, avec des clés compliquées (des licences restrictives) ou des livres poussiéreux qu'on ne pouvait pas toucher.

Les auteurs de cette étude ont fait le travail de "nettoyage" et de "rangement" pour tout le monde. Ils ont collecté 17,7 millions de documents (des journaux, des lettres royales, des lois, des romans) qui couvrent 1 300 ans d'histoire, du 7ème siècle jusqu'à aujourd'hui. C'est comme si on avait numérisé toute la mémoire écrite de la Corée en un seul endroit gratuit.

2. Un Voyage à travers les Écritures (Le Caméléon)

La langue coréenne est fascinante car elle a changé de "peau" plusieurs fois. Ce corpus capture ces changements comme un caméléon :

  • Le style "Idu" : Imaginez écrire en chinois, mais en forçant les mots à suivre la grammaire coréenne. C'était comme un code secret utilisé par les fonctionnaires. L'étude montre que ce code a été très populaire jusqu'aux années 1860, puis a disparu très vite, comme un vêtement à la mode qui devient soudainement ringard.
  • Le mélange Hanja-Hangul : C'est l'époque où l'on écrivait avec des caractères chinois et l'alphabet coréen mélangés, un peu comme écrire un texte en français avec des mots anglais incrustés partout.
  • Le Hangul pur : L'alphabet coréen tel qu'on le connaît, qui a fini par prendre le dessus.

L'étude révèle que le passage du chinois au coréen pur n'a pas été une lente évolution, mais un choc rapide autour de 1890. C'est comme si un jour, tout le monde décidait d'arrêter d'utiliser des cartes papier pour passer aux GPS : le changement a été soudain et radical.

3. Le Drame de la Séparation Nord-Sud

Le projet a aussi regardé la Corée du Nord et du Sud comme deux jumeaux qui ont grandi dans des maisons différentes.

  • L'analogie du dictionnaire : Si vous donnez un dictionnaire sud-coréen moderne à quelqu'un qui lit les journaux nord-coréens, il va rencontrer beaucoup de mots qu'il ne connaît pas.
  • Le résultat : Les chercheurs ont découvert que les ordinateurs (les "tokenizers") qui lisent le texte sud-coréen échouent lamentablement avec le texte nord-coréen. Ils ne reconnaissent pas les mots, un peu comme si vous essayiez de lire un livre en utilisant un dictionnaire où 50 mots sur 100 ont été remplacés par des mots inventés ou écrits différemment. Cela prouve à quel point la séparation politique a créé une barrière linguistique réelle, même si la langue de base est la même.

4. Pourquoi c'est important pour nous ?

Pourquoi s'intéresser à de vieux textes ?

  • Pour les ordinateurs intelligents (IA) : Aujourd'hui, les intelligences artificielles (comme les grands modèles de langage) sont très fortes en coréen moderne, mais elles sont "illettrées" en histoire. Elles ne comprennent pas les vieux textes ni les mélanges d'écriture. Ce corpus est comme un manuel d'apprentissage pour apprendre à ces IA à comprendre l'histoire, le vocabulaire ancien et les nuances culturelles.
  • Pour la culture : C'est une façon de sauver des documents qui seraient autrement illisibles pour la plupart des Coréens d'aujourd'hui. C'est comme restaurer un vieux tableau pour que tout le monde puisse le voir, pas seulement les experts.

En résumé

Les auteurs ont construit un pont numérique entre le passé et le futur. Ils ont pris des millions de documents, souvent cachés ou difficiles d'accès, et les ont rendus disponibles gratuitement pour que les chercheurs, les historiens et les développeurs d'IA puissent explorer l'évolution incroyable de la langue coréenne.

C'est un peu comme si on avait donné à tout le monde les clés d'un coffre-fort rempli de l'histoire écrite de la Corée, pour enfin comprendre comment la langue a survécu, changé et prospéré à travers les siècles.