Each language version is independently generated for its own context, not a direct translation.
📚 SiDiaC-v.2.0 : La Grande Bibliothèque du Temps pour le Cinghalais
Imaginez que vous voulez comprendre comment une langue a changé au fil des siècles, un peu comme on observe les changements de mode dans une famille sur plusieurs générations. Pour le cinghalais (la langue principale du Sri Lanka), c'était très difficile avant, car il n'y avait pas assez de vieux livres numérisés et bien nettoyés pour les ordinateurs.
C'est là qu'intervient SiDiaC-v.2.0. C'est le nom d'une nouvelle "super-bibliothèque" numérique, la plus grande jamais créée pour cette langue.
1. Le Problème : Une Bibliothèque en Désordre (La version 1.0)
Pensez à la première version de cette bibliothèque (SiDiaC-v.1.0) comme à un grenier rempli de vieux livres trouvés dans un sous-sol.
- C'était utile, mais imparfait : Les livres étaient là, mais certains étaient écrits dans d'autres langues (comme le pali ou le sanskrit) mélangés au cinghalais.
- Des erreurs de lecture : Quand on a utilisé un scanner pour transformer ces vieux livres en texte numérique, l'ordinateur a fait des erreurs. Il a parfois lu un mot comme un autre, ou coupé des phrases au milieu à cause de la mise en page (colonnes de texte).
- Des dates floues : On ne savait pas toujours exactement quand un livre avait été écrit, seulement quand il avait été imprimé.
2. La Solution : Le Grand Nettoyage (La version 2.0)
Les chercheurs ont décidé de faire un grand ménage de printemps. Ils ont pris la liste des livres, mais cette fois, ils ont appliqué des règles beaucoup plus strictes, comme un chef cuisinier qui trie minutieusement ses ingrédients avant de cuisiner.
Voici ce qu'ils ont fait, étape par étape :
- Le Tri des Intrus (Filtrage) : Ils ont retiré les livres qui n'étaient pas entièrement en cinghalais. C'est comme enlever les pommes vertes d'un panier de pommes rouges pour ne garder que les meilleures. Ils ont aussi vérifié les droits d'auteur pour s'assurer que tout était légal.
- Le Scanner Intelligent (OCR) : Ils ont utilisé une technologie très avancée (Google Document AI) pour "lire" les vieux livres. C'est comme si on avait engagé un lecteur ultra-rapide qui comprend non seulement les mots, mais aussi comment les anciens écrivains formaient leurs lettres.
- Le Grand Nettoyage à la Main (Post-traitement) : C'est l'étape la plus importante. Les chercheurs ont relu tout le texte, mot par mot, pour corriger les erreurs du scanner.
- L'analogie du poème : En cinghalais, la poésie utilise souvent des rimes où la dernière syllabe est détachée du mot. Imaginez un mot comme "Maison" écrit "Mais-on". Pour un ordinateur, c'est deux mots différents ! Les chercheurs ont ajouté des petits marqueurs invisibles (comme des étiquettes
<psi>) pour dire à l'ordinateur : "Attention, ces deux parties forment un seul mot, mais elles sont séparées pour la rime." - Le tri des colonnes : Certains vieux livres avaient deux colonnes de texte. Le scanner les lisait souvent de gauche à droite en sautant d'une colonne à l'autre, créant du charabia. Les chercheurs ont réorganisé le texte pour qu'il soit lu de haut en bas, colonne par colonne, comme un livre moderne.
- L'analogie du poème : En cinghalais, la poésie utilise souvent des rimes où la dernière syllabe est détachée du mot. Imaginez un mot comme "Maison" écrit "Mais-on". Pour un ordinateur, c'est deux mots différents ! Les chercheurs ont ajouté des petits marqueurs invisibles (comme des étiquettes
3. Le Résultat : Un Trésor de 241 000 Mots
Grâce à ce travail acharné, ils ont créé un corpus (une collection de textes) de 241 000 mots provenant de 185 livres.
- L'étendue du temps : Ces livres couvrent une période allant du 5ème siècle (très ancien !) jusqu'au 20ème siècle. C'est comme avoir une machine à remonter le temps qui vous permet d'entendre la langue telle qu'elle était parlée il y a 1500 ans, puis il y a 100 ans, et enfin aujourd'hui.
- Les catégories : Ils ont classé les livres comme dans une bibliothèque moderne : "Fiction" (histoires, poèmes) et "Non-Fiction" (religion, histoire, médecine, grammaire).
4. Pourquoi est-ce si important ? (L'Analyse)
Pourquoi faire tout ce travail ? Pour comprendre comment la langue a évolué.
Les chercheurs ont pris deux mots courants, "Sathara" (qui peut signifier "quatre", "compétence" ou "voleur") et "Maha" (qui peut signifier "grand", "sacré" ou "puissant").
En regardant les mots qui entouraient ces termes au fil des siècles, ils ont découvert des choses fascinantes :
- Le mot "Sathara" était souvent lié à la religion et à la sagesse dans les vieux livres, mais au 19ème siècle, on a commencé à l'associer au vol (voleur) !
- Le mot "Maha" (grand/sacré) était très utilisé pour parler de rois et de divinités au Moyen Âge, mais son usage a changé pour devenir plus politique ou physique (grand comme une montagne) plus tard.
En Résumé
SiDiaC-v.2.0, c'est comme si on avait pris une vieille, poussiéreuse et confuse collection de livres cinghalais, on l'avait passée au laser, on avait corrigé chaque faute de frappe, on avait étiqueté chaque mot, et on l'avait rangée dans une bibliothèque numérique parfaite.
C'est un outil précieux pour les ordinateurs (l'Intelligence Artificielle) afin qu'ils apprennent le cinghalais, mais aussi pour les humains qui veulent comprendre l'histoire et la culture du Sri Lanka à travers les mots de leurs ancêtres. C'est une victoire pour une langue qui, jusqu'alors, manquait cruellement de ressources numériques de qualité.