SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0

Il documento presenta SiDiaC-v.2.0, il più ampio corpus diacronico in lingua singalese a oggi, che copre un arco temporale dal 1800 al 1955 con 244.000 parole provenienti da 185 opere letterarie, offrendo una risorsa fondamentale per l'elaborazione del linguaggio naturale in una lingua a bassa risorsa grazie a un rigoroso processo di pulizia, normalizzazione e annotazione.

Nevidu Jayatilleke, Nisansa de Silva, Uthpala Nimanthi, Gagani Kulathilaka, Azra Safrullah, Johan Sofalas

Pubblicato 2026-03-12
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler studiare come cambia la lingua di un popolo nel corso dei secoli, proprio come un biologo che osserva come una pianta evolve da un seme a un albero gigante. Per fare questo, hai bisogno di un "giardino" enorme di testi antichi, ordinati e puliti, dove ogni foglia (parola) è al posto giusto.

Questo è esattamente ciò che gli autori di questo articolo hanno fatto con la lingua Sinhala (la lingua principale dello Sri Lanka). Hanno creato SiDiaC-v.2.0, che è come un "super-museo digitale" della letteratura sinhala.

Ecco una spiegazione semplice di cosa hanno fatto, usando qualche analogia:

1. Il Problema: Una Biblioteca in Disordine

Prima di questo lavoro, esisteva una versione precedente del museo (chiamata v.1.0), ma era un po' come una biblioteca dove:

  • Alcuni libri erano scritti in lingue diverse (come il Pali o il Sanscrito) mescolati al Sinhala, rendendo difficile studiare solo il Sinhala.
  • Alcuni testi erano "commentari": immagina di leggere un libro di Shakespeare, ma ogni pagina ha scritto sopra le note di uno studioso del 1800. Non sai se stai leggendo Shakespeare o le note!
  • C'erano errori di scansione: come se qualcuno avesse fotocopiato un libro vecchio e macchiato, e la macchina avesse letto "gatto" invece di "gatto" (ma con lettere sbagliate).
  • I libri erano impaginati in due colonne, ma il computer le leggeva tutte insieme, come se stessi leggendo la prima colonna della pagina 1, poi la prima colonna della pagina 2, saltando tutto il resto.

2. La Soluzione: I "Giardinieri Digitali"

Gli autori sono entrati in questa biblioteca con il ruolo di giardinieri digitali molto meticolosi. Ecco cosa hanno fatto passo dopo passo:

  • La Selezione (Il Filtro): Hanno preso 233 libri vecchi e hanno fatto un'ispezione rigorosa. Hanno buttato via i libri che non erano in Sinhala o che erano protetti da copyright (come se non potessero fotocopiarli). Alla fine, ne hanno salvati 185.
  • La Pulizia (Il Restauro): Hanno usato un'intelligenza artificiale avanzata (Google Document AI) per leggere i testi, ma poi hanno messo mano loro per correggere gli errori.
    • Analogia: È come se avessero preso un vecchio dipinto sbiadito, lo avessero scansionato, e poi avessero ridipinto a mano le parti sbiadite per far tornare i colori originali.
    • Hanno rimosso le note a piè di pagina che interrompevano la storia e hanno sistemato le colonne di testo, rendendole una sola colonna facile da leggere per i computer.
  • L'Etichettatura (I Cartellini): Per ogni libro, hanno creato un "cartellino" (metadati) che dice:
    • Di cosa parla? (Religione, Poesia, Storia, Medicina).
    • Quando è stato scritto realmente? (Non solo quando è stato stampato, ma quando l'autore ha messo la penna sulla carta).
    • Chi è l'autore?

3. Le Innovazioni: I "Segreti" del Nuovo Museo

Ci sono due cose speciali che rendono questa versione (v.2.0) migliore della precedente:

  1. I Segnali per la Poesia: Nella poesia Sinhala antica, le parole a volte vengono spezzate per far suonare meglio le rime. È come se una parola fosse "slegata" in pezzi. Gli autori hanno inserito un piccolo segnale invisibile (<psi>) che dice al computer: "Ehi, questa parola è spezzata per la rima, ma in realtà è una sola". Questo permette ai ricercatori di studiare la poesia sia nel suo formato originale che nel suo significato normale.
  2. Il Segnale di Fine Frase: Nella scrittura Sinhala antica, non c'era un punto fermo come il nostro. C'era un simbolo che indicava la fine di un intero capitolo. Gli autori hanno aggiunto manualmente dei segnali (<eos>) per dire al computer: "Qui finisce una frase". Questo è fondamentale per insegnare ai computer a capire la grammatica.

4. Cosa Abbiamo Imparato? (La Magia dei Dati)

Con questo nuovo, enorme giardino di 241.000 parole, gli autori hanno fatto un esperimento interessante. Hanno preso due parole molto comuni che hanno molti significati (come "quattro" o "grande") e hanno guardato come cambiavano le parole che le circondavano nei secoli.

  • Esempio: La parola per "quattro" (sathara) nel 13° secolo era spesso vicina a parole come "inferno" o "saggezza" (perché nel Buddismo ci sono 4 inferni e 4 saggezze). Nel 19° secolo, invece, era vicina a parole come "ladro".
  • Esempio: La parola "grande" (maha) nei secoli antichi era vicina a parole sacre e religiose. Nel 20° secolo, invece, è diventata più vicina a parole che indicano "forza" o "potere".

In Sintesi

SiDiaC-v.2.0 è come aver preso una montagna di vecchi libri polverosi, confusi e pieni di errori, e averli trasformati in un laboratorio scientifico perfetto.

Ora, i ricercatori (e le intelligenze artificiali) possono entrare in questo laboratorio e studiare come la mente degli abitanti dello Sri Lanka è cambiata nel tempo, senza dover passare ore a pulire la polvere o a correggere errori di battitura. È un passo gigante per salvare e comprendere la cultura di una lingua che, fino a poco tempo fa, era considerata "povera di risorse digitali".