Each language version is independently generated for its own context, not a direct translation.
Immagina di entrare in una gigantesca biblioteca antica, piena di libri di legge scritti in una lingua molto specifica e complessa: il singalese. Questa è la lingua parlata da circa 16 milioni di persone nello Sri Lanka. Per molto tempo, questa biblioteca è rimasta chiusa ai computer e all'intelligenza artificiale, perché i libri erano in formato cartaceo o scansionato, pieni di errori di stampa e difficili da leggere per una macchina.
Gli autori di questo studio, Minduli Lasandia e Nevidu Jayatilleke, hanno deciso di costruire un ponte digitale per aprire queste porte. Hanno creato qualcosa chiamato SINHALEGAL.
Ecco come funziona, spiegato con parole semplici e qualche metafora:
1. La Raccolta: Trovare i Tesori Nascosti
Immagina che gli autori siano degli archeologi digitali. Hanno scavato in un enorme archivio online (un repository su GitHub) dove erano conservati migliaia di documenti legali dello Sri Lanka.
- Cosa hanno trovato: Hanno raccolto circa 2 milioni di parole provenienti da 1.206 documenti.
- I due tipi di "libri":
- Gli Atti (Acts): Sono le leggi già approvate, come i "libri delle regole definitive" scritte tra il 1981 e il 2014.
- Le Proposte di Legge (Bills): Sono i "bozze" o i progetti di legge, come le bozze di un romanzo prima che venga pubblicato, scritte tra il 2010 e il 2014.
2. La Pulizia: Il Lavoro del Giardiniere
Trovare i documenti non è stato abbastanza. Immagina di prendere un libro antico, scattargli una foto e farla leggere a un robot. Il robot vedrebbe macchie, numeri di pagina, timbri dell'ufficio postale e parole spezzate.
Gli autori hanno fatto un lavoro di giardinaggio digitale:
- OCR (Riconoscimento Ottico dei Caratteri): Hanno usato un "occhio digitale" (Google Document AI) per trasformare le immagini dei documenti in testo scrivibile. È come se avessero insegnato a un robot a leggere la calligrafia complessa delle leggi.
- La Grande Pulizia: Hanno rimosso manualmente (o quasi) tutto il "rumore": i numeri di pagina che interrompevano le frasi, i timbri, i prezzi stampati in alto, e le parole che si ripetevano inutilmente. Hanno anche corretto gli errori di battitura, proprio come un editor che ripulisce un manoscritto prima della stampa.
3. L'Analisi: Capire la "Personalità" del Testo
Una volta pulito il testo, gli autori hanno iniziato a studiarlo come se fosse un nuovo animale da scoprire.
- Il Vocabolario Speciale: Hanno scoperto che il linguaggio legale singalese è come un dialetto molto tecnico. Usa pochissime parole chiave che si ripetono all'infinito (come "e", "per", "legge"), ma ha anche una coda lunghissima di parole rarissime e specifiche. È come se in una cucina usassi sempre sale e pepe, ma ogni tanto usassi un ingrediente esotico che trovi solo in un libro di ricette antico.
- Le Entità (I Personaggi): Hanno creato un sistema per trovare automaticamente i "personaggi" del testo: date, nomi di persone, titoli (come "Presidente" o "Ministro"), istituzioni (come "Parlamento") e somme di denaro. È come se avessero dato un evidenziatore a un robot che colora di giallo tutti i nomi importanti.
- I Temi: Usando un'intelligenza artificiale, hanno scoperto di cosa parlano principalmente queste leggi: pensioni, elezioni, commissioni e tribunali.
4. Il Test: Quanto è Brava l'Intelligenza Artificiale?
Per vedere se questo nuovo "libro di testo" era utile, hanno messo alla prova diversi modelli di Intelligenza Artificiale (come Llama, Mistral, Falcon).
- La Sorpresa: Hanno scoperto che l'AI si comportava meglio con le leggi singalesi rispetto al singalese normale (come le notizie o i post sui social).
- Perché? Perché le leggi sono prevedibili. Hanno una struttura rigida, ripetitiva e formulaica. È come se l'AI fosse un attore che recita una parte: se il copione (la legge) è sempre uguale e ripetitivo, l'attore impara la parte molto più velocemente rispetto a un copione dove ogni frase è diversa e imprevedibile.
Perché è importante?
Prima di questo lavoro, l'Intelligenza Artificiale non sapeva quasi nulla delle leggi singalesi. Era come avere un avvocato molto intelligente che non parla la lingua del suo paese.
SINHALEGAL è come un dizionario e un manuale di addestramento gratuito e pubblico. Ora, gli sviluppatori possono usare questo dataset per creare:
- Motori di ricerca legali più intelligenti.
- Sistemi che riassumono le leggi in modo semplice per i cittadini.
- Strumenti che aiutano i giudici e gli avvocati a trovare informazioni velocemente.
In sintesi, gli autori hanno preso un mucchio di documenti polverosi, li hanno puliti, organizzati e resi "parlanti" per i computer, colmando un enorme vuoto nella ricerca tecnologica per la lingua singalese.