Each language version is independently generated for its own context, not a direct translation.
SiDiaC-v.2.0: Een Reis door de Tijd in het Sinhala-taalrijk
Stel je voor dat een taal een levend organisme is, zoals een oude boom. De wortels zitten diep in de geschiedenis, de stam groeit door de eeuwen heen, en de bladeren veranderen met elk seizoen. Taalkundigen willen graag begrijpen hoe die boom eruitzag in het verleden, hoe de takken groeiden en waarom sommige bladeren van vorm veranderden.
Voor de taal Sinhala (gesproken in Sri Lanka) was het echter erg moeilijk om die oude boom te bestuderen. Er waren weinig boeken, en de oude teksten waren vaak beschadigd of moeilijk te lezen. De auteurs van dit paper hebben nu een enorme stap gezet door SiDiaC-v.2.0 te bouwen: een digitale "tijdmachine" vol met Sinhala-teksten.
Hier is hoe ze dit hebben gedaan, vertaald in begrijpelijke termen:
1. Het Verzamelen van de Schatten (De Bibliotheek)
Stel je voor dat je een schatkaart hebt die leidt naar 233 oude boeken in de Nationale Bibliotheek van Sri Lanka. In de vorige versie (v.1.0) hadden ze slechts 46 boeken kunnen redden. Voor deze nieuwe versie (v.2.0) zijn ze echter op zoek gegaan naar meer. Ze hebben gekeken welke boeken veilig zijn om te gebruiken (geen auteursrechtproblemen) en welke echt in het Sinhala zijn geschreven, en niet in andere talen die soms in dezelfde boeken voorkomen.
Uiteindelijk hebben ze 185 boeken geselecteerd. Dit is een enorme sprong vooruit!
2. De Digitale Scanner en de "Reinigingsrobot"
Deze oude boeken zijn vaak fragiel. Je kunt ze niet zomaar typen. De auteurs hebben een slimme computer (Google Document AI) gebruikt om de pagina's te scannen en in tekst om te zetten. Dit is als het hebben van een robot die met een vergrootglas door de oude boeken kruipt.
Maar robots maken fouten, zeker met oude, vervaagde letters.
- Het probleem: De robot dacht soms dat een puntje een letter was, of hij miste een regel omdat de tekst in twee kolommen stond (alsof je een krant leest en de robot de regels door elkaar haalt).
- De oplossing: De auteurs hebben als een team van digitale restaurateurs handmatig de tekst schoongemaakt. Ze hebben:
- De kolommen weer netjes naast elkaar gezet (van links naar rechts, in plaats van door elkaar).
- Verkeerde letters gecorrigeerd (zoals een "a" die eruitzag als een "o").
- Speciale tekens toegevoegd om te laten zien waar een zin eindigt (want oude Sinhala-taal heeft geen punten zoals wij die kennen).
- Speciale tekens toegevoegd voor gedichten, waar rijmletters soms los van het woord staan (een soort "rijm-ankers").
3. De Tijdreis: Wanneer is dit geschreven?
Dit is misschien wel het spannendste deel. Een boek kan in 1900 zijn gedrukt, maar het verhaal erin kan uit de 13e eeuw komen.
- De uitdaging: Het is als het vinden van de geboortedatum van een oude foto. Soms staat er een datum op, maar is dat de datum van de drukkerij, niet van de schrijver.
- De oplossing: De auteurs hebben als detectives gezocht naar hints in de teksten en in historische boeken om te schatten wanneer de tekst echt geschreven was. Ze hebben een subset van 59 boeken zorgvuldig gedateerd, variërend van de 5e eeuw tot de 20e eeuw. Dit maakt het mogelijk om te zien hoe de taal veranderde door de eeuwen heen.
4. Wat hebben ze ontdekt? (De Woord-ontdekkingsreis)
Om te zien hoe de taal veranderde, hebben ze gekeken naar specifieke woorden die door de tijd heen vaak terugkwamen. Ze hebben twee woorden onderzocht als voorbeeld:
Het woord "Sathara" (Vier):
In het begin betekende dit gewoon het getal vier. Maar door de eeuwen heen zagen ze dat het woord ook werd gebruikt in religieuze contexten (zoals "vier soorten wijsheid" of "vier hellevuren" in het boeddhisme). Later, in de 19e eeuw, zagen ze zelfs een keer dat het woord werd gebruikt voor "dief", maar dat was een zeldzame uitzondering. Het laat zien hoe de betekenis verschuift afhankelijk van de tijd en de cultuur.Het woord "Maha" (Groot/Heerlijk):
Ooit betekende dit vooral "heilig" of "groot" in een religieuze zin. Maar in de 20e eeuw zagen ze dat het woord meer werd gebruikt om "sterk" of "krachtig" te beschrijven, zoals bij koningen of leiders. De taal evolueert mee met de maatschappij.
Waarom is dit belangrijk?
Vroeger was Sinhala een "arme taal" in de wereld van computers. Er waren niet genoeg digitale boeken om slimme AI's te leren hoe de taal werkt. Met SiDiaC-v.2.0 hebben ze nu een enorme bibliotheek gecreëerd met bijna 240.000 woorden.
Dit is als het bouwen van een gigantisch trainingscentrum voor computers. Nu kunnen computers beter Sinhala begrijpen, vertalen en zelfs de geschiedenis van de taal bestuderen. Het is een brug tussen het verleden (de oude boeken) en de toekomst (de technologie), zodat de rijke cultuur van Sri Lanka niet verloren gaat, maar digitaal blijft leven.
Kortom: Ze hebben een rommelige, oude bibliotheek opgeruimd, de teksten schoongemaakt, de juiste data erbij gezet en een enorme schatkist gebouwd waar iedereen (en elke computer) uit kan putten om de geschiedenis van het Sinhala-taalrijk te begrijpen.