Each language version is independently generated for its own context, not a direct translation.
Van Mond naar Web: Het Redden van Vergeten Talen in Bangladesh
Stel je voor dat Bangladesh een enorme bibliotheek is. De meeste mensen denken dat deze bibliotheek slechts één groot, uniform boek bevat: het boek van het Bengaals. Dit is de taal van bijna 98% van de bevolking en het symbool van hun onafhankelijkheid. Maar als je door de rijen loopt, ontdek je dat er in de kelder, op de zolder en in de achterkamers nog tientallen andere, heel oude en kwetsbare boeken liggen. Dit zijn de talen van de etnische minderheden.
Het probleem? Veel van deze "boeken" bestaan alleen maar in de hoofden van de mensen die ze spreken. Ze hebben geen schrift, geen website en geen digitale versie. Als de laatste spreker overlijdt, verdwijnt het boek voorgoed uit de wereld. Dit project, genaamd "Oral to Web", is een reddingsoperatie om deze mondelinge verhalen en woorden te vangen en ze veilig te stellen in de digitale cloud.
Hier is hoe ze dat deden, vertaald naar alledaags taalgebruik:
1. Het Grote Verzamelspel (De Methode)
De onderzoekers wilden niet zomaar een paar woorden opschrijven. Ze wilden een spiegelbeeld maken van deze talen.
- De Sjabloon: Ze bedachten een gigantisch vragenlijstje (een sjabloon) dat voor elke taal hetzelfde was. Stel je voor dat je 40 verschillende mensen vraagt om hetzelfde recept te koken. Je krijgt dan 40 verschillende versies van hetzelfde gerecht, en dat maakt het makkelijk om te zien wat er anders is.
- Ze vroegen om woorden (zoals "mama", "stier", "regen").
- Ze vroegen om zinnen (zoals "Ik heb honger", "Ga naar de markt").
- Ze vroegen om verhalen (zoals "Vertel me over je kindertijd" of "Hoe kook je rijst?").
- De Reis: Een team van 16 mensen trok er 90 dagen opuit naar de afgelegen hoeken van Bangladesh (de heuvels, de theetuinen, de dorpen). Ze spraken met 77 moedertaalsprekers. Het was als een grote, mobiele opnamestudio die van dorp tot dorp reisde.
2. De Digitale Schatkist (Het Resultaat)
Het resultaat is een enorme digitale schatkist, de Multilingual Cloud Corpus.
- De Inhoud: Het bevat bijna 86.000 ingevulde vakjes. In elk vakje staat:
- De zin in het Bengaals (de "vraag").
- De vertaling in het Engels (voor de wereld).
- De klankopname van de spreker (hoe het echt klinkt).
- De fonetische transcriptie (een wetenschappelijke schrijfwijze die precies aangeeft hoe je de mond moet bewegen om het geluid te maken).
- De Omvang: Ze hebben geluid opgenomen van ongeveer 107 uur praten. Dat is als een ononderbroken podcast van bijna 5 dagen lang, vol met zeldzame geluiden uit 42 verschillende talen.
3. Waarom is dit zo belangrijk? (De Analogie)
Stel je voor dat computers (zoals Google Translate of Siri) een grote, hongerige machine zijn. Deze machine eet data om te leren praten en vertalen.
- Voor talen zoals Engels of Spaans is deze machine overstroomd met eten (data).
- Voor de talen uit dit project is de machine hongrig tot op het bot. Er is bijna niets te eten. Zonder dit project zouden deze talen voor computers onzichtbaar blijven.
Door deze data te verzamelen, geven ze de computers een "startpakket". Nu kunnen wetenschappers in de toekomst misschien een app bouwen die een kind in een afgelegen dorp helpt om zijn eigen taal te leren, of een vertaler die helpt bij medische hulp of onderwijs.
4. Een Speciale Opmerking: Het "Leven" van een Taal
Het project ontdekte iets verrassends. Sommige talen hebben wel een eigen schrift (een manier om te schrijven), maar ze sterven toch uit. Waarom? Omdat niemand ze meer aan zijn kinderen leert.
- Vergelijking: Het is alsof je een prachtige, oude viool hebt (het schrift), maar niemand meer weet hoe je erop moet spelen (de mondelinge traditie). Als de laatste musicus sterft, is de viool slechts een stuk hout.
- Dit project vangt de "muziek" voordat de laatste musicus stopt. Zelfs voor talen die bijna uitgestorven zijn (soms met maar 6 sprekers), hebben ze genoeg data kunnen verzamelen om een complete "digitale ziel" van de taal te maken.
5. De Toekomst: Een Open Huis
Alles wat ze hebben verzameld, ligt nu op een website: multiling.cloud.
- Het is een publiek park voor talen. Iedereen mag binnenlopen, luisteren en leren.
- Ze hebben ook speciale digitale toetsenborden gemaakt, zodat mensen deze talen eindelijk op hun telefoon of computer kunnen typen. Dit is een enorme stap: van "niemand kan dit schrijven" naar "iedereen kan dit delen".
Kortom:
Dit project is als het bouwen van een tijdbom-ontschakelaar voor taalverlies. Ze hebben de "vergeten" talen van Bangladesh uit de duisternis gehaald, ze in een digitale kluis gelegd en de sleutel aan de hele wereld gegeven. Zo zorgen ze ervoor dat deze talen, zelfs als ze in de toekomst niet meer gesproken worden, nooit volledig zullen verdwijnen uit het collectieve geheugen van de mensheid.