Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat taal een enorme, levende stad is. In deze stad zijn er twee hoofdstraten: de gesproken straat (waar mensen praten, stotteren, "uh" zeggen en hun gedachten vormen terwijl ze lopen) en de geschreven straat (waar mensen zorgvuldig zinnen op papier zetten, zonder haperingen, vaak in een kantoor).
De auteurs van dit paper, Maria en Christina, hebben een gigantische digitale schatkist gebouwd die beide straten in één map verzamelt. Ze noemen dit de EPIC-EuroParl-UdS.
Hier is wat ze precies hebben gedaan, vertaald naar alledaagse taal:
1. De Schatkist: Een perfecte verzameling
Vroeger hadden onderzoekers twee losse dozen met data: één met geschreven toespraken van het Europees Parlement en één met de vertalingen en tolkversies daarvan. Maar deze dozen waren rommelig:
- Sommige bestanden misten metadata (wie sprak er?).
- De schrijfwijze was niet consistent.
- Er zaten fouten in.
Maria en Christina hebben deze dozen leeggemaakt, alles grondig schoongemaakt, de losse onderdelen aan elkaar gelast en ze in één grote, georganiseerde kast geplaatst. Nu heb je een perfecte verzameling van Engels en Duits, zowel geschreven als gesproken, inclusief wat de tolk er van heeft gemaakt.
2. De Magische Bril: "Surprisal" (Verrassingswaarde)
Het echte nieuwe gereedschap in deze schatkist is een soort magische bril die ze op elk woord hebben geplaatst. Deze bril heet "Surprisal" (verrassingswaarde).
Stel je voor dat je een verhaal luistert. Als iemand zegt: "Ik ga vanavond een...", en dan stopt hij even. Je brein begint te gokken: "Eten? Slapen? Film?".
- Als de spreker nu zegt: "...pizza", is dat niet zo verrassend. Je brein had dat al verwacht. De "verrassingswaarde" is laag.
- Als de spreker zegt: "...vliegtuig", is dat heel verrassend. Je brein moet hard werken om dit te verwerken. De "verrassingswaarde" is hoog.
In dit paper hebben ze voor elk woord in de hele schatkist uitgerekend hoe verrassend het is, gebaseerd op slimme computermodellen (zoals GPT-2). Ze hebben zelfs twee soorten brillen:
- De basisbril: Kijkt naar hoe woorden normaal worden gebruikt.
- De gespecialiseerde bril: Is getraind op specifieke teksten (zoals politieke toespraken) en ziet dus nog meer details.
3. Waarom is dit zo cool? (De Analyses)
Met deze nieuwe bril kunnen onderzoekers dingen zien die voor het blote oog onzichtbaar zijn:
Waarom stotteren tolken?
De auteurs keken naar woorden als "uh" en "hm" (deze noemen ze vulwoorden). Ze ontdekten dat tolken vaak "uh" zeggen net voordat er een heel verrassend woord komt. Het is alsof hun brein zegt: "Oeps, dit woord is lastig om te vertalen, wacht even!"
Ze ontdekten ook dat tolken soms "uh" zeggen als ze het begrip van de zin lastig vinden, of juist als het vertalen zelf lastig is.Gesproken vs. Geschreven:
De bril laat zien dat gesproken taal veel "ruis" en verrassingen bevat (hoge surprisal) omdat mensen spontaan praten. Geschreven taal is strakker en voorspelbaarder. Maar als een tolk een geschreven tekst moet vertalen, of andersom, zie je precies waar de "knoop" in de hals zit.De Balans tussen trouw en vloeiheid:
Soms moet een tolk kiezen: vertaal ik letterlijk (trouw aan de bron, maar klinkt het raar?) of maak ik het vloeiend (klinkt het goed, maar verlies ik de originele betekenis)? De data laat zien dat dit een moeilijke balans is, vooral bij moeilijke zinnen.
4. Het Resultaat voor de Wereld
Dit paper is niet zomaar een lijst met cijfers. Het is een openbaar park waar elke onderzoeker naartoe kan komen om te spelen en te ontdekken.
- Ze hebben de data zo opgezet dat je het makkelijk in programma's kunt laden (zoals R).
- Ze hebben fouten uit de oude versies verwijderd.
- Ze hebben de "vulwoorden" en "stotterpartijen" zorgvuldig gemarkeerd, zodat we kunnen zien hoe het menselijk brein werkt onder druk.
Kort samengevat:
De auteurs hebben een enorme, schone database van politieke toespraken en vertalingen gemaakt. Ze hebben er slimme computerbrillen op gezet die meten hoe "verrassend" elk woord is. Hiermee kunnen we nu beter begrijpen waarom mensen stotteren, waarom vertalingen soms lastig zijn, en hoe ons brein werkt als het moet schakelen tussen spreken, schrijven en vertalen. Het is een nieuwe manier om de "ruis" in onze communicatie te meten en te begrijpen.