ViDia2Std: A Parallel Corpus and Methods for Low-Resource Vietnamese Dialect-to-Standard Translation

Dit paper introduceert ViDia2Std, het eerste handmatig geannoteerde parallelle corpus voor het vertalen van alle 63 Vietnamese provinciedialecten naar Standaard-Vietnamees, en toont aan dat dialectnormalisatie de prestaties van downstream NLP-taken aanzienlijk verbetert.

Khoa Anh Ta, Nguyen Van Dinh, Kiet Van Nguyen

Gepubliceerd 2026-03-12
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat het Vietnamese taalgebied een enorm, levendig dorp is met drie grote buurten: het Noorden, het Midden en het Zuiden. Iedereen spreekt er Vietnamese, maar in elke buurt klinkt het anders. In het Noorden klinkt het als een strakke, formele radio-uitzending. In het Midden klinkt het als een snel, ritmisch gedicht, en in het Zuiden klinkt het als een ontspannen, zonnig gesprek op het terras.

Het probleem is dat de slimme computerprogramma's (de "AI") die we gebruiken om tekst te begrijpen of te vertalen, zijn opgeleid met alleen de Noordse radio-uitzending. Ze zijn zo gewend aan die ene manier van spreken, dat ze de andere twee buurten vaak niet begrijpen. Als iemand in het Zuiden iets zegt, denkt de computer: "Wacht, wat bedoel je nou precies?" en maakt hij rare fouten.

De auteurs van dit paper, Khoa Anh Ta en zijn team, hebben een oplossing bedacht die ze ViDia2Std noemen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Verzamelen van de "Dialect-Schat"

Stel je voor dat je een grote verzameling van alle verschillende manieren waarop mensen praten wilt maken. In plaats van mensen te vragen om op papier te schrijven (wat saai en onnatuurlijk is), hebben de onderzoekers gekeken naar Facebook.
Ze hebben duizenden echte reacties en opmerkingen verzameld van mensen uit alle 63 provincies van Vietnam. Het is alsof ze een gigantische schat aan "echte, rauwe" taal hebben gevonden in de straten van het dorp.

2. De Vertalers (De Mensen)

Nu hadden ze die rauwe dialectteksten, maar de computers hebben een "standaardversie" nodig om ze te begrijpen. Ze hebben daarom een team van moedertaalsprekers ingehuurd.

  • De taak: Deze mensen kregen een zin in een lokaal dialect (bijvoorbeeld: "Bui" in plaats van "Vui" voor 'leuk' in een bepaalde provincie) en moesten die omzetten naar het "standaard-Vietnamese" dat de computers begrijpen.
  • De kwaliteit: Ze waren niet zomaar vertalers; ze waren experts die zorgden dat de betekenis en de gevoelens precies hetzelfde bleven. Het is alsof je een lokaal dialect vertaalt naar een universele taal, zonder de ziel van de zin te verliezen.

3. Het Resultaat: De "Taal-Bridge"

Het resultaat is een enorme lijst met 13.000 zinnen. Aan de ene kant staat de "lokale, rauwe" zin, en aan de andere kant de "gezuiverde, standaard" zin.
Dit is de eerste keer dat er zo'n complete lijst bestaat die alle drie de grote gebieden (Noord, Midden, Zuid) dekt. Voorheen hadden ze alleen een kleine lijst voor één gebied, alsof je alleen een kaart had van één straat in plaats van het hele dorp.

4. Wat levert dit op? (De Test)

De onderzoekers hebben getest wat er gebeurt als je deze nieuwe lijst gebruikt om de slimme computers te trainen. Ze hebben twee dingen gedaan:

  • Vertalen naar het Engels: Stel je voor dat je een Zuid-Vietnamese zin rechtstreeks naar het Engels wilt vertalen. De computer maakt veel fouten. Maar als je de zin eerst "oppoetst" naar standaard-Vietnamese (met hun nieuwe methode) en daarna vertaalt, werkt het veel beter. Het is alsof je eerst een slechte foto scherpstelt voordat je hem naar iemand stuurt; de ontvanger ziet het beeld veel duidelijker.
  • Gemoedstoestand herkennen: Als een computer probeert te raden of iemand blij of boos is, faalt hij vaak bij dialect. Na het "oppoetsen" naar standaardtaal, raadt hij de stemming veel beter. Het is alsof je een persoon met een vermomming (het dialect) eerst een masker afzet, zodat je zijn echte gezicht (de emotie) kunt zien.

5. De Grootste Leraar: mBART

Ze hebben verschillende computermodellen getest. Het winnende model heet mBART-large-50. Dit is als een super-intelligente vertaler die al 50 talen kent en daarom heel goed is in het begrijpen van de subtiele verschillen in Vietnamese dialecten. Een ander model, ViT5, is iets kleiner en sneller, maar doet bijna net zo goed werk.

Waarom is dit belangrijk?

Vroeger waren computers "doof" voor de meeste Vietnamese dialecten. Ze luisterden alleen naar het Noorden. Met ViDia2Std hebben de onderzoekers een brug gebouwd. Nu kunnen computers eindelijk luisteren naar iedereen, of ze nu in het noorden, midden of zuiden wonen.

Kort samengevat:
De onderzoekers hebben een gigantisch woordenboek gemaakt van "lokale praat" naar "standaard praat". Hierdoor kunnen slimme computers eindelijk begrijpen wat de gewone man in de straat zegt, en kunnen ze die informatie veel beter vertalen of analyseren. Het is een enorme stap vooruit voor de Vietnamese technologie, zodat niemand meer achterblijven in de digitale wereld.