VietNormalizer: An Open-Source, Dependency-Free Python Library for Vietnamese Text Normalization in TTS and NLP Applications

Deze paper introduceert VietNormalizer, een open-source, afhankelijkheidsloze Python-bibliotheek die Vietnamese tekst normaliseert naar spreekbare vormen voor TTS- en NLP-toepassingen door een efficiënt, op regels gebaseerd systeem te gebruiken voor het verwerken van getallen, datums, valuta en leenwoorden.

Hung Vu Nguyen, Loan Do, Thanh Ngoc Nguyen, Ushik Shrestha Khwakhali, Thanh Pham, Vinh Do, Charlotte Nguyen, Hien Nguyen

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt bouwen die perfect kan spreken, alsof het een echte mens is. Je geeft de robot een tekst: "De vergadering is om 14:30 uur, kosten 1.500.000 dong, en we bespreken de NASA-rapporten."

Als je deze tekst direct aan de robot geeft, zal hij waarschijnlijk verward zijn. Hij zal niet weten of hij "14:30" moet uitspreken als "veertien drie nul" of als "half twee". Hij weet niet of "NASA" een woord is dat hij moet uitspreken als "na-sa" of als "N-A-S-A". Voor een mens is dit triviaal, maar voor een computer is het een enorme puzzel.

Dit papier introduceert VietNormalizer, een slimme, gratis tool die deze puzzel voor het Vietnamese taalgebied oplost. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Vertaal- en Scherpslijper"

Vietnamese tekst op sociale media of in nieuwsberichten is vaak een mengelmoes van cijfers, symbolen, Engelse afkortingen en Vietnamese woorden.

  • Het probleem: Een computer ziet "1.500.000" als een reeks symbolen, niet als "één miljoen en vijfhonderdduizend".
  • De oplossing: VietNormalizer is als een super-scherpslijper. Hij neemt die ruwe, onleesbare tekst en slijpt hem tot een vloeiende, spreekbare zin. Hij zet cijfers om in woorden, data om in "vandaag is het..." en afkortingen uit tot hun volledige naam.

2. Waarom is dit zo speciaal? (De "Geen Batterijen" Regels)

Veel andere slimme tools voor taalverwerking zijn als zware, dure robots. Ze hebben enorme hoeveelheden energie nodig (computers met krachtige grafische kaarten) en moeten eerst "leren" door miljoenen voorbeelden te zien. Als je ze wilt gebruiken, moet je eerst een heel zwaar pakket installeren.

VietNormalizer is anders. Het is als een slimme, mechanische klok:

  • Geen batterijen nodig: Het heeft geen zware neurale netwerken of internetverbinding nodig. Het werkt volledig offline.
  • Regels in plaats van leren: In plaats van te leren door te kijken, heeft het een strakke lijst met regels (zoals een recept). Als het een cijfer ziet, volgt het recept om dat om te zetten in woorden.
  • Snelheid: Omdat het geen zware berekeningen hoeft te doen, is het razendsnel. Het kan duizenden zinnen per minuut verwerken op een simpele computer.

3. Wat doet het precies? (De 7 Magische Trucs)

De tool heeft zeven specifieke vaardigheden om tekst "spreekbaar" te maken:

  1. Cijfers: Zet "123" om in "honderddrieëntwintig".
  2. Data: Zet "25/12/2023" om in "vijfentwintigste december tweeduizend drieëntwintig".
  3. Tijden: Zet "14:30" om in "half twee" (in het Vietnamees).
  4. Geld: Zet "1.500.000 ₫" om in "één miljoen vijfhonderdduizend dong".
  5. Percentages: Zet "50%" om in "vijftig procent".
  6. Afkortingen: Zet "NASA" om in "na-sa" (zoals het klinkt).
  7. Vreemde woorden: Zet Engelse woorden die in het Vietnamees worden gebruikt (zoals "container") om naar hoe ze klinken in het Vietnamees ("cong-te-no").

4. Waarom is dit belangrijk voor iedereen?

Stel je voor dat je een app wilt maken die voorleest in het Vietnamees, of een chatbot die Vietnamese klanten helpt. Zonder deze tool zou je een enorme, dure computer nodig hebben om die tekst om te zetten. Met VietNormalizer kan elke ontwikkelaar, zelfs die met een simpele laptop, een professionele stem-app bouwen.

Het is alsof je een universale sleutel hebt gekregen die elke gesloten deur in de Vietnamese taal opent, zonder dat je een heel leger aan experts nodig hebt om de sleutel te maken.

Samenvatting

VietNormalizer is een gratis, lichtgewicht hulpmiddel dat ruwe, rommelige Vietnamese tekst omzet in nette, spreekbare zinnen. Het doet dit niet door te "leren" (wat veel energie kost), maar door slimme regels toe te passen. Hierdoor kunnen ontwikkelaars snel en goedkoop spraaktechnologie bouwen voor Vietnam, zonder zware computers of dure abonnementen. Het is de "schone was" voor Vietnamese tekst voordat hij de mond van een computer bereikt.