VietNormalizer: An Open-Source, Dependency-Free Python Library for Vietnamese Text Normalization in TTS and NLP Applications

Le papier présente VietNormalizer, une bibliothèque Python open-source et sans dépendance qui normalise le texte vietnamien en convertissant les nombres, dates, devises, acronymes et termes étrangers en formes parlables pour les applications de synthèse vocale et de traitement du langage naturel.

Hung Vu Nguyen, Loan Do, Thanh Ngoc Nguyen, Ushik Shrestha Khwakhali, Thanh Pham, Vinh Do, Charlotte Nguyen, Hien Nguyen

Publié 2026-03-05
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée du papier de recherche sur VietNormalizer, conçue pour être comprise par tout le monde, même sans être expert en informatique.

🇻🇳 VietNormalizer : Le Traducteur Magique pour les Robots qui Parlent

Imaginez que vous essayez d'enseigner à un robot (un système de synthèse vocale) à lire une lettre écrite par un humain. Le problème ? Les humains écrivent de manière "sale" et rapide, tandis que les robots ont besoin de tout être parfaitement clair et prononçable.

C'est là qu'intervient VietNormalizer. C'est un outil gratuit et léger qui agit comme un chef d'orchestre ou un traducteur de dernière minute pour le vietnamien.

1. Le Problème : Le "Chaos" des Textes Réels

Dans la vraie vie, les textes vietnamiens sont un mélange explosif. Imaginez une phrase comme :

"Le meeting est à 14h30, le budget est de 1.500.000đ, et on parle de la NASA."

Pour un humain, c'est facile à comprendre. Mais pour un robot qui doit parler (Text-to-Speech) :

  • Que signifie "14h30" ? Doit-il dire "quatorze heures trente" ou "deux heures et demie de l'après-midi" ?
  • Comment prononcer "1.500.000đ" ? "Un million..." ?
  • Comment dire "NASA" ? En anglais ou en vietnamien ("Na-sa") ?

Sans aide, le robot bégayerait, prononcerait mal les tons (cruciaux en vietnamien) ou dirait des choses absurdes.

2. La Solution : VietNormalizer, le "Couteau Suisse"

Les auteurs de ce papier ont créé VietNormalizer. Voici ce qu'il fait, expliqué avec des analogies :

  • Le Magicien des Nombres : Il transforme les chiffres bruts en mots.

    • Avant : "123"
    • Après : "cent vingt-trois" (en vietnamien).
    • L'astuce : Il connaît les règles bizarres du vietnamien (comme la différence entre "un" et "dix" selon l'endroit où ils se trouvent dans la phrase).
  • Le Chronométreur : Il convertit les heures et dates.

    • Avant : "25/12/2023"
    • Après : "le vingt-cinq décembre deux mille vingt-trois".
  • Le Banquier : Il gère l'argent.

    • Avant : "1.500.000đ"
    • Après : "un million cinq cent mille dong".
  • Le Dictionnaire Vivant : Il sait comment prononcer les acronymes (NASA, GDP) et les mots étrangers (comme "container" ou "Singapore") en les adaptant à la phonétique vietnamienne.

3. Pourquoi est-ce Spécial ? (La Différence avec les Autres Outils)

Avant VietNormalizer, les outils existants étaient soit :

  • Trop lourds : Comme un camion blindé pour aller acheter du pain. Ils nécessitaient des super-ordinateurs et des années d'étude (intelligence artificielle complexe) pour faire une tâche simple.
  • Trop limités : Comme un couteau suisse qui n'a qu'une seule lame. Ils ne savaient faire que quelques choses (comme corriger l'orthographe) mais pas gérer les nombres ou l'argent.

VietNormalizer est différent :

  • Il est "Zéro Dépendance" : C'est comme un couteau suisse en plastique ultra-léger. Vous n'avez besoin d'aucun logiciel lourd, d'aucune carte graphique puissante, ni d'aucune connexion internet. Il fonctionne sur n'importe quel ordinateur, même un vieux portable.
  • Il est Rapide : Il utilise des règles fixes (comme une recette de cuisine précise) plutôt que de "réfléchir" comme un humain. C'est instantané.
  • Il est Personnalisable : Si vous avez un mot spécial que le robot ne connaît pas, vous pouvez simplement ajouter une ligne dans un fichier Excel (CSV) et le robot l'apprendra immédiatement.

4. L'Analogie Finale : Le Préparateur de Voyage

Imaginez que vous préparez un voyage en voiture (le robot qui parle).

  • Les outils précédents étaient comme des mécaniciens qui devaient démonter le moteur pour vérifier chaque pièce avant de partir. C'était long, cher et compliqué.
  • VietNormalizer, c'est le préparateur de voyage. Il prend votre valise (le texte brut), range les vêtements (les nombres), met les chaussures aux bons endroits (les dates), et s'assure que tout est prêt pour le départ. Il le fait en quelques secondes, sans outils complexes, et vous laisse partir immédiatement.

En Résumé

Ce papier présente un outil gratuit, rapide et simple pour transformer le texte vietnamien "brouillon" en un texte parfait pour être lu à voix haute par des robots. Il est conçu pour être utilisé par tout le monde, des développeurs de start-up aux chercheurs, sans avoir besoin d'être un expert en intelligence artificielle.

C'est une victoire pour les langues "peu dotées" en ressources informatiques : cela prouve qu'on n'a pas besoin de super-ordinateurs pour faire de la technologie de pointe, juste de bonnes règles et un peu de créativité.