VietNormalizer: An Open-Source, Dependency-Free Python Library for Vietnamese Text Normalization in TTS and NLP Applications

El artículo presenta VietNormalizer, una biblioteca Python de código abierto y sin dependencias que normaliza texto vietnamita mediante un pipeline basado en reglas para convertir números, fechas, monedas, acrónimos y préstamos lingüísticos en formas habladas, optimizando así su uso en aplicaciones de síntesis de voz y procesamiento del lenguaje natural.

Hung Vu Nguyen, Loan Do, Thanh Ngoc Nguyen, Ushik Shrestha Khwakhali, Thanh Pham, Vinh Do, Charlotte Nguyen, Hien Nguyen

Publicado 2026-03-05
📖 3 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un robot muy talentoso llamado VietNormalizer. Su trabajo es ser el "traductor de cocina" para la inteligencia artificial que habla vietnamita.

Aquí te explico de qué trata este documento, usando una analogía sencilla:

🍳 El Problema: La "Receta" Confusa

Imagina que quieres pedir una pizza por teléfono a un robot. Si le dices: "Quiero una pizza a las 14:30, cuesta 1.500.000 dong y la envío a la calle NASA", el robot se va a confundir.

  • ¿Qué significa "14:30"? ¿Es una hora o un código?
  • ¿Cómo pronuncia "1.500.000"? ¿Dice los números o dice "un millón quinientos mil"?
  • ¿Cómo lee "NASA"? ¿Como una palabra vietnamita o como la palabra en inglés?

En el mundo real, los textos en vietnamita están llenos de estos "ingredientes extraños" (números, fechas, monedas, siglas, palabras en inglés) mezclados con palabras normales. Si el robot intenta leerlos tal cual, sonará como un robot atascado o cometerá errores de pronunciación.

🛠️ La Solución: VietNormalizer

Los autores de este papel crearon VietNormalizer, que es como un chef experto que toma esa "receta confusa" y la convierte en una instrucción clara y perfecta antes de dársela al robot.

Lo especial de este chef es que:

  1. No necesita electricidad extra: A diferencia de otros chefs que necesitan una cocina gigante llena de máquinas costosas (redes neuronales pesadas), este chef solo necesita un cuchillo y una tabla. Es un programa muy ligero que no necesita internet ni tarjetas gráficas potentes.
  2. Es un "Todo en Uno": No solo arregla las horas. Arregla todo:
    • Números: Convierte "123" en "ciento veintitrés".
    • Fechas y Horas: Convierte "25/12/2023" en "veinticinco de diciembre de dos mil veintitrés".
    • Dinero: Convierte "1.500.000 dong" en una frase completa sobre millones y miles.
    • Siglas: Si ves "NASA", el robot sabe que debe decir "na-sa" (como se pronuncia en vietnamita) y no leer las letras en inglés.
    • Palabras extranjeras: Si aparece "container", lo convierte a "cong-te-no".

🚀 ¿Por qué es tan importante?

Antes de este programa, si querías que un robot hablara vietnamita correctamente, tenías dos opciones difíciles:

  • Opción A: Usar programas muy pesados que necesitaban supercomputadoras (como tener un camión para llevar una sola caja).
  • Opción B: Usar programas que solo arreglaban una parte del problema (como arreglar solo los números pero olvidar las fechas).

VietNormalizer es como una bicicleta eléctrica: es rápida, barata, fácil de usar y hace todo el trabajo de limpieza de texto sin necesidad de una fábrica gigante.

🌍 El Gran Secreto: Funciona para otros idiomas también

Los autores dicen que la "receta" que usaron para vietnamita (reglas simples y listas de palabras) se puede copiar para otros idiomas que son difíciles para las computadoras, como el tailandés, el lao o el chino.
Es como decir: "No necesitas un robot súper inteligente para aprender a cocinar; si tienes una buena lista de instrucciones y un buen diccionario, puedes enseñarle a cualquier máquina a hablar casi cualquier idioma".

En resumen

Este documento presenta una herramienta gratuita y sencilla que limpia el texto vietnamito para que las máquinas puedan leerlo y hablarlo como un humano. Es rápido, no necesita internet, y es tan fácil de instalar que cualquiera puede usarlo con un solo comando en su computadora. ¡Es como darle al robot un diccionario mágico y unas reglas de oro para que nunca vuelva a tartamudear!