Controllable Accent Normalization via Discrete Diffusion

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que el acento en el habla es como el sabor de una comida. Si cocinas un plato con un toque muy fuerte de especias (un acento extranjero), a veces quieres que suene más suave, como si lo hubiera cocinado un chef local, pero sin perder la esencia de tu propia receta. Otras veces, quizás solo quieras quitar un poco de la especia, no todo.

El problema con las tecnologías actuales es que suelen ser como un interruptor de luz: o enciendes la luz (acento nativo perfecto) o la apagas (acento extranjero). No hay un botón de "brillo" para ajustar la intensidad.

Este paper presenta DLM-AN, una nueva herramienta que funciona como un regulador de volumen para el acento. Aquí te explico cómo funciona con analogías sencillas:

1. La Idea Central: "Reutilizar las Piezas Correctas"

Imagina que tienes un rompecabezas hecho de piezas de madera (las palabras y sonidos de tu voz).

El problema: Cuando hablas con acento, algunas piezas están torcidas o pintadas de un color extraño (la pronunciación no nativa), pero otras piezas son perfectas y se ven igual que las de un hablante nativo.
La solución de DLM-AN: En lugar de tirar todo el rompecabezas y empezar de cero (lo cual podría hacer que suenes robótico o pierdas tu identidad), el sistema tiene un detective inteligente (llamado Common Token Predictor).
- Este detective revisa tus piezas y dice: "¡Oye! Esta pieza de la palabra 'casa' suena igual que la de un nativo, ¡déjala ahí!". Pero luego dice: "Esta otra pieza de la palabra 'agua' suena muy extraña, ¡tírala y hagamos una nueva!".
- El control mágico: Tú decides cuántas piezas quieres reutilizar.
  - Si reutilizas todas las piezas que suenan bien, mantienes casi todo tu acento original.
  - Si reutilizas pocas, el sistema tiene que inventar casi todo de nuevo, y el resultado suena muy nativo.
  - ¡Tú tienes el control deslizante!

2. El Ritmo: "El Metrónomo Automático"

A veces, no solo cambia cómo pronuncias las palabras, sino qué tan rápido las dices.

Imagina que hablas como si estuvieras corriendo, pero quieres sonar como alguien que camina tranquilamente.
DLM-AN tiene un músico interno (el Duration Ratio Predictor) que escucha tu ritmo y ajusta automáticamente la duración total de la frase. Si hablas muy rápido, él te ralentiza para que suenes natural, como un director de orquesta que ajusta el tempo de los músicos.

3. ¿Cómo lo hace? (La Magia Técnica Simplificada)

El sistema usa una técnica llamada "Difusión Discreta".

Imagina que tienes una foto borrosa (tu voz con acento).
El sistema va "limpiando" la foto poco a poco, paso a paso.
En cada paso, decide qué partes de la foto son claras y las deja intactas (las piezas que el detective aprobó) y qué partes están borrosas y necesita "pintar" de nuevo con la voz nativa.
Al final, tienes una imagen clara: una voz que suena nativa, pero que conserva tu estilo y ritmo.

¿Por qué es importante esto?

Antes, si querías aprender un idioma o doblar una película, tenías que elegir entre sonar como tú (con acento) o sonar perfecto (pero perdiendo tu identidad).
Con DLM-AN, puedes:

Para estudiantes de idiomas: Practicar reduciendo tu acento poco a poco, como subir una montaña paso a paso.
Para doblaje de películas: Mantener la personalidad única del actor, pero hacer que suene como si hablara el idioma local perfectamente.
Para todos: Tener una voz que se adapta a la situación, sin sonar robótica.

En resumen: DLM-AN es como un editor de voz inteligente que entiende qué partes de tu acento son "buenas" (únicas) y cuáles son "ruidosas" (dificultan la comprensión), permitiéndote ajustar el nivel de perfección nativa con un simple deslizamiento, sin perder tu esencia.

Each language version is independently generated for its own context, not a direct translation.

Aquí presento un resumen técnico detallado del artículo "Controllable Accent Normalization via Discrete Diffusion" (Normalización de Acento Controlable mediante Difusión Discreta), estructurado según los puntos solicitados.

1. El Problema

La normalización de acento (AN) busca convertir el habla con acento no nativo (L2) a una forma nativa (L1) preservando las características del hablante. Aunque existen métodos previos, presentan limitaciones críticas:

Falta de control sobre la intensidad del acento: La mayoría de los sistemas realizan una conversión "total" (todo o nada). Sin embargo, aplicaciones como el aprendizaje de idiomas o el doblaje requieren un ajuste gradual para retener parte del acento original o reducirlo progresivamente.
Dependencia de datos y calidad: Los métodos anteriores a menudo dependen de datos paralelos o de objetivos sintetizados por TTS (Text-to-Speech), lo que puede introducir errores de clonación de voz o modelado de duración.
Control limitado de duración: Los métodos existentes que permiten cierto control de ritmo suelen tener una ajustabilidad fina limitada o carecen de control sobre la duración total de la salida.

2. Metodología: DLM-AN

Los autores proponen DLM-AN, un sistema basado en difusión discreta enmascarada sobre tokens de habla auto-supervisados. La arquitectura se compone de los siguientes módulos clave:

A. Tokenización y Representación

Se utilizan tokens discretos derivados de representaciones de aprendizaje auto-supervisado (SSL), específicamente WavLM, para capturar el contenido fonético.
Un Codificador de Tokens (Transformer) procesa estos tokens para generar representaciones continuas de contenido, guiadas por un objetivo de CTC (Connectionist Temporal Classification) para asegurar que las representaciones sean fonéticamente informativas.

B. Predicción de Tokens Comunes (CTP - Common Token Predictor)

Este es el núcleo del control de la intensidad del acento. El CTP es un modelo de etiquetado de secuencias que asigna una puntuación de confianza a cada token de la fuente (L2).
Lógica: Identifica qué tokens de la fuente probablemente se compartan con la pronunciación nativa (L1). Las regiones con acento fuerte reciben baja confianza, mientras que las regiones nativas reciben alta confianza.
Mecanismo de Control: Durante la generación, los tokens de alta confianza pueden ser reutilizados para inicializar la secuencia objetivo.
- Reutilización alta: Se preserva más el acento original.
- Reutilización baja (o nula): Se genera desde cero, logrando una normalización completa.

C. Predicción de la Razón de Duración (DP - Duration Ratio Predictor)

Un predictor basado en Flow Matching estima la razón global de duración ( $r = duración_{objetivo} / duración_{fuente}$ ).
Esto permite ajustar el ritmo y la duración total del habla para que coincida mejor con el ritmo nativo, independientemente de la velocidad de habla original.

D. Decodificador DLM (Difusión Discreta)

Se extiende el modelo de lenguaje difusivo LLaDA al dominio del habla.
Utiliza un proceso de difusión de absorción donde los tokens se enmascaran progresivamente y se recuperan iterativamente mediante un Transformer bidireccional.
Generación: El decodificador predice los tokens enmascarados condicionados a las representaciones de contenido. Se utiliza una estrategia de muestreo codicioso con inicialización basada en el CTP y Guía Sin Clasificador (CFG) para mejorar la preservación del contenido.

E. Síntesis de Voz

Una vez obtenida la secuencia de tokens objetivo, un sintetizador basado en Flow Matching genera el espectrograma Mel, condicionado por la identidad del hablante (embedding extraído de la fuente) y los tokens. Finalmente, un vocoder (HiFT) genera la forma de onda.

3. Contribuciones Clave

Primera Normalización de Acento basada en Difusión Discreta: Introducen un sistema que genera tokens iterativamente condicionados a representaciones fonéticas, superando las limitaciones de los modelos autoregresivos o de flujo continuo.
Control de Intensidad de Acento Interpretable: Mediante el CTP, ofrecen un "knob" (perilla) de control simple y efectivo. Al reutilizar tokens de origen basados en umbrales de confianza, los usuarios pueden suavizar el acento de manera continua, desde la normalización total hasta la resíntesis casi completa.
Preservación de Contenido Superior: Demuestran que su enfoque logra la tasa de error de palabras (WER) más baja entre todos los sistemas comparados, indicando una mejor preservación del contenido semántico.
Control de Duración Robusto: Integran un predictor de razón de duración que permite escalar el tiempo de salida de manera flexible sin degradar la calidad.

4. Resultados Experimentales

Los experimentos se realizaron en datos de inglés con múltiples acentos (árabe, chino, hindi, coreano, español, vietnamita y nativo americano).

Rendimiento Objetivo (WER): DLM-AN obtuvo el WER más bajo (10.64% - 11.19%) en comparación con los sistemas de referencia (TokAN y CosyAccent), superándolos significativamente en la preservación del contenido.
Reducción de Acento (ACT): Logró la puntuación de acento más baja (mejor reducción) en modo de duración libre (22.94), superando a CosyAccent y TokAN.
Control de Intensidad: La variación del umbral de reutilización ( $\tau$ $τ$ ) mostró una correlación clara y suave:
- A medida que $\tau$ disminuye (más reutilización), la puntuación de acento (ACT) aumenta (más acento retenido) y la similitud del hablante (SIM) mejora.
- Esto confirma que el sistema permite un control granular y predecible sobre cuánto acento se conserva.
Escalado de Duración: DLM-AN mantuvo un WER bajo incluso cuando la duración objetivo se reducía a la mitad de la original, donde otros modelos (como TokAN) fallaban drásticamente debido a problemas de alineación de tokens.
Calidad Natural: Las puntuaciones de naturalidad (NAT) y UTMOS fueron competitivas con los mejores sistemas existentes.

5. Significado e Impacto

El trabajo DLM-AN representa un avance significativo en la tecnología de conversión de voz por varias razones:

Flexibilidad para Aplicaciones Reales: Resuelve la necesidad crítica de control fino en aplicaciones como el entrenamiento de idiomas (donde se desea una reducción gradual) y el doblaje (donde se puede querer mantener cierta identidad o acento del actor).
Eficiencia y Teoría Sólida: Al utilizar difusión discreta en lugar de modelos autoregresivos, permite la generación paralela y ofrece una base teórica sólida (límite inferior de evidencia variacional) para la optimización.
Arquitectura Modular: La separación entre la predicción de tokens comunes, la duración y la generación permite un control independiente sobre diferentes aspectos del habla (contenido, acento, ritmo).
Futuro: El enfoque sugiere que el uso de tokens discretos y modelos de difusión es una vía prometedora para tareas de conversión de voz que requieren alta fidelidad y control, superando las limitaciones de los métodos basados en TTS o flujos continuos tradicionales.

En resumen, DLM-AN establece un nuevo estado del arte en la normalización de acento, logrando un equilibrio superior entre la preservación del contenido, la reducción del acento y la capacidad de controlar la intensidad de la conversión de manera interpretable.