Controllable Accent Normalization via Discrete Diffusion

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DLM-AN 的新系统，它的核心功能是**“可控的口音矫正”**。

为了让你更容易理解，我们可以把这项技术想象成**“给语音做智能修图”，或者“给说话声音加滤镜”**。

1. 核心痛点：以前的问题是什么？

想象一下，你有一个外国朋友在说英语，他的口音很重（比如带着浓重的“中式英语”）。

以前的方法：要么完全不管，保留原样；要么试图把口音彻底抹去，变成像母语者一样完美的发音。
问题：这两种极端都不够灵活。
- 在语言学习时，你可能希望保留一点点口音，让自己能听懂，同时纠正错误。
- 在电影配音时，你可能希望保留演员原本的“人设”和语气，只是稍微调整一下发音，而不是把声音完全变成另一个人。
- 以前的技术很难做到这种“微调”，就像你只有“开”和“关”两个开关，没有“音量旋钮”。

2. DLM-AN 是怎么工作的？（三个关键步骤）

这项技术就像是一个**“智能语音翻译官 + 修图师”**的组合，它分三步走：

第一步：把声音变成“乐高积木”（离散化）

系统首先把连续的语音波形，拆解成一个个微小的、离散的“积木块”（在论文里叫 Tokens）。

比喻：就像把一段视频拆解成一张张连续的帧，或者把一首歌拆解成一个个音符。这些积木块代表了声音的发音特征。

第二步：找出“通用积木”（Common Token Predictor）

这是最聪明的地方。系统会对比“你现在的发音”和“标准母语发音”，找出哪些积木是大家通用的。

比喻：假设你在说 "Hello"，你的发音有点怪。系统发现，虽然你的 "H" 和 "o" 有点怪，但中间的 "e" 和结尾的 "l" 其实和标准发音是一模一样的。
操作：系统会给这些“通用积木”打上高亮标签。
- 高亮积木 = 发音没问题，保留。
- 普通积木 = 发音有问题，替换。

第三步：可控的“重绘”过程（离散扩散）

这是核心魔法。系统使用一种叫**“离散扩散”**（Discrete Diffusion）的技术。

比喻：想象你在画一幅画，但画布上有很多地方被涂上了“马赛克”（Mask）。
- 全新生成：如果你把画布上所有的“马赛克”都涂满，然后让 AI 重新画一遍，你就会得到完全标准的母语发音（口音被彻底消除）。
- 保留积木：如果你只把那些“有问题”的积木涂成马赛克，而把那些“通用积木”（高亮部分）保留下来，让 AI 只修补剩下的部分，那么原来的口音特色就被保留了下来。
控制旋钮：用户只需要调整一个“保留比例”的旋钮。
- 旋钮调低 = 保留更多原声积木 = 口音保留多（适合学习或保持个人特色）。
- 旋钮调高 = 保留更少原声积木 = 口音矫正多（适合追求完美发音）。

3. 它还有什么额外功能？

除了控制口音轻重，这个系统还能控制说话的节奏和时长。

比喻：就像视频剪辑软件里的“变速”功能。你可以让说话人保持原来的语速，或者让他说得更慢（像慢动作回放）或更快（像快进），同时保持声音的自然度，不会变得像机器人。

4. 效果怎么样？

论文在多种不同口音（如中文、印度、西班牙等口音）的英语数据上进行了测试，结果非常亮眼：

最懂内容：在保留原意（单词识别率）方面，它是所有对比系统里做得最好的。也就是说，它改口音时，不会把意思改错。
最自然：听起来不像机器人，很流畅。
最灵活：它是目前唯一能像调节音量一样，平滑地调节口音轻重的系统。

总结

DLM-AN 就像是一个**“有分寸的语音美容师”。
以前，美容师要么把你整成完全陌生的网红脸（彻底消除口音），要么完全不动（保留原样）。
现在，DLM-AN 给了你一个“微调旋钮”**：你可以决定保留多少原本的“特色”，同时把那些“跑调”的地方修得完美。无论是想学英语、给电影配音，还是做个性化的语音助手，它都能提供最合适的解决方案。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心问题：
现有的口音归一化（Accent Normalization, AN）技术通常旨在将非母语（L2）口音直接转换为母语（L1）口音，但缺乏对**口音保留强度（Accent Strength）**的精细控制。

应用场景需求： 在语言学习（需要逐步减少口音）、影视配音（需要保留部分原声特色以维持角色身份）等场景中，用户往往需要可调节的口音保留程度，而非“全有或全无”的转换。
现有局限：
- 基于参考（Reference-based）的方法依赖母语样本，难以灵活控制强度。
- 无参考（Reference-free）方法通常依赖并行数据或 TTS 合成目标，质量受限于克隆和时长建模误差。
- 现有的基于 Token 的方法（如 TokAN, CosyAccent）虽然支持时长控制，但缺乏对口音强度的连续、可解释的控制机制。
- 少数尝试控制口音强度的方法（如 FAC-FACodec）基于连续扩散，受限于帧对帧框架，缺乏细粒度的节奏调整和时长控制。

2. 方法论 (Methodology)

作者提出了 DLM-AN（Diffusion Language Model for Accent Normalization），这是一个基于**掩码离散扩散（Masked Discrete Diffusion）**的可控口音归一化系统。

2.1 核心架构

系统流程如图 1 所示，主要包含以下模块：

SSL Tokenizer (自监督语音 Token 化)： 使用 WavLM 提取特征，将其量化为离散的语音 Token。
Token Encoder (Token 编码器)： 基于 Transformer 的编码器，结合 CTC 引导的音素信息，生成连续的内容表示（Content Representations）。
Common Token Predictor (CTP, 公共 Token 预测器)： 核心创新点。预测源语音 Token 中哪些与目标母语发音共享（即“公共 Token"）。
Duration Ratio Predictor (DP, 时长比率预测器)： 基于流匹配（Flow Matching）的扩散 Transformer，预测目标语音时长与源语音时长的比率，以调整节奏。
DLM Decoder (扩散语言模型解码器)： 基于 LLaDA 架构的掩码扩散模型，迭代预测被掩码的 Token。
Speech Synthesizer (语音合成器)： 将生成的目标 Token 转换为梅尔频谱图，再通过 HiFT Vocoder 合成波形。

2.2 关键机制：可控口音强度

DLM-AN 实现可控性的核心在于源 Token 的重用（Source Token Reuse）：

原理： 在音素丰富的 Tokenizer 下，同一句话在不同口音中，发音相似的区域会共享大量 Token，而受口音影响的区域则不同。
CTP 的作用： CTP 为每个源 Token 计算一个置信度分数，表示该 Token 是否可能属于母语发音。
控制策略：
- 完全归一化： 不重用任何源 Token，所有 Token 从头生成（ $\tau=1.0$ ）。
- 部分保留： 仅重用 CTP 置信度高于阈值 $\tau$ 的 Token，其余位置掩码并重新生成。
- 完全保留（重合成）： 重用所有源 Token（ $\tau=0.0$ ），仅调整时长和韵律。
- 效果： 重用越多的 Token，保留的原始口音特征越多；反之则归一化程度越高。这提供了一个简单且可解释的“旋钮”。

2.3 训练与推理

训练目标： 联合优化离散扩散损失（Token 生成）、CTP 分类损失、DP 流匹配损失以及 CTC 音素引导损失。
推理采样： 采用贪婪采样策略。初始序列根据 CTP 阈值部分填充源 Token，其余为 [MASK]。随后通过迭代去掩码（Unmasking）和分类器自由引导（CFG）逐步生成完整序列。

3. 主要贡献 (Key Contributions)

首个基于离散扩散的口音归一化系统： 将掩码离散扩散语言模型（DLM）应用于语音，实现了基于音素引导内容的迭代 Token 生成。
可解释的口音强度控制： 提出了公共 Token 预测器（CTP），通过基于阈值的重用机制，实现了从“完全归一化”到“近重合成”的平滑、连续的口音强度控制。
卓越的性能表现： 在多口音英语数据上的实验表明，DLM-AN 在保持内容完整性（最低词错率 WER）的同时，提供了具有竞争力的自然度、口音消除效果以及鲁棒的时长缩放能力。

4. 实验结果 (Results)

实验在包含阿拉伯语、中文、印地语等 7 种口音的英语数据集（L2-ARCTIC 扩展集）上进行，对比了 TokAN 和 CosyAccent 等强基线模型。

内容保留能力 (WER)：
- DLM-AN 在所有对比系统中取得了最低的词错率（WER）。
- 在保留源时长的设置下（DLM-AN-2, $\tau=1.0$ ），WER 仅为 10.64%，显著优于 TokAN-2 (14.00%) 和 CosyAccent-2 (13.84%)。
口音消除与自然度：
- 在自由时长设置下（DLM-AN-1），口音得分（ACT）最低（22.94），表明口音消除效果最强，同时自然度（NAT）得分高达 62.20，与 TokAN 相当。
可控性验证：
- 通过调整 CTP 阈值 $\tau$ ，系统能平滑调节口音保留程度。随着 $\tau$ 降低（重用更多 Token），主观口音得分（ACT）逐渐升高（口音保留更多），说话人相似度（SIM）也单调上升，证明了控制机制的有效性。
- CTP vs 随机选择： 基于 CTP 的 Token 重用比随机重用能更好地平衡口音消除和内容保留（在相同重用比例下，CTP 策略的 WER 更低， $\Delta$ PPG 表现更好）。
时长控制鲁棒性：
- 在任意时长缩放（Duration Scaling）测试中，DLM-AN 在压缩（时长比 < 1.0）场景下优势尤为明显，而 TokAN 在压缩时因 Token 序列过长导致 WER 急剧上升。

5. 意义与展望 (Significance & Future Work)

意义：

填补空白： 解决了现有口音转换技术缺乏细粒度强度控制的问题，为语言学习和个性化配音提供了更灵活的工具。
技术融合： 成功将离散扩散模型（DLM）引入语音处理领域，证明了其在语音转换任务中优于自回归模型和连续扩散模型的性能（特别是在内容保留和迭代优化方面）。
可解释性： 通过 CTP 机制，将抽象的“口音强度”转化为具体的 Token 重用比例，使得模型行为更加透明和可控。

未来工作方向：

改进 Token 编码器： 当前依赖基于识别的 Token 编码器，重口音输入可能导致音素监督错误传播；未来可探索更鲁棒的编码器。
修正机制： 针对去掩码过程中可能出现的重复发音问题，引入修正扩散机制（Corrective Diffusion）。
数据增强： 目前合成器和 Tokenizer 仅使用母语数据训练，未来引入 L2 口音数据可提升对重口音语音的重建能力。
Tokenizer 优化： 用学习到的离散码本（如 VQ）替代 K-Means，以提升音素区分度和可控性。

总结： DLM-AN 通过结合离散扩散模型与公共 Token 预测机制，不仅实现了高质量、低 WER 的口音归一化，更首次提供了平滑、可解释的口音强度控制能力，是语音转换领域的一项重要进展。