Controllable Accent Normalization via Discrete Diffusion

该论文提出了一种基于离散扩散模型的 DLM-AN 系统,通过选择性复用源语音令牌和引入流匹配时长预测器,实现了在降低口音的同时可灵活调节口音保留强度的可控口音归一化。

Qibing Bai, Yuhan Du, Tom Ko, Shuai Wang, Yannan Wang, Haizhou Li

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DLM-AN 的新系统,它的核心功能是**“可控的口音矫正”**。

为了让你更容易理解,我们可以把这项技术想象成**“给语音做智能修图”,或者“给说话声音加滤镜”**。

1. 核心痛点:以前的问题是什么?

想象一下,你有一个外国朋友在说英语,他的口音很重(比如带着浓重的“中式英语”)。

  • 以前的方法:要么完全不管,保留原样;要么试图把口音彻底抹去,变成像母语者一样完美的发音。
  • 问题:这两种极端都不够灵活。
    • 语言学习时,你可能希望保留一点点口音,让自己能听懂,同时纠正错误。
    • 电影配音时,你可能希望保留演员原本的“人设”和语气,只是稍微调整一下发音,而不是把声音完全变成另一个人。
    • 以前的技术很难做到这种“微调”,就像你只有“开”和“关”两个开关,没有“音量旋钮”。

2. DLM-AN 是怎么工作的?(三个关键步骤)

这项技术就像是一个**“智能语音翻译官 + 修图师”**的组合,它分三步走:

第一步:把声音变成“乐高积木”(离散化)

系统首先把连续的语音波形,拆解成一个个微小的、离散的“积木块”(在论文里叫 Tokens)。

  • 比喻:就像把一段视频拆解成一张张连续的帧,或者把一首歌拆解成一个个音符。这些积木块代表了声音的发音特征。

第二步:找出“通用积木”(Common Token Predictor)

这是最聪明的地方。系统会对比“你现在的发音”和“标准母语发音”,找出哪些积木是大家通用的

  • 比喻:假设你在说 "Hello",你的发音有点怪。系统发现,虽然你的 "H" 和 "o" 有点怪,但中间的 "e" 和结尾的 "l" 其实和标准发音是一模一样的。
  • 操作:系统会给这些“通用积木”打上高亮标签。
    • 高亮积木 = 发音没问题,保留
    • 普通积木 = 发音有问题,替换

第三步:可控的“重绘”过程(离散扩散)

这是核心魔法。系统使用一种叫**“离散扩散”**(Discrete Diffusion)的技术。

  • 比喻:想象你在画一幅画,但画布上有很多地方被涂上了“马赛克”(Mask)。
    • 全新生成:如果你把画布上所有的“马赛克”都涂满,然后让 AI 重新画一遍,你就会得到完全标准的母语发音(口音被彻底消除)。
    • 保留积木:如果你只把那些“有问题”的积木涂成马赛克,而把那些“通用积木”(高亮部分)保留下来,让 AI 只修补剩下的部分,那么原来的口音特色就被保留了下来
  • 控制旋钮:用户只需要调整一个“保留比例”的旋钮。
    • 旋钮调低 = 保留更多原声积木 = 口音保留多(适合学习或保持个人特色)。
    • 旋钮调高 = 保留更少原声积木 = 口音矫正多(适合追求完美发音)。

3. 它还有什么额外功能?

除了控制口音轻重,这个系统还能控制说话的节奏和时长

  • 比喻:就像视频剪辑软件里的“变速”功能。你可以让说话人保持原来的语速,或者让他说得更慢(像慢动作回放)或更快(像快进),同时保持声音的自然度,不会变得像机器人。

4. 效果怎么样?

论文在多种不同口音(如中文、印度、西班牙等口音)的英语数据上进行了测试,结果非常亮眼:

  • 最懂内容:在保留原意(单词识别率)方面,它是所有对比系统里做得最好的。也就是说,它改口音时,不会把意思改错
  • 最自然:听起来不像机器人,很流畅。
  • 最灵活:它是目前唯一能像调节音量一样,平滑地调节口音轻重的系统。

总结

DLM-AN 就像是一个**“有分寸的语音美容师”
以前,美容师要么把你整成完全陌生的网红脸(彻底消除口音),要么完全不动(保留原样)。
现在,DLM-AN 给了你一个
“微调旋钮”**:你可以决定保留多少原本的“特色”,同时把那些“跑调”的地方修得完美。无论是想学英语、给电影配音,还是做个性化的语音助手,它都能提供最合适的解决方案。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →