Schrödinger Bridge Mamba for One-Step Speech Enhancement

本文提出了将薛定谔桥训练范式与 Mamba 架构相结合的 Schrödinger Bridge Mamba(SBM)模型,该模型仅需单步推理即可在联合去噪和去混响任务中超越现有强基线方法,同时保持适合流式处理的实时性。

Jing Yang, Sirui Wang, Chao Wu, Lei Guo, Fan Fan

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SBM (Schrödinger Bridge Mamba) 的新模型,它的核心目标是:用极快的速度(一步到位),把嘈杂、混响的语音变得清晰纯净。

为了让你轻松理解,我们可以把这项技术想象成**“修复一幅被泼了墨水的珍贵古画”**。

1. 以前的做法:笨重的“慢慢描摹”

在 SBM 出现之前,最先进的语音修复模型(基于扩散模型)就像一位极其谨慎的画家

  • 原理:画家面对一幅被墨水弄脏的画,不敢直接下笔。他必须先在脑子里想象“如果慢慢把墨水洗掉,画面会经历哪些中间状态”。
  • 过程:他需要走很多步(比如 50 步甚至 100 步),每一步都小心翼翼地修正一点点。
  • 缺点:虽然画得很精细,但太慢了!就像你要听一段实时对话,画家还在慢慢描摹,等你听清时,对方早就说完下一句了。这导致它很难用在手机通话或实时会议中。

2. 这篇论文的创新:聪明的“一步复原”

SBM 模型做了一件很酷的事情:它把“慢慢描摹”的过程,压缩成了**“一步到位”**。

  • 核心思想(薛定谔桥)
    想象一下,脏画(噪声语音)和干净画(纯净语音)之间有一条**“最优路径”。以前的模型是盲目地猜这条路径,或者走得很慢。
    SBM 利用数学上的“薛定谔桥”理论,直接计算出了从“脏”到“净”的
    最佳捷径**。它不再需要走 50 步,而是直接沿着这条最优路径,一步跳跃到终点。
  • 比喻:就像以前你要从山脚走到山顶,必须走 50 级台阶(慢);现在 SBM 发现了一条传送带,直接把你从山脚送到山顶,而且一步就到位

3. 为什么选"Mamba"?(超级高效的引擎)

有了“一步到位”的蓝图,还需要一个跑得快的引擎。作者选择了 Mamba 架构。

  • Mamba 是什么? 以前的 AI 模型(如 Transformer)像是一个记忆力超群但有点迟钝的图书馆管理员。它要把所有读过的书(语音片段)都摊开在桌子上,才能找到关联,这很占地方且慢。
  • Mamba 的优势:Mamba 像是一个拥有“选择性记忆”的超级侦探。它只关注当前最重要的线索,自动过滤掉无关的噪音。
    • 比喻:在嘈杂的聚会上,Mamba 能瞬间锁定你想听的那个人说话的声音,而自动忽略周围的背景音,而且它处理速度极快,不需要把整个聚会的录音都回放一遍。
  • 化学反应:论文发现,Mamba 这种“动态记忆”的特性,天生就适合配合“薛定谔桥”这种“动态路径”的修复方法。两者结合,就像法拉利引擎装上了空气动力学套件,既快又稳。

4. 实际效果如何?

作者在真实的嘈杂环境(比如地铁、餐厅、有回声的房间)中测试了 SBM:

  • 速度快:它的实时因子(RTF)极低,意味着它处理声音的速度比人说话的速度还要快得多,完全支持实时通话
  • 质量好
    • 对比那些需要走很多步的旧模型,SBM 虽然只走一步,但还原的细节更丰富(比如声音的泛音、质感)。
    • 对比其他“一步到位”的模型,SBM 的声音更自然,没有那种“机械感”或“过度平滑”(就像把画修得太假,失去了原本的纹理)。
  • 图 2 的启示:论文展示了一张频谱图对比。旧模型(ZipEnhancer)修复后的声音像是一团模糊的色块(过度平滑),而 SBM 修复后的声音,连细微的频率谐波(就像古画上的细腻笔触)都清晰可见。

总结

SBM 模型就像是一个拥有“透视眼”和“瞬移术”的语音修复大师:

  1. 它一眼就能看穿从“嘈杂”到“纯净”的最佳路径(薛定谔桥)。
  2. 它利用Mamba这种高效的“选择性记忆”引擎,一步就跨越了路径,直接还原出高质量的语音。
  3. 它既(适合实时通话),又(保留声音细节),解决了以往“要么慢但好,要么快但差”的难题。

这项技术让未来的语音助手、实时翻译、电话会议变得更加清晰、自然,且毫无延迟。