Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

本文提出了一种名为 Dolphin 的高效音视频语音分离方法,通过双路径轻量级视频编码器 DP-LipCoder 将唇部运动转化为离散语义令牌,并结合多尺度全局 - 局部注意力机制的轻量级分离网络,在显著降低参数量、计算量和推理延迟的同时,实现了超越现有最先进模型的分离质量。

Kai Li, Kejun Gao, Xiaolin Hu

发布于 Thu, 12 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Dolphin(海豚) 的新系统,它的任务是解决一个非常生活化的难题:在嘈杂的派对上,如何只听清你想听的那个人在说什么?

在学术上,这叫“音视频语音分离”(AVSS)。以前的方法要么太笨重(像一头大象,计算量巨大,手机跑不动),要么效果不够好(像戴了个漏风的耳塞)。Dolphin 的目标就是做一只既聪明又轻盈的海豚,在嘈杂环境中精准地“听”出目标声音。

下面我用几个生动的比喻来拆解它的核心黑科技:

1. 核心难题:以前的“翻译官”太累了

想象一下,你要在嘈杂的房间里听清朋友说话。

  • 以前的方法(纯听觉): 就像你蒙着眼睛,只靠耳朵猜。如果周围人声鼎沸,你很容易听错。
  • 以前的“音视频”方法: 给你戴上一副能看到朋友嘴唇的“魔法眼镜”。这确实管用,但以前的“眼镜”太重了!它们像是一个庞大的图书馆(巨大的视觉模型),为了看懂嘴唇,需要翻阅成千上万本书(参数),导致反应慢、耗电快,根本没法装在普通的手机或耳机里。

Dolphin 的突破: 它不需要读整本图书馆,它只需要记住几个关键的“唇语密码”

2. 第一招:DP-LipCoder —— 把“嘴唇动作”变成“摩斯密码”

这是 Dolphin 的视觉部分

  • 传统做法: 像高清摄像机一样,把每一帧嘴唇的动作都原封不动地记录下来,数据量巨大。
  • Dolphin 的做法(DP-LipCoder): 它像一位老练的速记员。它不看嘴唇的每一个细微像素,而是把嘴唇的动作转化为离散的“语义令牌”(Semantic Tokens)
    • 比喻: 想象嘴唇在动,传统方法是把嘴唇的每一个角度都画下来;而 Dolphin 是直接把嘴唇的动作翻译成摩斯密码(比如“张嘴”=“滴答”,“闭嘴”=“哒”)。
    • 为什么好? 这些“密码”非常精简,而且和声音是完美对齐的。它通过一种叫“知识蒸馏”的技术,向一个超级聪明的老师(预训练模型)学习,只提取最核心的信息。
    • 效果: 就像把一本厚厚的字典压缩成了一张小卡片,体积小了 93%,但核心意思一点没丢

3. 第二招:GLA 注意力机制 —— “广角镜”与“显微镜”的完美结合

这是 Dolphin 的听觉处理部分
以前的分离模型为了听清,往往需要反复听好几遍(迭代),或者用巨大的算力去硬算。Dolphin 只听一遍,但听得非常透彻。它用了两个“法宝”:

  • 全局注意力(GA)—— 广角镜:

    • 作用: 它像站在山顶的瞭望塔,一眼就能看清整个声音的时间轴。它能抓住长距离的依赖关系(比如这句话的开头和结尾有什么联系)。
    • 比喻: 就像看一场电影,它先快速浏览全片,知道剧情的大概走向。
  • 局部注意力(LA)—— 显微镜(基于热扩散):

    • 作用: 它像显微镜,专门处理细节。这里用了一个很酷的物理概念叫“热扩散方程”。
    • 比喻: 想象一滴墨水滴在纸上(噪音),热扩散就像让墨水自然晕开并平滑化。Dolphin 用这个原理,把声音里的噪音像热量一样“熨平”,同时保留声音的细节纹理(比如辅音的清脆感)。
    • 效果: 既看清了大局,又没放过细节,而且不需要反复计算。

4. 最终成果:快、准、狠

Dolphin 把这两个部分结合起来,就像给耳朵装上了智能降噪耳机 + 唇语翻译器,而且非常省电。

  • 速度快: 它的推理速度比目前最先进的方法快了 6 倍 以上。以前处理一段音频要等半天,现在几乎是“秒回”。
  • 体积小: 参数量减少了 50% 以上,MACs(计算量)减少了 2.4 倍。这意味着它可以在手机、智能手表甚至更小的设备上运行。
  • 效果好: 在三个权威测试集上,它的分离质量(听清程度)都超过了之前的冠军模型。

总结

Dolphin 就像是一个在嘈杂派对上游刃有余的社交达人:
它不需要戴厚重的耳机(低计算成本),也不需要盯着每个人的嘴看半天(轻量级视觉编码)。它只需要看一眼说话人的嘴唇,就能瞬间把对方的声音从背景噪音中“提炼”出来,而且听得清清楚楚。

这项技术让未来的实时翻译、助听设备、车载语音助手变得更加智能和普及,让机器也能像人类一样,在“鸡尾酒会”上轻松聚焦于你想听的声音。