Measuring the Redundancy of Decoder Layers in SpeechLLMs

该论文通过剪枝实验发现,SpeechLLM 中的解码器层存在大量源自预训练语言模型的冗余,且这种冗余结构在不同模型规模、语音任务及语言间具有高度一致性,表明仅需保留约 60% 的解码器层即可在保持性能的同时实现高效的多任务部署。

Adel Moumen, Guangzhi Sun, Philip C Woodland

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的“超级语音大模型”做了一次体检,结果发现了一个有趣的现象:这些模型其实有点“虚胖”,里面藏着很多没被充分利用的“冗余”部分。

为了让你更容易理解,我们可以把整个研究过程想象成装修一栋巨大的智能语音大楼

1. 背景:大楼里住着谁?

现在的“语音大模型”(SpeechLLM)就像一栋三层楼的大厦,负责听懂人说话并回答问题:

  • 一楼(语音编码器): 负责把声音信号(声波)转换成机器能懂的数字信号。这层楼比较小,但很关键。
  • 二楼(连接器/投影器): 负责把一楼的信号“翻译”成三楼能懂的语言。
  • 三楼(LLM 解码器): 这是真正的核心,是一个巨大的、预训练好的语言模型(比如 Llama 或 Qwen)。它负责理解意思、生成回答。

问题出在哪?
研究人员发现,这栋楼里90% 以上的空间(参数)都给了三楼。但是,以前专门做语音识别的小模型,只需要很小的一间屋子就能干好活。这就让人好奇:三楼真的需要那么大吗?是不是有很多房间其实是空的,或者根本用不上?

2. 核心发现:三楼的“冗余”是遗传的

研究人员决定对三楼进行“瘦身手术”(剪枝),看看能拆掉多少层而不影响大楼的功能。

  • 发现一:基因决定论
    他们发现,三楼里哪些房间是多余的,并不是因为它是用来处理语音的,而是因为它原本就是个大语言模型。
    • 比喻: 想象三楼原本是一个专门写小说的图书馆(文本模型)。现在你把它改成语音中心。研究发现,不管你是拿书(文本)还是拿录音带(语音)进去,图书馆里那些“没人看的书架”(冗余层)都是一样的。
    • 结论: 语音任务并没有改变模型的内部结构,它只是继承了原本大模型的“虚胖”体质。

3. 手术过程:怎么剪才不塌房?

直接拆掉楼层肯定会让大楼倒塌(性能下降)。研究人员尝试了三种“修复方案”(Healing):

  1. 只修被拆楼层的接口(Decoder-only): 效果一般。
  2. 只修二楼的连接器(Projector-only): 几乎没用,因为连接器能力太弱,补不上三楼的缺口。
  3. 同时修复接口和连接器(Joint Healing): 这是最佳方案!
    • 比喻: 当你拆掉三楼的几层楼后,剩下的楼层之间出现了“断层”。这时候,你不仅要给剩下的楼层加固(微调解码器),还要重新调整二楼的连接器,让它适应新的楼层高度。只有双管齐下,大楼才能稳固。

4. 手术结果:能拆掉多少?

经过精心的“瘦身手术”,结果令人惊讶:

  • 大模型(70-80 亿参数): 居然可以拆掉约 40% 的楼层(只保留 60%),语音识别的准确率依然保持在很高水平!
  • 小模型(10-15 亿参数): 也能拆掉一部分,但比例小一些,因为小模型本身就没多少“肥肉”可减。
  • 实际收益: 拆掉这些楼层后,模型运行速度变快了 35%,显存占用也大幅降低。这就好比把一栋摩天大楼改成了高效的中高层公寓,既省地又省钱,住得一样舒服。

5. 意外惊喜:一套方案,通吃所有任务

最酷的发现是,这种“冗余结构”不仅适用于听写(语音转文字),也适用于翻译(语音转另一种语言)

  • 比喻: 就像你发现这栋楼里,不管是用来“写中文小说”还是“写英文小说”,那些多余的书架位置都是一样的。
  • 意义: 这意味着我们不需要为每个任务(听写、翻译、问答)都训练一个不同的精简模型。我们可以剪出一个通用的“精简版大脑”,然后通过安装不同的“小插件”(适配器)来让它胜任各种工作。

总结

这篇论文告诉我们:
现在的语音大模型虽然强大,但有点“杀鸡用牛刀”。它们继承了大语言模型庞大的身躯,但处理语音任务时,其实只需要其中一部分核心能力。

通过聪明的修剪灵活的修复,我们可以把那些笨重的模型变得更轻、更快、更省电,而且还能同时处理多种语言任务。这就像是从一辆满载货物的重型卡车,改装成了一辆灵活高效的跑车,既保留了动力,又卸下了不必要的负担。