Text-only adaptation in LLM-based ASR through text denoising

该论文提出了一种将文本域适应重构为文本去噪任务的轻量级新方法,通过训练大语言模型从噪声输入中恢复清晰转录,在无需修改架构或增加参数的情况下,有效解决了基于大语言模型的语音识别系统在仅使用文本数据适应新领域时跨模态对齐被破坏的问题,并显著提升了性能。

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas Stolcke

发布于 Fri, 13 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让“会说话的 AI"变得更聪明、更适应新环境的故事。为了让你轻松理解,我们可以把这篇论文的核心内容想象成教一位“翻译官”适应新方言的过程。

1. 背景:这位“翻译官”是谁?

想象一下,你有一个超级厉害的翻译官(这就是论文里的 LLM,大型语言模型)。

  • 他原本只懂文字,是个语言天才。
  • 后来,科学家给他配了一个特殊的“耳朵”(这是语音编码器)和一个**“翻译转换器”**(这是投影层 Projector)。
  • 现在,这个组合(LLM-based ASR)可以听懂人说话,并把声音转换成文字。

问题出在哪?
这个“翻译转换器”非常关键,它把声音变成了某种**“带杂音的文字”**(比如把“是的”转换成类似"mmy Z Yesss"这种乱码般的字符序列),然后让翻译官去猜出原本的意思。

  • 现状:这个系统是在“声音 + 文字”的配对数据上训练好的,配合得天衣无缝。
  • 挑战:现在,我们要让这位翻译官去适应一个新的领域(比如从“日常聊天”变成“银行客服”或“农业讲座”)。但是,我们手里只有新领域的文字资料,没有录音
  • 困境:如果我们直接拿新文字去训练翻译官,他可能会“忘本”。他会忘记那个“耳朵”和“转换器”是怎么配合的,导致以后听到声音时,反而听不懂了(这就是论文里说的“灾难性遗忘”)。

2. 核心创意:把“学习”变成“找茬游戏”

以前的做法是直接让翻译官背新单词,结果他忘了怎么听声音。
这篇论文的作者想出了一个绝妙的主意:既然没有新录音,那我们就把新文字“弄脏”,让翻译官来“清洗”它!

  • 原来的逻辑:声音 -> 转换器 -> 乱码文字 -> 翻译官 -> 正确文字。
  • 新的逻辑(去噪任务)
    1. 我们手里有新领域的干净文字(比如银行对话记录)。
    2. 我们故意把这些文字弄乱(加错别字、重复字母、打乱顺序),模拟那个“转换器”产生的乱码。
    3. 让翻译官的任务变成:“看着这些乱码,把它还原成原本的意思。”

这就像什么?
想象你在教一个刚学会认字的孩子(翻译官)去读一本新方言的书。

  • 笨办法:直接把书给他读,他可能读着读着就忘了以前怎么听大人说话了。
  • 聪明办法(本文的方法):你把书里的字故意涂改得乱七八糟(模拟声音转换后的样子),然后让他把涂改的地方修好。
    • 这样,他既学会了新方言的词汇(适应新领域),又锻炼了“从乱码中恢复原意”的能力(保持了和“耳朵”的配合)。

3. 具体怎么做?(混合训练法)

为了防止翻译官彻底“失忆”,作者设计了一种**“混合鸡尾酒”式的训练方法**:

在一个训练批次(Batch)里,他们混合了四种材料:

  1. 原汁原味(源域音频):保留原来的“声音 + 文字”配对,防止他忘记怎么听声音。
  2. 模拟乱码(源域文字模拟):把原来的声音通过转换器变成乱码,再让他还原。这是为了让他熟悉“转换器”的脾气。
  3. 人工捣乱(源域文字模拟):用简单的规则(比如随机改几个字)把文字弄乱,让他练习基础的去噪能力。
  4. 新方言乱码(目标域文字模拟):把新领域的文字也故意弄乱,让他练习用新词汇去“去噪”。

关键点:这四种材料按比例混合。如果新领域的数据多,就多加一点“新方言乱码”;如果怕他忘本,就多加一点“原汁原味”。

4. 效果如何?

作者用两个真实数据集(一个是银行/保险/医疗的录音,一个是各种主题的演讲视频)做了测试。

  • 结果:这种方法非常有效!在只有文字数据的情况下,让系统的识别准确率提升了最高 22.1%
  • 对比:它比之前那些试图用“软提示”(Soft Prompts)或者单纯微调的方法都要好,而且不需要增加任何额外的参数,非常轻量级。

5. 总结

这篇论文的核心思想就是:不要试图在没有声音的情况下强行教 AI 听声音,而是教它“如何从混乱中恢复秩序”。

通过把“文本适应”变成一个“文本去噪”的游戏,AI 既学会了新领域的知识,又没丢掉原本听声音的本领。这就好比一个翻译官,通过练习“修复被涂改的笔记”,不仅学会了新行业的术语,还更加精通了如何解读模糊的语音信号。

一句话总结
用“故意弄脏文字再还原”的游戏,让 AI 在只有文字资料的情况下,既学会了新方言,又没忘记怎么听声音。