Chain of Correction for Full-text Speech Recognition with Large Language Models

本文提出了一种名为“修正链”(CoC)的多轮对话方法,利用大语言模型结合预识别文本与全文语境对自动语音识别结果进行分段修正,实验表明该方法在稳定性、可控性及流畅性等方面显著优于现有基准系统。

Zhiyuan Tang, Dong Wang, Zhikai Zhou, Yong Liu, Shen Huang, Shidong Shang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种利用大型语言模型(LLM)来“大扫除”语音识别错误的新方法,叫做“纠错链”(Chain of Correction,简称 CoC)

为了让你更容易理解,我们可以把语音识别(ASR)想象成一位**“听力不太好、说话有点急的速记员”**。

1. 问题:速记员总是犯错

想象一下,你让这位速记员听一场长达几小时的会议,并把它记下来。

  • 噪音干扰:就像会议室里有空调声、隔壁装修声,速记员听不清,记错了词。
  • 口音问题:说话人带着方言,速记员听不懂,把“四十四”记成了“是死是”。
  • 标点缺失:速记员只顾着记字,忘了加句号、问号,导致整篇文章像一锅乱炖的粥,读起来喘不过气。
  • 数字格式:速记员把"100 元”记成了“一百元”,或者把"2024 年”记成了“二零二四年”,格式不统一。

以前的方法(比如以前的“纠错”技术)就像是让速记员一次性把整篇文章重写一遍

  • 缺点:如果文章太长,速记员记性不好,写着写着就忘了前面说了什么(幻觉),或者为了改错把原本通顺的句子改得面目全非(过度修改)。而且,如果让他一次性改,他可能会漏掉很多藏在角落里的错误。

2. 解决方案:像“接力赛”一样的“纠错链” (CoC)

这篇论文提出的CoC方法,就像是给速记员配了一位**“耐心的主编”,并且把修改过程变成了一场“分段接力赛”**。

核心玩法:

  1. 先通读全文(建立全局观)
    主编先把速记员记下来的整篇草稿(哪怕有几千字)读一遍,心里对文章的大意、上下文有个底。这就像看剧本前先看一遍大纲,知道故事讲什么。

  2. 分段修改(化整为零)
    主编不会一次性改全文,而是把文章切成一小段一小段(比如每段几句话)。

    • 第一轮:主编看着“第一段”的原文,结合刚才读过的“全文背景”,把这一小段改好。
    • 第二轮:主编拿着“第二段”的原文,同时看着刚才改好的“第一段”,再结合“全文背景”,修改第二段。
    • 以此类推:就像接力赛,每一棒(每一段)的修改都建立在上一棒(上一段)已经改好的基础上,并且始终记得整场比赛(全文)的目标。
  3. 智能把关(纠错阈值)
    主编也不是瞎改。他手里有个**“修改尺子”**(论文里叫 Correction Threshold)。

    • 如果原文只是稍微有点别扭,改一下能更通顺,他就改。
    • 如果原文其实没大错,主编非要改得花里胡哨(过度修改),尺子就会报警:“停!别改了,保持原样!”
    • 这样既保证了改得准,又防止改得过头。

3. 为什么这个方法很厉害?(四大优势)

  • 🛡️ 稳定性(不翻车)
    以前是一次性改几千字,容易“脑子短路”胡编乱造。现在一次只改几句话,就像走钢丝时手里多了一根平衡杆,稳得很,不管文章多长都不怕。
  • 🎛️ 可控性(听指挥)
    因为是一段一段改,主编可以随时停下来检查:“这一段改得是不是太过了?”如果不满意,可以立刻撤销,重新来过。而且,段落顺序不会乱,跟录音的时间轴对得上。
  • 🔍 完整性(不漏网)
    因为每一段修改时都参考了“全文背景”,所以那些藏在上下文里的错误(比如前面提到“他”,后面突然变成“她”,或者人名前后不一致)都能被发现并修正。
  • 🌊 流畅性(读起来顺)
    以前的方法是“挖出错字,填上新字”,像打补丁,可能补丁和衣服颜色不搭。CoC 的方法是**“把这一小段重新润色一遍”**,就像把衣服的一小块布料重新织了一遍,自然更顺滑,读起来像人话。

4. 实验结果:真的好用吗?

作者用了一个叫 ChFT 的“考试卷”(包含几万篇文章)来测试。

  • 成绩:CoC 方法在普通话、标点符号、数字格式、甚至中英混说的纠错上,成绩都吊打以前的老方法。
  • 超长文本:即使文章长到像4 个小时的会议录音(几千字甚至上万字),CoC 依然能保持高质量,没有因为太长而“晕头转向”。
  • 新玩法:作者还尝试用拼音来辅助修改,发现虽然不如直接看文字效果好,但也证明了这种方法很灵活,未来甚至可以结合声音特征来纠错。

5. 总结

简单来说,这篇论文就是教大模型**“不要试图一口吃成个胖子”
面对长篇大论的语音识别错误,
“分段处理、步步为营、全局参考、适度修改”**才是王道。

这就好比装修房子

  • 旧方法:把全屋家具一次性搬空,重新布置,结果容易把墙弄坏,或者把客厅和卧室搞混。
  • CoC 方法:先看好全屋图纸,然后一个房间一个房间地装修。装修厨房时,记得客厅的风格;装修卧室时,参考厨房的改动。这样既保证了每个房间都漂亮,又保证了整个房子的风格统一,而且不容易出错。

这项技术让语音转文字(ASR)变得更聪明、更可靠,以后我们听写长文章、会议记录,就能得到更完美的结果了。