Each language version is independently generated for its own context, not a direct translation.
想象一下,你手里有一个超级智能的“全能翻译官”团队,它的名字叫 FireRedASR2S。
以前,如果你想把一段杂乱的录音(比如有人在唱歌、背景有音乐、夹杂着方言,甚至还在切换中英文)变成文字,你可能需要找四个不同的人来分工:
- 一个人负责剪掉没用的静音和噪音(VAD)。
- 一个人负责听出这是哪种语言或方言(LID)。
- 一个人负责听懂并写下内容(ASR)。
- 最后一个人负责加标点,让文字读起来通顺(Punc)。
而且,这四个人可能来自不同的公司,说话风格不一样,配合起来经常出错,或者一个人听错了,后面的人也跟着错。
FireRedASR2S 就是要把这四个人变成一个配合默契的“特种部队”,而且他们全部由同一家公司(小红书 Super Intelligence Team)训练,配合得天衣无缝。
下面我们用生活中的比喻,来拆解这个团队的四个核心成员:
1. 耳朵最灵的“剪辑师”:FireRedVAD
- 它的工作:在录音开始前,先帮我们把“废话”剪掉。比如把背景音乐、沉默、或者突然的噪音切掉,只留下人声(包括说话和唱歌)。
- 它的绝活:以前的剪辑师是靠“猜”或者靠“硬规则”来剪,容易剪错。这个新剪辑师是**看过成千上万小时人类专家标注的“真实案例”**练出来的。
- 比喻:就像是一个经验丰富的老裁缝。以前的裁缝可能只会按尺子量,剪坏了布料;而这个老裁缝能一眼看出哪里是衣服(人声),哪里是多余的线头(噪音),哪怕衣服上沾了泥(噪音)或者在跳舞(唱歌),他也能精准地只剪掉线头,绝不伤到衣服。
- 特点:它非常轻(只有 0.6M 参数),像一把瑞士军刀,随身带着也不占地方,但在云端或手机上都能跑得飞快。
2. 语言侦探:FireRedLID
- 它的工作:在听到声音的第一时间,立刻判断:“这是普通话?粤语?还是英语?或者是韩语?”
- 它的绝活:它能识别100 多种语言和20 多种中国方言。
- 比喻:它像一个见多识广的导游。不管你是用普通话、四川话、还是带着浓重口音的英语说话,它都能瞬间认出你的“籍贯”,然后指挥后面的“翻译官”用正确的方言模式来工作。
- 亮点:它采用了一种“分层”的聪明策略。先判断是大类(比如“这是中文”),如果是中文,再细究是“哪种方言”(比如“这是粤语”)。这比直接在一堆选项里瞎猜要准确得多。
3. 核心翻译官:FireRedASR2
- 它的工作:把声音真正变成文字。这是团队里最核心的大脑。
- 它的绝活:它有两个版本:
- FireRedASR2-LLM(超级大脑版):像一个博学的教授(80 亿参数),虽然有点重,但准确率极高,能听懂各种复杂的口音、唱歌,甚至中英文混说。
- FireRedASR2-AED(精干版):像一个干练的秘书(10 亿参数),虽然小一点,但反应快,准确率也很高,适合日常快速使用。
- 升级点:以前的版本只学了 7 万小时的“教材”,这次直接升级到了20 万小时,而且教材里包含了各种方言、唱歌、甚至不同场景的对话。
- 比喻:以前的翻译官可能只读过大学,遇到生僻的方言就卡壳;现在的翻译官读遍了天下书,不管你是用普通话、粤语,还是边唱歌边说话,他都能精准地把你说的话“翻译”成文字,还能顺便告诉你这句话是几点几分说的(时间戳)。
4. 标点大师:FireRedPunc
- 它的工作:把翻译官写出来的“流水账”(没有标点的文字),加上逗号、句号、问号,让它变成通顺的文章。
- 它的绝活:专门针对中文和英文训练,能理解语境。
- 比喻:就像是一个语文老师。翻译官写的是“你好世界今天天气不错”,标点大师会把它变成“你好,世界!今天天气不错。”,让人读起来不累,逻辑清晰。
- 成绩:它的表现比市面上其他工具强很多,特别是在处理复杂的中文和英文混合文本时。
总结:为什么这个系统很牛?
- 全家桶,不拼凑:以前你需要自己把四个不同的软件拼在一起,容易出 Bug。现在 FireRedASR2S 是一个统一的整体,四个模块互相配合,数据流转丝滑,不会丢三落四。
- 方言通吃:它特别照顾中国各地的方言,不管是粤语、吴语还是各种口音,都能识别得很准。
- 唱歌也能听:很多系统听到唱歌就懵了,但这个系统连歌词都能精准识别。
- 开源共享:作者不仅发布了这个强大的系统,还把代码和模型权重都公开了(就像把食谱和食材都免费发给大家),让全世界的研究者都能用。
一句话总结:
FireRedASR2S 就像是一个全能、细心、懂方言、还能听歌的超级智能助手,它把录音变文字这件事,从“可能出错的手工作坊”升级成了“精准高效的自动化流水线”。
Each language version is independently generated for its own context, not a direct translation.
FireRedASR2S 技术报告详细总结
1. 研究背景与问题 (Problem)
尽管自动语音识别(ASR)技术在端到端建模、大规模训练及大语言模型(LLM)集成方面取得了显著进展,但在实际工业部署中,单一的 ASR 模型往往不足以应对复杂的现实场景。现实音频通常包含长录音、静音/非语音区域、背景音乐、歌唱、多语言混合以及中文方言和口音等复杂情况。
现有的解决方案通常存在以下痛点:
- 模块拼凑:系统常由来自不同来源的独立模块(VAD、LID、ASR、Punc)组装而成,导致接口不一致、复现性差。
- 误差传播:各模块间缺乏统一优化,错误容易在流水线中传播。
- 监督信号弱:部分组件(如 VAD)常依赖 ASR 强制对齐生成的弱监督信号,在复杂声学条件下鲁棒性不足。
- 缺乏统一系统:缺乏一个开源的、工业级的、涵盖语音活动检测(VAD)、语言识别(LID)、ASR 和标点预测(Punc)的一体化系统。
2. 方法论 (Methodology)
FireRedASR2S 是一个工业级的一体化 ASR 系统,采用模块化设计,将四个核心模块集成在统一流水线中,同时支持独立部署。系统处理流程为:原始波形 → VAD 分割 → LID 语言/方言识别 → ASR 转录 → 标点预测。
2.1 FireRedASR2 (ASR 模块)
基于前代 FireRedASR 架构,主要改进在于数据规模和覆盖范围:
- 数据扩展:监督训练数据从 7 万小时扩展至约 20 万小时,涵盖普通话、中文方言、口音、代码切换、歌唱及非语音数据。
- 双架构变体:
- FireRedASR2-LLM:基于 Encoder-Adapter-LLM 架构(8B+ 参数),利用 LLM 强大的生成能力,提供最高精度。
- FireRedASR2-AED:基于 Conformer Encoder + Transformer Decoder 架构(1B+ 参数),支持流式/非流式,新增 后处理 CTC 分支 以生成 Token 级和 Word 级时间戳。
- 词汇表:更新为 8,667 个 Token,更好地覆盖多语言和方言场景。
2.2 FireRedVAD (语音活动检测)
- 架构:基于 DFSMN (Deep Feedforward Sequential Memory Network),参数量仅 0.6M,极其轻量。
- 监督信号:摒弃传统的 ASR 强制对齐监督,使用 数千小时人工标注的声学事件数据 进行训练,显著提升了在复杂声学环境下的鲁棒性。
- 功能:
- 支持流式(Streaming)和非流式(Non-streaming)VAD。
- 支持多标签 VAD (mVAD),可区分 语音、歌唱、音乐 三类事件。
2.3 FireRedLID (语言与方言识别)
- 架构:基于 Encoder-Decoder 架构,Encoder 初始化自 FireRedASR2-AED,Decoder 从头训练。
- 层级预测:采用 两级层级标签 策略。首先预测语言(如 zh, en),若为中文,则进一步预测方言(如粤语、吴语等)。这种设计减少了歧义并提高了稳定性。
- 覆盖范围:支持 100+ 种语言 和 20+ 种中文方言。
2.4 FireRedPunc (标点预测)
- 架构:基于 BERT 风格的编码器(初始化自 LERT),采用 Token 级分类头。
- 训练数据:使用大规模多领域中文和英文语料(约 185.7 亿中文字符,22 亿英文单词)。
- 功能:针对中文和英文,预测逗号、句号、问号、感叹号及无标点。
3. 关键贡献 (Key Contributions)
- 开源一体化系统:发布了首个集成 VAD、LID、ASR 和 Punc 的工业级开源系统,提供统一接口和模块化部署能力。
- ASR 精度与方言覆盖提升:通过数据规模扩展(20 万小时),FireRedASR2 在普通话和 19 个中文方言/口音基准上均达到 SOTA 水平,显著优于 Doubao-ASR、Qwen3-ASR 等竞品。
- 基于人工标注的鲁棒分割:FireRedVAD 利用高质量人工标注数据训练,在复杂声学条件下(含歌唱、音乐)实现了优于 Silero-VAD 等主流模型的分割性能。
- 层级化多语言/方言识别:FireRedLID 通过层级解码机制,高效且准确地支持 100+ 语言和 20+ 中文方言的识别。
- 高效的标点预测:FireRedPunc 在多领域基准上显著超越了 FunASR-Punc,大幅提升了转录文本的可读性。
4. 实验结果 (Results)
4.1 ASR 性能 (FireRedASR2)
在 24 个公开测试集上的平均字符错误率 (CER):
- 普通话 (4 个基准):FireRedASR2-LLM 达到 2.89%,优于 Doubao-ASR (3.69%) 和 Qwen3-ASR (3.76%)。
- 中文方言 (19 个基准):FireRedASR2-LLM 达到 11.55%,显著优于所有基线。
- 歌唱识别 (OpenCPOP):FireRedASR2-LLM 达到 1.12% CER。
- 效率:FireRedASR2-AED (1B+) 在保持竞争力的同时提供了更优的部署效率。
4.2 VAD 性能 (FireRedVAD)
在 FLEURS-VAD-102 (102 种语言) 基准上:
- AUC-ROC:99.60% (优于 Silero-VAD 的 97.99%)。
- F1 分数:97.57% (优于 Silero-VAD 的 95.95%)。
- 误报率 (FAR):2.69%,漏报率 (MR):3.62%,表现出极佳的平衡性。
4.3 LID 性能 (FireRedLID)
- FLEURS (82 语言):准确率 97.18%,远超 Whisper (79.41%) 和 SpeechBrain (92.91%)。
- 中文方言:准确率 88.47%,显著优于 Dolphin (69.01%)。
4.4 标点预测 (FireRedPunc)
在多领域基准上的平均 F1 分数:
- FireRedPunc:78.90%。
- FunASR-Punc:62.77%。
- 特别是在英文任务上,FireRedPunc 展现了巨大的性能提升。
5. 意义与影响 (Significance)
- 工业级标准:FireRedASR2S 填补了开源界缺乏高质量、全功能一体化 ASR 系统的空白,为工业界提供了可直接部署的解决方案。
- 中文方言与多语言支持:系统对中文方言和口音的广泛支持,极大地提升了 ASR 在中文复杂场景下的实用性。
- 数据驱动与人工标注的价值:证明了通过大规模多样化数据(20 万小时)和高质量人工标注(VAD 事件数据)可以显著提升模型在复杂场景下的鲁棒性。
- 模块化与灵活性:允许开发者根据需求独立使用 VAD、LID 或 ASR 模块,促进了语音处理技术的灵活集成与创新。
- 开源生态:通过开源模型权重和代码(GitHub: FireRedTeam/FireRedASR2S),推动了学术界和工业界在语音处理领域的协作与复现研究。
综上所述,FireRedASR2S 代表了当前工业级语音识别系统的最高水平,特别是在处理多语言、方言、歌唱及复杂声学环境方面展现了卓越的性能。