原作者： Attia Nafees ul Haq, Zeyu Zhu, Jingbin Hu, ChunJiang He, Lei Xie

发布于 2026-05-19✓ Author reviewed ⓘ

📖 1 分钟阅读☕ 轻松阅读

原作者： Attia Nafees ul Haq, Zeyu Zhu, Jingbin Hu, ChunJiang He, Lei Xie

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，人工智能（AI）的世界是一座巨大的图书馆。多年来，这座图书馆里堆满了英语、汉语和西班牙语的书籍，但专门用于乌尔都语（一种拥有超过 2.3 亿使用者的语言）的区域却几乎空空如也。这就像试图仅凭几本零散、积满灰尘的小册子来教机器人说一门语言。

本文介绍了UrduSpeech，这是一个旨在纠正这种失衡的全新巨型“书架”。以下是研究人员构建的内容及其构建方式的简要说明。

1. 问题：被遗忘的语言

乌尔都语的独特之处在于它从右向左书写（如同阿拉伯语），并且经常在句子中混合英语单词（有点像一个人讲故事时在不同方言间切换）。由于这些特性，标准的 AI 工具常常感到困惑，要么将乌尔都语误当作印地语，要么无法理解说话者何时切换了语言。研究人员希望构建一种能够尊重这些特定挑战的资源。

2. 解决方案：一个 156 小时的“声音图书馆”

团队创建了UrduSpeech，这是一个包含156 小时高质量音频的合集。为了让你有个概念，如果你不间断地收听，需要超过六天才能听完。

他们并没有将随机噪音随意丢进一个文件夹。他们将这座图书馆组织成了三个特定的“房间”（子集）：

US-Std：标准巴基斯坦乌尔都语（正式的、“教科书式”的版本）。
US-CS：语码混合的乌尔都语（说话者自然地混合乌尔都语和英语，例如说“我需要一杯chai（奶茶）和一杯coffee（咖啡）”）。
US-EngPk：带有巴基斯坦口音的英语。

3. 构建方法：“智能过滤器”流程

收集这些数据就像试图在一堆岩石中寻找特定的宝石。他们从互联网（YouTube）和旧档案（如 20 世纪 80 年代的电视节目）中收集了 200 小时的音频。为了清理这些数据，他们采用了三步流程：

步骤 1：降噪器：他们使用 AI 工具去除背景噪音（如交通声或风声），并分离对话中的不同声音，确保只录制主要说话者的声音。
步骤 2：“严格编辑”（LLM）：他们使用强大的 AI（Gemini 2.5 Pro）充当严格编辑。该 AI 收到了特殊指令：“不要将英语单词翻译成乌尔都语文字，保留其发音原样”，以及“不要混淆乌尔都语和印地语”。它还会检查音频中的 12 种不同的“氛围”标签（副语言特征），例如说话者的年龄、情绪、声音质感（是沙哑还是平滑？）以及口音。
步骤 3：人类安全网：在数据最终定稿之前，母语为乌尔都语的人听取了样本，以确保 AI 没有犯错。他们充当了最终的质量控制检查员。

4. “黄金标准”基准

为了证明他们的图书馆是优质的，他们创建了一个9 小时的“黄金标准”集。这是一个经过人工仔细检查并修正的、精心策划的小型合集。他们利用它来测试不同的 AI 转录模型。

结果：他们发现大多数现有的 AI 模型在处理乌尔都语时都很吃力，经常弄错单词或混淆文字脚本。然而，他们选择的模型（Gemini 2.5 Pro）表现显著更好，就像一个理解语言细微差别的母语者。

5. 图书馆里有什么？

最终合集包含71,792 个独立的音频片段。它极其多样化：

内容：涵盖从新闻和戏剧到诗歌、视频博客，甚至包括一种名为Bait-Bazi的罕见口语诗歌形式。
人物：包含男女比例的平衡混合，以及涵盖从儿童到老年人的所有年龄段说话者。
质量：当人类收听这些音频时，给出了高分（5 分制中的 4.6 分），确认声音清晰且转录准确。

6. 为什么这很重要

将之前的乌尔都语数据集想象成一个只有几把椅子的小而封闭的房间。UrduSpeech则是一个拥有数千个座位的广阔开放大厅，里面坐满了来自各种背景、用他们实际说话方式交谈的人们。

研究人员已使这座图书馆免费且开放供任何人使用。通过提供这种高质量、组织良好的数据，他们希望帮助 AI 开发者为乌尔都语使用者构建更好的工具，确保这一主要语言不再被数字未来所遗忘。

简而言之：他们为乌尔都语建立了一个庞大且精心组织的声音图书馆，修正了其他 AI 工具所犯的错误，并证明了通过正确的人机协作，即使是复杂的混合语言口语也能被完美理解。

技术摘要：UrduSpeech

1. 问题陈述

尽管乌尔都语拥有约 2.3 亿使用者，但在语音技术领域仍严重缺乏资源。现有资源未能解决该语言固有的特定语言学和声学挑战，包括：

脚本限制：从右向左（RTL）的波斯 - 阿拉伯语脚本。
语码转换：乌尔都语 - 英语语码转换（CS）的普遍存在。
声学相似性：乌尔都语与印地语在声学上的接近性，导致频繁的分类错误。
缺乏专用数据：缺乏用于机器阅读理解、深度伪造检测和语音情感识别等细微任务的高保真数据。
资源缺口：现有数据集（如 ARL Urdu、Common Voice）常受限于许可协议、高昂成本、说话人多样性不足或缺乏副语言元数据。

2. 方法论

作者开发了一个名为UrduSpeech的 156 小时语料库，通过一个多阶段、由大语言模型（LLM）驱动的策展流程，旨在处理“野外”（in-the-wild）音频。

数据收集与预处理

来源：从 YouTube 和跨越四个年代（20 世纪 80 年代至今）的巴基斯坦电视台（PTV）档案日志中聚合了 200 小时原始音频。
预处理：
- 声源分离：从 Spleeter 过渡到Demucs模型，以实现高效的人声隔离。
- 说话人日志：利用Pyannote 3.1分离说话人，随后进行人工全局对齐以确保 ID 一致性。
- 过滤：丢弃短于 2 秒的片段、单说话人剪辑以及超过 35 秒的片段。此过程去除了 44 小时的残留噪声，最终形成 156 小时的语料库。

模型选择与基准测试

进行了一项 13 小时的试点研究，以选择最佳转录模型。三个模型针对母语者基准真值进行了评估：

Whisper-large-v3：在语码转换音频上失败，常将英语音译为乌尔都语脚本，而非保持字面内容。
OmniASR-LLM-1B：在阿拉伯语/波斯语部分产生幻觉，并在带口音的片段上表现出单词循环现象。
Gemini-2.5-Pro：因其语义意识和提示工程能力被选为更优模型。它实现了最低的词错误率（WER），并在语码转换期间成功保持了脚本保真度（乌尔都语与印地语的区别）和字面转录。

标注流程

采用基于Gemini 2.5-Pro的两阶段提示策略：

转录：提示强制实施严格约束，以防止印地语/天城文脚本混合，并规定语码转换时必须进行字面转录。
副语言元数据：第二个提示为每个片段生成 12 维元数据标签（如音高、纹理、节奏、年龄、口音）。

质量控制：丢弃模型置信度分数低于 0.6 的片段。最终数据集包含 71,792 个已做说话人日志的剪辑。

以人为中心的验证

基准集：一个 9 小时的子集（US-Benchmark），包含 US-Std、US-CS 和 US-EngPk，由母语标注员手动校正，作为基准真值。
评估：在三个复杂度层级中采样 180 个剪辑，由六名母语乌尔都语使用者根据 5 点李克特量表（ITU-T P.800 协议）进行评估。
指标：评估了音频质量、转录准确性、人口统计特征、韵律、情感、发音和语境准确性。

3. 主要贡献

UrduSpeech 流程：一个强大的框架，能够过滤原始音频、执行说话人日志、处理 RTL 约束，并在语码转换环境中区分印地语和乌尔都语。
US-Benchmark 集：一个 9 小时、经人工验证的基准集，包含 12 维副语言元数据，为错误分析确立了新的基准真值。
UrduSpeech 语料库：一个 156 小时的开源语料库，包含：
- 59.2 小时的 US-Std（标准巴基斯坦乌尔都语）。
- 89.4 小时的 US-CS（语码转换的乌尔都语 - 英语）。
- 7.3 小时的 US-EngPk（巴基斯坦口音英语）。
- 71,792 个 utterances（话语），带有全面的副语言标签（情感、纹理、口音）。
SOTA 评估：对 Gemini 2.5-Pro、Whisper-large-v3 和 OmniASR-LLM-1 进行了深入评估，为乌尔都语的高保真转录确立了基线。

4. 结果

转录性能：Gemini-2.5-Pro 显著优于其他模型，在无语码转换情况下实现了0.023的 WER，在语码转换情况下实现了0.028的 WER，而 Whisper 和 OmniASR 的 WER 约为 0.28–0.53。
人类质量评估：
- 平均意见得分（MOS）：该语料库实现了4.64的全球 MOS（ $\sigma = 0.74$ ）。
- 可靠性：92.78% 的评分为 4 或 5。评分者间可靠性显示，B 集的 Cohen's $\kappa$ 为 0.678，C 集为 0.545。
- 置信度：基于模型输出和人工验证，策展流程展示了**97.6%**的置信度分数。
人口统计：该语料库保持了60/40 的性别平衡（42,990 个男性话语 vs. 28,802 个女性话语），并包含不同年龄组（青年、中年、儿童、老年）。
分布：数据涵盖 12 个类别，包括新闻、戏剧、诗歌、vlog 以及罕见的文学形式如Bait-Bazi。

5. 意义与主张

本文将 UrduSpeech 定位为迈向全球 AI语言包容性的重要飞跃。其主要意义在于：

弥合数字鸿沟：为拥有 2.3 亿使用者但长期被多模态基础模型忽视的语言提供准确的语言表征。
细粒度元数据：作为首个整合12 维副语言元数据框架的资源，支持高分辨率错误分析以及情感计算和说话人画像研究。
解决语码转换问题：通过提供大规模乌尔都语 - 英语语码转换和巴基斯坦口音英语数据集，专门解决“野外”数据的缺口。
开放科学：与许多受许可限制或收费的基础数据集不同，该语料库和流程是开源的，旨在促进乌尔都语及其他资源匮乏的波斯 - 阿拉伯语脚本语言的未来研究。

作者指出了局限性，包括由于野外录音中潜在的过度分割，对唯一说话人的估计较为保守（1,000+ 对比检测到的 3,000 个聚类），以及部分片段中存在残留背景噪声。未来的工作将致力于建立 ASR/TTS 的基准基准，并实施强制对齐以实现单词级精度。

UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimension Paralinguistic Annotations