UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimension Paralinguistic Annotations

本文介绍了UrduSpeech,这是一个大规模、高保真的乌尔都语语音语料库,包含156小时音频及12维副语言标注,并配有标准化基准,该语料库通过大语言模型驱动的流水线开发而成,旨在解决乌尔都语在语音技术领域资源匮乏的问题。

原作者: Attia Nafees ul Haq, Zeyu Zhu, Jingbin Hu, ChunJiang He, Lei Xie

发布于 2026-05-19✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: Attia Nafees ul Haq, Zeyu Zhu, Jingbin Hu, ChunJiang He, Lei Xie

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,人工智能(AI)的世界是一座巨大的图书馆。多年来,这座图书馆里堆满了英语、汉语和西班牙语的书籍,但专门用于乌尔都语(一种拥有超过 2.3 亿使用者的语言)的区域却几乎空空如也。这就像试图仅凭几本零散、积满灰尘的小册子来教机器人说一门语言。

本文介绍了UrduSpeech,这是一个旨在纠正这种失衡的全新巨型“书架”。以下是研究人员构建的内容及其构建方式的简要说明。

1. 问题:被遗忘的语言

乌尔都语的独特之处在于它从右向左书写(如同阿拉伯语),并且经常在句子中混合英语单词(有点像一个人讲故事时在不同方言间切换)。由于这些特性,标准的 AI 工具常常感到困惑,要么将乌尔都语误当作印地语,要么无法理解说话者何时切换了语言。研究人员希望构建一种能够尊重这些特定挑战的资源。

2. 解决方案:一个 156 小时的“声音图书馆”

团队创建了UrduSpeech,这是一个包含156 小时高质量音频的合集。为了让你有个概念,如果你不间断地收听,需要超过六天才能听完。

他们并没有将随机噪音随意丢进一个文件夹。他们将这座图书馆组织成了三个特定的“房间”(子集):

  • US-Std:标准巴基斯坦乌尔都语(正式的、“教科书式”的版本)。
  • US-CS:语码混合的乌尔都语(说话者自然地混合乌尔都语和英语,例如说“我需要一杯chai(奶茶)和一杯coffee(咖啡)”)。
  • US-EngPk:带有巴基斯坦口音的英语。

3. 构建方法:“智能过滤器”流程

收集这些数据就像试图在一堆岩石中寻找特定的宝石。他们从互联网(YouTube)和旧档案(如 20 世纪 80 年代的电视节目)中收集了 200 小时的音频。为了清理这些数据,他们采用了三步流程:

  • 步骤 1:降噪器:他们使用 AI 工具去除背景噪音(如交通声或风声),并分离对话中的不同声音,确保只录制主要说话者的声音。
  • 步骤 2:“严格编辑”(LLM):他们使用强大的 AI(Gemini 2.5 Pro)充当严格编辑。该 AI 收到了特殊指令:“不要将英语单词翻译成乌尔都语文字,保留其发音原样”,以及“不要混淆乌尔都语和印地语”。它还会检查音频中的 12 种不同的“氛围”标签(副语言特征),例如说话者的年龄、情绪、声音质感(是沙哑还是平滑?)以及口音。
  • 步骤 3:人类安全网:在数据最终定稿之前,母语为乌尔都语的人听取了样本,以确保 AI 没有犯错。他们充当了最终的质量控制检查员。

4. “黄金标准”基准

为了证明他们的图书馆是优质的,他们创建了一个9 小时的“黄金标准”集。这是一个经过人工仔细检查并修正的、精心策划的小型合集。他们利用它来测试不同的 AI 转录模型。

结果:他们发现大多数现有的 AI 模型在处理乌尔都语时都很吃力,经常弄错单词或混淆文字脚本。然而,他们选择的模型(Gemini 2.5 Pro)表现显著更好,就像一个理解语言细微差别的母语者。

5. 图书馆里有什么?

最终合集包含71,792 个独立的音频片段。它极其多样化:

  • 内容:涵盖从新闻和戏剧到诗歌、视频博客,甚至包括一种名为Bait-Bazi的罕见口语诗歌形式。
  • 人物:包含男女比例的平衡混合,以及涵盖从儿童到老年人的所有年龄段说话者。
  • 质量:当人类收听这些音频时,给出了高分(5 分制中的 4.6 分),确认声音清晰且转录准确。

6. 为什么这很重要

将之前的乌尔都语数据集想象成一个只有几把椅子的小而封闭的房间。UrduSpeech则是一个拥有数千个座位的广阔开放大厅,里面坐满了来自各种背景、用他们实际说话方式交谈的人们。

研究人员已使这座图书馆免费且开放供任何人使用。通过提供这种高质量、组织良好的数据,他们希望帮助 AI 开发者为乌尔都语使用者构建更好的工具,确保这一主要语言不再被数字未来所遗忘。

简而言之:他们为乌尔都语建立了一个庞大且精心组织的声音图书馆,修正了其他 AI 工具所犯的错误,并证明了通过正确的人机协作,即使是复杂的混合语言口语也能被完美理解。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →