原著者： Attia Nafees ul Haq, Zeyu Zhu, Jingbin Hu, ChunJiang He, Lei Xie

公開日 2026-05-19✓ Author reviewed ⓘ

📖 1 分で読めます☕ さくっと読める

原著者： Attia Nafees ul Haq, Zeyu Zhu, Jingbin Hu, ChunJiang He, Lei Xie

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

人工知能（AI）の世界を巨大な図書館だと想像してみてください。長年、この図書館には英語、中国語（マンダリン）、スペイン語の書籍が所蔵されてきましたが、2 億 3000 万人以上が話すウルドゥー語に特化したセクションは、ほぼ空っぽでした。それは、数冊の散らばったほこりっぽいパンフレットだけを使って、ロボットに言語を教えようとするようなものです。

本論文は、その不均衡を是正するために設計された、巨大な新しい「本棚」UrduSpeechを紹介するものです。研究者たちが何を構築し、どのように行ったのかを、簡単に解説します。

1. 課題：取り残された言語

ウルドゥー語は、アラビア語のように右から左へ書かれるという特徴と、物語を語る際に二つの方言を切り替えるように、文の中に英語の単語を混ぜることが多いという特徴を持っています。これらの特殊性ゆえに、標準的な AI ツールは混乱し、ウルドゥー語をヒンディー語と同一視したり、話者が言語を切り替える瞬間を理解できなかったりします。研究者たちは、これらの特有の課題を尊重するリソースを構築したいと考えていました。

2. 解決策：156 時間の「音声図書館」

チームは、156 時間の高品質な音声を集めたコレクションUrduSpeechを作成しました。これを理解しやすくするために例えると、これを途切れることなく聴き続けた場合、完了するには 6 日以上を要します。

彼らは単にランダムなノイズをフォルダに放り込んだわけではありませんでした。この図書館を 3 つの特定の「部屋」（サブセット）に整理しました。

US-Std: 標準パキスタン・ウルドゥー語（フォーマルな「教科書」版）。
US-CS: コードスイッチングされたウルドゥー語（話者が自然にウルドゥー語と英語を混ぜるもの。例えば「chai（チャイ）とcoffee（コーヒー）が必要だ」と言うように）。
US-EngPk: パキスタン訛りで話された英語。

3. 構築方法：「スマートフィルター」パイプライン

このデータを収集することは、岩の山から特定の宝石を見つけ出すようなものでした。彼らはインターネット（YouTube）や古いアーカイブ（1980 年代のテレビ番組など）から 200 時間の音声を収集しました。それを整理するために、3 段階のプロセスを用いました。

ステップ 1：ノイズキャンセラー
AI ツールを使用して、交通音や風などの背景ノイズを取り除き、会話中の異なる声を分離し、メインの話し手だけが録音されていることを確認しました。
ステップ 2：「厳格な編集者」（LLM）
強力な AI（Gemini 2.5 Pro）を厳格な編集者として機能させました。この AI には特別な指示を与えました。「英語の単語をウルドゥー文字に翻訳せず、発音のままに保つこと」、「ウルドゥー語とヒンディー語を混同しないこと」です。また、話者の年齢、感情、声の質感（かすれているか滑らかか）、訛りなど、12 種類の異なる「雰囲気」タグ（パラ言語情報）についても音声を確認しました。
ステップ 3：人間のセーフティネット
データが最終確定する前に、ウルドゥー語のネイティブ話者がサンプルを聴き、AI が誤りを犯していないか確認しました。彼らは最終的な品質管理検査員として機能しました。

4. 「ゴールドスタンダード」ベンチマーク

自らの図書館が優れていることを証明するために、彼らは9 時間の「ゴールドスタンダード」セットを作成しました。これは人間が手動で確認し修正した、完璧にキュレーションされた小規模なコレクションです。彼らはこれを用いて、さまざまな AI 文字起こしモデルをテストしました。

結果： 既存の AI モデルのほとんどはウルドゥー語に苦戦し、単語を間違えたり、文字を混同したりすることが判明しました。しかし、彼らが選んだモデル（Gemini 2.5 Pro）は、言語のニュアンスを理解するネイティブ話者のように、著しく優れたパフォーマンスを発揮しました。

5. 図書館の中身

最終的なコレクションには、71,792 個の個別の音声クリップが含まれています。それは驚くほど多様です。

コンテンツ: ニュースやドラマから詩、Vlog、さらにはBait-Baziと呼ばれる稀な形式の口頭詩まで、あらゆるものが含まれています。
人物: 男性と女性のバランスが取れており、子供から高齢者まで、あらゆる年齢層の話者が登場します。
品質: 人間が音声を聴いた際、高い評価（5 点満点中 4.6 点）を与え、声が明瞭で文字起こしが正確であることが確認されました。

6. なぜこれが重要なのか

過去のウルドゥー語データセットを、数脚の椅子がある小さな閉鎖された部屋だと考えてください。UrduSpeechは、実際の話し方で話すあらゆる背景を持つ人々で満たされた、何千もの席がある広大な開放的なホールです。

研究者たちは、この図書館を誰でも利用できるよう無料で公開しました。この高品質でよく整理されたデータを提供することで、彼らは AI 開発者がウルドゥー語話者のためのより良いツールを構築するのを助け、この主要な言語がデジタルの未来から取り残されないことを願っています。

要約すると： 彼らはウルドゥー語のために、巨大で綿密に整理された音声図書館を構築し、他の AI ツールが犯した誤りを修正し、適切な人間と機械のチームワークがあれば、複雑で混合された言語の音声さえも完璧に理解できることを証明しました。

技術概要：UrduSpeech

1. 問題提起

約 2 億 3,000 万人の話者を持つにもかかわらず、ウルドゥー語は音声技術の分野において依然として極めてリソースが不足した言語のままです。既存のリソースは、この言語に固有の特定の言語学的および音響的課題に対処できていません。それらの課題には以下が含まれます：

文字制約: 右から左へ書くペルシャ・アラビア文字（RTL）。
コードスイッチング: ウルドゥー語と英語のコードスイッチング（CS）の普遍性。
音響的類似性: ヒンディー語との音響的近接性により、頻繁に誤分類される。
専門データの欠如: 機械読解、ディープフェイク検出、音声感情認識などの微妙なタスク向けの高忠実度データの不足。
リソースのギャップ: 既存のデータセット（例：ARL Urdu、Common Voice）は、しばしば制限的なライセンス、高コスト、話者多様性の欠如、または副言語的メタデータの欠如に悩まされている。

2. 手法

著者らは、「野生（in-the-wild）」のオーディオを処理するように設計された多段階の LLM 駆動キュレーションパイプラインを通じて、156 時間のコーパス「UrduSpeech」を開発しました。

データ収集と前処理

ソース: 200 時間の生オーディオを、YouTube および 4 десяти間（1980 年代から現在まで）にわたるパキスタン放送（PTV）のアーカイブログから集約しました。
前処理:
- ソース分離: 効率的な音声分離のために、Spleeter からDemucsモデルへ移行しました。
- 話者分離: Pyannote 3.1を使用して話者を分離し、ID の一貫性を確保するために手動によるグローバルアライメントを行いました。
- フィルタリング: 2 秒未満のセグメント、単一話者のクリップ、35 秒を超えるクリップを破棄しました。このプロセスにより 44 時間の残留ノイズが除去され、最終的に 156 時間のコーパスが完成しました。

モデル選択とベンチマーク

最適な文字起こしモデルを選択するために、13 時間のパイロット研究を実施しました。3 つのモデルをネイティブ話者のグラウンドトゥルースに対して評価しました：

Whisper-large-v3: コードスイッチングされたオーディオで失敗し、英語を文字通りの内容を維持するのではなく、ウルドゥー文字に転写することが多かったです。
OmniASR-LLM-1B: アラビア語/ペルシャ語で幻覚（ハルシネーション）を生成し、アクセントのあるセグメントで単語のループを示しました。
Gemini-2.5-Pro: 意味的認識とプロンプトエンジニアリングの能力により、優れたモデルとして選択されました。これは最も低い単語誤り率（WER）を達成し、コードスイッチング中に文字の忠実度（ウルドゥー語対ヒンディー語）と文字通りの文字起こしを成功裡に維持しました。

アノテーションパイプライン

Gemini 2.5-Proを使用した 2 段階のプロンプト戦略を採用しました：

文字起こし: プロンプトは、ヒンディー語/デーヴァナーガリー文字の混合を防ぎ、コードスイッチングに対して文字通りの文字起こしを義務付ける厳格な制約を課しました。
副言語的メタデータ: 2 番目のプロンプトにより、各セグメントに対して 12 次元のメタデータラベル（ピッチ、質感、リズム、年齢、アクセントなど）を生成しました。

品質管理: モデルの信頼スコアが 0.6 未満のセグメントは破棄されました。最終データセットは 71,792 の分離されたクリップで構成されています。

人間中心の検証

ベンチマークセット: US-Std、US-CS、US-EngPk からなる 9 時間のサブセット（US-Benchmark）を、ネイティブアノテーターが手動で修正し、グラウンドトゥルースとして機能させました。
評価: 3 つの複雑さレベルにわたって 180 クリップをサンプリングし、6 人のネイティブ・ウルドゥー語話者が 5 段階のリッカート尺度（ITU-T P.800 プロトコル）を使用して評価しました。
指標: 音声品質、文字起こしの精度、人口統計、プロソディ、感情、発音、文脈の正確性を評価しました。

3. 主要な貢献

UrduSpeech パイプライン: 生オーディオをフィルタリングし、話者分離を行い、RTL 制約を処理し、コードスイッチング環境でヒンディー語とウルドゥー語を区別できる堅牢なフレームワーク。
US-Benchmark セット: 12 次元の副言語的メタデータを持つ、手動で検証された 9 時間のベンチマークセットであり、誤り分析のための新たなグラウンドトゥルースを確立しました。
UrduSpeech コーパス: 156 時間のオープンソースコーパスで、以下を含みます：
- 59.2 時間の US-Std（標準パキスタン・ウルドゥー語）。
- 89.4 時間の US-CS（コードスイッチングされたウルドゥー語 - 英語）。
- 7.3 時間の US-EngPk（パキスタン訛りの英語）。
- 71,792 発話（感情、質感、アクセントを含む包括的な副言語的ラベル付き）。
SOTA 評価: Gemini 2.5-Pro、Whisper-large-v3、OmniASR-LLM-1 の詳細な評価を行い、ウルドゥー語における高忠実度文字起こしのベースラインを確立しました。

4. 結果

文字起こしの性能: Gemini-2.5-Pro は他のモデルを大幅に上回り、コードスイッチングなしで0.023、コードスイッチングありで0.028の WER を達成しました。これに対し、Whisper および OmniASR は約 0.28〜0.53 でした。
人間の品質評価:
- 平均意見スコア（MOS）: コーパスはグローバルな MOS 4.64（ $\sigma = 0.74$ ）を達成しました。
- 信頼性: 評価の 92.78% が 4 または 5 でした。評価者間信頼性は、セット B でコホーンの $\kappa$ が 0.678、セット C で 0.545 でした。
- 信頼度: キュレーションパイプラインは、モデル出力と人間の検証に基づき**97.6%**の信頼度スコアを示しました。
人口統計: コーパスは60/40 の性別バランス（男性 42,990 発話対女性 28,802 発話）を維持し、多様な年齢層（若年成人、中年、児童、高齢者）を含んでいます。
分布: データはニュース、ドラマ、詩、ブログ、Bait-Baziのような稀な文学形式など、12 カテゴリを網羅しています。

5. 意義と主張

本論文は、UrduSpeech をグローバル AI における言語的包括性への重要な飛躍として位置づけています。その主な意義は以下の点にあります：

デジタルデバイドの解消: マルチモーダル基盤モデルによって十分にサービスを受けてこなかった、2 億 3,000 万人の話者を持つ言語に対する正確な言語的表現を提供すること。
詳細なメタデータ: 12 次元の副言語的メタデータフレームワークを統合した最初のリソースであり、高解像度の誤り分析や、感情コンピューティングおよび話者プロファイリングの研究を可能にすること。
コードスイッチングへの対応: ウルドゥー語 - 英語のコードスイッチングおよびパキスタン訛りの英語のための大規模データセットを提供することで、「野生（in-the-wild）」のギャップに特に対処すること。
オープンサイエンス: ライセンス付きまたは有料の多くの基盤データセットとは異なり、コーパスとパイプラインはオープンソース化されており、ウルドゥー語およびその他のリソース不足のペルシャ・アラビア文字言語における将来の研究を促進することを目指しています。

著者らは、野生の録音における過剰セグメンテーションの可能性により、固有の話者数の推定値が保守的（検出されたクラスター 3,000 に対して 1,000 以上）であること、および一部のセグメントに残留背景ノイズが存在することを限界として指摘しています。今後の作業は、ASR/TTS のベースラインベンチマークの確立と、単語レベルの精度のための強制アライメントの実装に向けられています。

UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimension Paralinguistic Annotations