Ursprüngliche Autoren: Attia Nafees ul Haq, Zeyu Zhu, Jingbin Hu, ChunJiang He, Lei Xie

Veröffentlicht 2026-05-19✓ Author reviewed ⓘ

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ursprüngliche Autoren: Attia Nafees ul Haq, Zeyu Zhu, Jingbin Hu, ChunJiang He, Lei Xie

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich die Welt der künstlichen Intelligenz (KI) als eine riesige Bibliothek vor. Seit Jahren ist diese Bibliothek mit Büchern in Englisch, Mandarin und Spanisch bestückt, doch der Abschnitt, der Urdu gewidmet ist – einer Sprache, die von über 230 Millionen Menschen gesprochen wird –, war nahezu leer. Es ist, als würde man versuchen, einem Roboter beizubringen, eine Sprache zu sprechen, indem man ihm nur einige wenige verstreute, staubige Broschüren zur Verfügung stellt.

Diese Arbeit stellt UrduSpeech vor, ein massives neues „Bücherregal", das dieses Ungleichgewicht beheben soll. Hier ist eine einfache Aufschlüsselung dessen, was die Forscher entwickelt haben und wie sie es umgesetzt haben.

1. Das Problem: Eine zurückgelassene Sprache

Urdu ist einzigartig, weil es von rechts nach links geschrieben wird (wie Arabisch) und oft englische Wörter in Sätze mischt (ein wenig wie eine Person, die beim Erzählen einer Geschichte zwischen zwei Dialekten wechselt). Aufgrund dieser Eigenheiten geraten Standard-KI-Tools häufig in Verwirrung, behandeln Urdu wie Hindi oder versagen, wenn der Sprecher die Sprache wechselt. Die Forscher wollten eine Ressource schaffen, die diesen spezifischen Herausforderungen gerecht wird.

2. Die Lösung: Eine 156-Stunden-„Soundbibliothek"

Das Team schuf UrduSpeech, eine Sammlung von 156 Stunden hochwertigem Audio. Um dies einzuordnen: Wenn Sie es ununterbrochen anhören würden, bräuchten Sie über sechs Tage, um es zu Ende zu hören.

Sie warfen nicht einfach zufälliges Rauschen in einen Ordner. Sie organisierten diese Bibliothek in drei spezifische „Räume" (Teilbereiche):

US-Std: Standard-Pakistanisches Urdu (die formelle, „schulbuchartige" Version).
US-CS: Code-switched Urdu (wo Sprecher Urdu und Englisch natürlich mischen, etwa indem sie sagen: „I need a chai and a coffee").
US-EngPk: Englisch mit pakistanischem Akzent gesprochen.

3. Wie sie es entwickelten: Die „Smart Filter"-Pipeline

Das Sammeln dieser Daten war wie der Versuch, spezifische Edelsteine in einem Haufen von Steinen zu finden. Sie sammelten 200 Stunden Audio aus dem Internet (YouTube) und alten Archiven (wie Fernsehsendungen aus den 1980er-Jahren). Um es aufzubereiten, nutzten sie einen dreistufigen Prozess:

Schritt 1: Der Geräuschunterdrücker: Sie verwendeten KI-Tools, um Hintergrundgeräusche (wie Verkehr oder Wind) zu entfernen und verschiedene Stimmen in einem Gespräch zu trennen, sodass nur die Hauptstimme aufgezeichnet wurde.
Schritt 2: Der „strenge Redakteur" (LLM): Sie nutzten eine leistungsstarke KI (Gemini 2.5 Pro), die als strenger Redakteur fungierte. Diese KI erhielt spezielle Anweisungen: „Übersetzen Sie englische Wörter nicht in die Urdu-Schrift; behalten Sie sie so bei, wie sie klingen," und „Verwechseln Sie Urdu nicht mit Hindi." Zudem prüfte sie das Audio auf 12 verschiedene „Vibe"-Tags (paralinguistische Merkmale), wie das Alter des Sprechers, Emotionen, die Stimmqualität (ist sie heiser oder glatt?) und den Akzent.
Schritt 3: Das menschliche Sicherheitsnetz: Bevor die Daten finalisiert wurden, hörten Muttersprachler von Urdu Proben an, um sicherzustellen, dass die KI keine Fehler machte. Sie fungierten als letzte Qualitätskontrollinspektoren.

4. Der „Goldstandard"-Benchmark

Um zu beweisen, dass ihre Bibliothek gut war, erstellten sie ein 9-Stunden-„Goldstandard"-Set. Dies ist eine kleine, perfekt kuratierte Sammlung, die von Menschen manuell überprüft und korrigiert wurde. Sie nutzten diese, um verschiedene KI-Transkriptionsmodelle zu testen.

Das Ergebnis: Sie stellten fest, dass die meisten bestehenden KI-Modelle Probleme mit Urdu hatten, oft die Wörter falsch erkannten oder die Schriften verwechselten. Das von ihnen gewählte Modell (Gemini 2.5 Pro) schnitt jedoch deutlich besser ab und agierte wie ein Muttersprachler, der die Nuancen der Sprache verstand.

5. Was ist in der Bibliothek enthalten?

Die endgültige Sammlung enthält 71.792 separate Audioclips. Sie ist unglaublich vielfältig:

Inhalt: Sie umfasst alles von Nachrichten und Dramen über Poesie und Vlogs bis hin zu seltenen Formen gesprochener Poesie, die als Bait-Bazi bekannt sind.
Menschen: Sie zeigt eine ausgewogene Mischung aus Männern und Frauen sowie Sprechern aller Altersgruppen, von Kindern bis zu Senioren.
Qualität: Als Menschen das Audio anhörten, bewerteten sie es mit einer hohen Punktzahl (4,6 von 5), was bestätigte, dass die Stimmen klar und die Transkriptionen genau sind.

6. Warum dies wichtig ist

Stellen Sie sich frühere Urdu-Datensätze als einen kleinen, verschlossenen Raum mit ein paar Stühlen vor. UrduSpeech ist eine riesige, offene Halle mit tausenden von Sitzplätzen, gefüllt mit Menschen aller Hintergründe, die so sprechen, wie sie es tatsächlich tun.

Die Forscher haben diese Bibliothek kostenlos und offen für jedermann nutzbar gemacht. Indem sie diese hochwertigen, gut organisierten Daten bereitstellen, hoffen sie, KI-Entwicklern zu helfen, bessere Tools für Urdu-Sprecher zu entwickeln und sicherzustellen, dass diese wichtige Sprache nicht länger von der digitalen Zukunft ausgeschlossen bleibt.

Kurz gesagt: Sie bauten eine massive, sorgfältig organisierte Soundbibliothek für Urdu, korrigierten die Fehler anderer KI-Tools und bewiesen, dass mit der richtigen Zusammenarbeit von Mensch und Maschine selbst komplexe, mehrsprachige Rede perfekt verstanden werden kann.

Technische Zusammenfassung: UrduSpeech

1. Problemstellung

Trotz etwa 230 Millionen Muttersprachlern bleibt Urdu im Bereich der Sprachtechnologie kritisch unterversorgt. Bestehende Ressourcen adressieren die spezifischen linguistischen und akustischen Herausforderungen der Sprache nicht, darunter:

Schriftbeschränkungen: Die von rechts nach links (RTL) geschriebene Perso-Arabisch-Schrift.
Code-Switching: Die Allgegenwart von Urdu-Englisch-Code-Switching (CS).
Akustische Ähnlichkeit: Die akustische Nähe von Urdu zu Hindi, die zu häufigen Fehlklassifizierungen führt.
Fehlende spezialisierte Daten: Ein Mangel an hochfidelitätsdaten für differenzierte Aufgaben wie Machine Reading Comprehension, Deepfake-Erkennung und Spracherkennung von Emotionen.
Ressourcengaps: Bestehende Datensätze (z. B. ARL Urdu, Common Voice) leiden oft unter restriktiven Lizenzen, hohen Kosten, begrenzter Sprecherdiversität oder dem Fehlen paralinguistischer Metadaten.

2. Methodik

Die Autoren entwickelten UrduSpeech, ein 156-Stunden-Korpus, durch eine mehrstufige, von LLMs gesteuerte Kuratierungspipeline, die für „in-the-wild"-Audio konzipiert ist.

Datenerfassung und Vorverarbeitung

Quellen: 200 Stunden Rohaudio wurden von YouTube und Archivlogs des pakistanischen Fernsehens (PTV) über vier Jahrzehnte (1980er Jahre bis heute) aggregiert.
Vorverarbeitung:
- Quellentrennung: Wechsel von Spleeter zum Demucs-Modell für eine effiziente Isolierung der Stimme.
- Sprecherdiarisierung: Nutzung von Pyannote 3.1 zur Trennung der Sprecher, gefolgt von manueller globaler Ausrichtung zur Gewährleistung der Konsistenz der IDs.
- Filterung: Segmente kürzer als 2 Sekunden, Clips mit nur einem Sprecher sowie solche, die 35 Sekunden überschreiten, wurden verworfen. Dieser Prozess entfernte 44 Stunden Restrauschen, was zu einem finalen 156-Stunden-Korpus führte.

Modellauswahl und Benchmarking

Eine 13-stündige Pilotstudie wurde durchgeführt, um das optimale Transkriptionsmodell auszuwählen. Drei Modelle wurden gegen Ground-Truth-Daten von Muttersprachlern evaluiert:

Whisper-large-v3: Scheiterte bei Code-Switching-Audio, indem es Englisch häufig in die Urdu-Schrift transliterierte, anstatt den wörtlichen Inhalt beizubehalten.
OmniASR-LLM-1B: Erzeugte Halluzinationen bei Arabisch/Persisch und zeigte Wort-Schleifen bei akzentuierten Segmenten.
Gemini-2.5-Pro: Wurde aufgrund seines semantischen Bewusstseins und seiner Fähigkeiten im Prompt-Engineering als überlegenes Modell ausgewählt. Es erzielte die niedrigste Wortfehlerrate (WER) und behielt erfolgreich die Schrifttreue (Urdu vs. Hindi) sowie die wörtliche Transkription beim Code-Switching bei.

Annotationspipeline

Eine zweistufige Prompt-Strategie mit Gemini 2.5-Pro wurde eingesetzt:

Transkription: Prompts erzwangen strenge Einschränkungen, um eine Vermischung der Hindi-/Devanagari-Schrift zu verhindern, und forderten eine wörtliche Transkription für Code-Switching.
Paralinguistische Metadaten: Ein zweiter Prompt generierte 12-dimensionale Metadaten-Labels (z. B. Tonhöhe, Textur, Rhythmus, Alter, Akzent) für jedes Segment.

Qualitätssicherung: Segmente mit Modellvertrauenswerten unter 0,6 wurden verworfen. Der finale Datensatz besteht aus 71.792 diariserten Clips.

Menschzentrierte Validierung

Benchmark-Set: Ein 9-Stunden-Teilset (US-Benchmark), bestehend aus US-Std, US-CS und US-EngPk, wurde von Muttersprachlern manuell korrigiert, um als Ground Truth zu dienen.
Bewertung: 180 Clips wurden über drei Komplexitätsstufen hinweg gesampelt und von sechs muttersprachlichen Urdu-Sprechern unter Verwendung einer 5-Punkte-Likert-Skala (ITU-T P.800-Protokoll) bewertet.
Metriken: Bewertet wurden Audioqualität, Transkriptionsgenauigkeit, Demografie, Prosodie, Affekt, Artikulation und kontextuelle Genauigkeit.

3. Hauptbeiträge

UrduSpeech-Pipeline: Ein robustes Framework, das Rohaudio filtern, Sprecherdiarisierung durchführen, RTL-Beschränkungen handhaben und zwischen Hindi und Urdu in Code-Switching-Umgebungen unterscheiden kann.
US-Benchmark-Set: Ein 9-Stunden, manuell verifiziertes Benchmark-Set mit 12-dimensionalen paralinguistischen Metadaten, das eine neue Ground Truth für Fehleranalysen etabliert.
UrduSpeech-Korpus: Ein 156-Stunden Open-Source-Korpus, das Folgendes enthält:
- 59,2 Stunden US-Std (Standard-Pakistanisch-Urdu).
- 89,4 Stunden US-CS (Code-switched Urdu-Englisch).
- 7,3 Stunden US-EngPk (Pakistanisch-akzentuiertes Englisch).
- 71.792 Äußerungen mit umfassenden paralinguistischen Labels (Emotion, Textur, Akzent).
SOTA-Evaluation: Eine eingehende Evaluation von Gemini 2.5-Pro, Whisper-large-v3 und OmniASR-LLM-1, die Baselines für hochfidelitäts Transkription in Urdu etabliert.

4. Ergebnisse

Transkriptionsleistung: Gemini-2.5-Pro schnitt deutlich besser ab als andere Modelle und erreichte eine WER von 0,023 (ohne Code-Switching) und 0,028 (mit Code-Switching), verglichen mit ~0,28–0,53 für Whisper und OmniASR.
Menschliche Qualitätsbewertung:
- Mean Opinion Score (MOS): Das Korpus erreichte einen globalen MOS von 4,64 ( $\sigma = 0,74$ ).
- Zuverlässigkeit: 92,78 % der Bewertungen lagen bei 4 oder 5. Die Inter-Rater-Reliabilität zeigte einen Cohens $\kappa$ von 0,678 für Set B und 0,545 für Set C.
- Vertrauen: Die Kuratierungspipeline wies basierend auf Modellausgaben und menschlicher Validierung ein Vertrauensniveau von 97,6 % auf.
Demografie: Das Korpus bewahrt ein 60/40-Geschlechterverhältnis (42.990 männliche vs. 28.802 weibliche Äußerungen) und umfasst diverse Altersgruppen (Junge Erwachsene, mittleres Alter, Kinder, Senioren).
Verteilung: Die Daten decken 12 Kategorien ab, darunter Nachrichten, Drama, Poesie, Vlogs und seltene literarische Formen wie Bait-Bazi.

5. Bedeutung und Behauptungen

Der Artikel positioniert UrduSpeech als einen bedeutenden Schritt hin zu sprachlicher Inklusion in der globalen KI. Seine primäre Bedeutung liegt in:

Überbrückung der digitalen Kluft: Bereitstellung einer genauen linguistischen Repräsentation für eine Sprache mit 230 Millionen Sprechern, die von multimodalen Foundation-Modellen bisher unterversorgt wurde.
Granulare Metadaten: Als erste Ressource, die ein 12-dimensionales Framework für paralinguistische Metadaten integriert, was hochauflösende Fehleranalysen und Forschung im Bereich des affektiven Computings sowie der Sprecherprofilierung ermöglicht.
Adressierung von Code-Switching: Spezifische Bewältigung der „in-the-wild"-Lücke durch Bereitstellung eines groß angelegten Datensatzes für Urdu-Englisch-Code-Switching und pakistanisch-akzentuiertes Englisch.
Offene Wissenschaft: Im Gegensatz zu vielen foundational Datensätzen, die lizenziert oder kostenpflichtig sind, sind das Korpus und die Pipeline Open-Source, um zukünftige Forschung in Urdu und anderen unterversorgten Sprachen mit Perso-Arabischer Schrift zu fördern.

Die Autoren verweisen auf Einschränkungen, darunter eine konservative Schätzung der einzigartigen Sprecher (1.000+ vs. 3.000 erkannte Cluster) aufgrund möglicher Übersegmentierung bei Wildaufnahmen sowie das Vorhandensein von Resthintergrundgeräuschen in einigen Segmenten. Zukünftige Arbeiten zielen darauf ab, Baseline-Benchmarks für ASR/TTS zu etablieren und Forced Alignment für eine wortgenaue Präzision zu implementieren.

UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimension Paralinguistic Annotations