UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimension Paralinguistic Annotations

Este artículo presenta UrduSpeech, un corpus de voz urdu a gran escala y de alta fidelidad que contiene 156 horas de audio con anotaciones paralingüísticas de 12 dimensiones y una referencia estandarizada, desarrollado mediante una pipeline impulsada por LLM para abordar el estado de escasez de recursos del idioma en la tecnología de voz.

Autores originales: Attia Nafees ul Haq, Zeyu Zhu, Jingbin Hu, ChunJiang He, Lei Xie

Publicado 2026-05-19✓ Author reviewed
📖 5 min de lectura🧠 Análisis profundo

Autores originales: Attia Nafees ul Haq, Zeyu Zhu, Jingbin Hu, ChunJiang He, Lei Xie

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagine el mundo de la inteligencia artificial (IA) como una biblioteca masiva. Durante años, esta biblioteca ha estado abastecida con libros en inglés, mandarín y español, pero la sección dedicada al urdu—un idioma hablado por más de 230 millones de personas—ha estado casi vacía. Es como intentar enseñar a un robot a hablar un idioma utilizando solo unos pocos folletos dispersos y polvorientos.

Este artículo presenta UrduSpeech, un nuevo y masivo "estante de libros" diseñado para corregir ese desequilibrio. Aquí tienes una explicación sencilla de lo que los investigadores construyeron y cómo lo hicieron.

1. El Problema: Un Idioma Abandonado

El urdu es único porque se escribe de derecha a izquierda (como el árabe) y a menudo mezcla palabras en inglés dentro de las oraciones (un poco como una persona que cambia entre dos dialectos mientras cuenta una historia). Debido a estas peculiaridades, las herramientas estándar de IA a menudo se confunden, tratando el urdu como hindi o fallando al comprender cuando el hablante cambia de idioma. Los investigadores querían construir un recurso que respetara estos desafíos específicos.

2. La Solución: Una "Biblioteca de Sonido" de 156 Horas

El equipo creó UrduSpeech, una colección de 156 horas de audio de alta calidad. Para ponerlo en perspectiva, si lo escucharas sin parar, te tomaría más de seis días terminarlo.

No simplemente arrojaron ruido aleatorio en una carpeta. Organizaron esta biblioteca en tres "habitaciones" específicas (subconjuntos):

  • US-Std: Urdu estándar paquistaní (la versión formal, de "libro de texto").
  • US-CS: Urdu con cambio de código (donde los hablantes mezclan naturalmente el urdu y el inglés, como decir "Necesito un chai y un coffee").
  • US-EngPk: Inglés hablado con acento paquistaní.

3. Cómo lo Construyeron: El Pipeline del "Filtro Inteligente"

Recopilar estos datos fue como intentar encontrar gemas específicas en una pila de rocas. Recopilaron 200 horas de audio de internet (YouTube) y archivos antiguos (como programas de televisión de la década de 1980). Para limpiarlo, utilizaron un proceso de tres pasos:

  • Paso 1: El Cancelador de Ruido: Utilizaron herramientas de IA para eliminar el ruido de fondo (como el tráfico o el viento) y separar diferentes voces en una conversación, asegurando que solo se grabara al hablante principal.
  • Paso 2: El "Editor Estricto" (LLM): Utilizaron una IA potente (Gemini 2.5 Pro) para actuar como un editor estricto. A esta IA se le dieron instrucciones especiales: "No traduzcas las palabras en inglés al script urdu; manténlas tal como suenan" y "No confundas el urdu con el hindi". También verificó el audio en busca de 12 "etiquetas de ambiente" diferentes (paralingüísticas), como la edad del hablante, la emoción, la textura de la voz (¿es ronca o suave?) y el acento.
  • Paso 3: La Red de Seguridad Humana: Antes de que los datos se finalizaran, hablantes nativos de urdu escucharon muestras para asegurarse de que la IA no cometiera errores. Actuaron como los inspectores finales de control de calidad.

4. El Estándar de Oro de Referencia

Para demostrar que su biblioteca era buena, crearon un conjunto de "Estándar de Oro" de 9 horas. Esta es una pequeña colección perfectamente curada que los humanos verificaron y corrigieron manualmente. La utilizaron para probar diferentes modelos de transcripción de IA.

El Resultado: Descubrieron que la mayoría de los modelos de IA existentes luchaban con el urdu, a menudo equivocándose en las palabras o confundiendo los scripts. Sin embargo, el modelo que eligieron (Gemini 2.5 Pro) funcionó significativamente mejor, actuando como un hablante nativo que comprendía los matices del idioma.

5. ¿Qué Hay Dentro de la Biblioteca?

La colección final contiene 71,792 clips de audio separados. Es increíblemente diversa:

  • Contenido: Incluye todo, desde noticias y dramas hasta poesía, vlogs e incluso formas raras de poesía hablada llamadas Bait-Bazi.
  • Personas: Presenta una mezcla equilibrada de hombres y mujeres, y hablantes de todas las edades, desde niños hasta ancianos.
  • Calidad: Cuando los humanos escucharon el audio, le dieron una puntuación alta (4.6 sobre 5), confirmando que las voces son claras y las transcripciones son precisas.

6. Por Qué Esto Importa

Piensa en los conjuntos de datos anteriores de urdu como una pequeña habitación cerrada con unas pocas sillas. UrduSpeech es un vasto salón abierto con miles de asientos, lleno de personas de todos los orígenes hablando de todas las formas en que realmente hablan.

Los investigadores han hecho esta biblioteca gratuita y abierta para que cualquiera la utilice. Al proporcionar estos datos de alta calidad y bien organizados, esperan ayudar a los desarrolladores de IA a construir mejores herramientas para los hablantes de urdu, asegurando que este idioma importante ya no quede excluido del futuro digital.

En resumen: Construyeron una biblioteca de sonido masiva y meticulosamente organizada para el urdu, corrigieron los errores que cometían otras herramientas de IA y demostraron que, con el trabajo en equipo adecuado entre humanos y máquinas, incluso el habla compleja y multilingüe puede entenderse perfectamente.

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →