Do What I Say: A Spoken Prompt Dataset for Instruction-Following

El artículo presenta DoWhatISay (DOWIS), un dataset multilingüe de instrucciones habladas y escritas diseñado para evaluar de manera realista a los modelos de lenguaje grandes de voz, revelando que las instrucciones textuales superan a las habladas en la mayoría de los casos, excepto en tareas con salida de voz.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues

Publicado Wed, 11 Ma
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los Modelos de Lenguaje de Voz (SLLMs) son como unos asistentes virtuales superinteligentes que han aprendido a leer y escribir como humanos, pero que ahora también quieren "hablar" y "escuchar" de forma natural.

El problema es que, hasta ahora, los científicos los habían estado entrenando y probando casi exclusivamente con instrucciones escritas. Es como si le enseñaras a un perro a hacer trucos solo mostrándole tarjetas con dibujos, pero nunca le hablaras en voz alta. ¿Funcionaría igual si le gritas "¡Siéntate!" en lugar de mostrarle la tarjeta? Probablemente no.

Aquí es donde entra el trabajo de este paper, llamado DOWIS ("Haz lo que digo").

1. ¿Qué es DOWIS? (El "Menú Multilingüe")

Los autores crearon un gigantesco menú de instrucciones que incluye:

  • 9 tareas diferentes: Desde traducir lo que dice alguien, resumir una reunión, hasta transcribir audio o generar voz.
  • 11 idiomas: Como si el menú estuviera disponible en español, inglés, alemán, ruso, etc.
  • 5 estilos de hablar: Desde muy formal ("Por favor, transcriba el audio") hasta muy informal ("Oye, ¿qué dice esto?").
  • Lo más importante: Cada instrucción existe en dos versiones: una escrita y una grabada por humanos reales (con sus tonos, pausas y emociones), no por robots.

La analogía: Imagina que tienes un restaurante (el modelo de IA). Antes, los críticos solo pedían la comida leyendo el menú en papel. DOWIS es como enviar a un camarero a decirles la comida en voz alta, con diferentes acentos y tonos de voz, para ver si el chef (la IA) sigue cocinando bien cuando le hablan en lugar de leerle.

2. ¿Qué descubrieron? (La prueba de fuego)

Cuando probaron dos de los asistentes más modernos (Phi-4 y Qwen2.5-Omni) con este nuevo menú, pasaron cosas curiosas:

  • El efecto "Muro de Voz": Cuando la tarea era escribir algo (como traducir texto o resumir un artículo), las instrucciones en voz hicieron que los modelos fallaran mucho más que las escritas.
    • Metáfora: Es como si un chef fuera un genio cocinando siguiendo una receta escrita, pero si le dices la receta gritándole al oído en medio de una cocina ruidosa, se confunde y quema la comida.
  • La excepción de la voz: Cuando la tarea era generar voz (como hablar o traducir audio a audio), las instrucciones habladas funcionaron igual de bien o incluso mejor.
    • Metáfora: Si le pides al chef que cante una canción, le va mejor si se la cantas tú que si se la lees en papel.

3. El estilo importa (Formal vs. Informal)

Descubrieron que la forma de hablar también cambia el resultado:

  • Las instrucciones informales y cortas (tipo "Oye, haz esto") suelen ser las más difíciles para la IA.
  • Las instrucciones formales y detalladas funcionan mejor.
  • Analogía: Es como si la IA fuera un estudiante muy estricto. Si le pides un favor con un "¿Podrías hacer esto, por favor?", lo hace bien. Pero si le dices "Eh, haz esto ya", se pone nervioso y comete errores.

4. ¿Por qué es importante esto?

El mensaje principal es que los tests actuales nos están mintiendo.
Hasta ahora, decíamos "¡Mira qué inteligente es esta IA!" porque pasaba todos los exámenes escritos. Pero DOWIS nos muestra que, en la vida real, cuando un usuario le habla a su teléfono o altavoz con un tono casual, la IA suele fallar mucho más de lo que creíamos.

En resumen:
Este paper nos dice que para que los asistentes de voz sean realmente útiles y humanos, no basta con que sean buenos leyendo; tenemos que entrenarlos y evaluarlos con voces reales, en muchos idiomas y con todos los tonos de voz posibles. DOWIS es la herramienta que nos permite hacer esa prueba de realidad.

¡Es como pasar de evaluar a un actor solo cuando lee un guion en silencio, a ver cómo actúa cuando le lanzan preguntas improvisadas en medio de una fiesta ruidosa!