Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez construit un robot super-intelligent capable de comprendre le monde entier. Vous lui avez appris à lire, à écrire, à traduire et même à résumer des réunions. Mais il y a un petit problème : jusqu'à présent, vous ne l'avez testé qu'en lui écrivant des notes sur un papier.

Le problème : L'illusion du papier
C'est comme si vous appreniez à un pianiste à jouer uniquement en lui donnant des partitions écrites, puis vous vous attendiez à ce qu'il joue parfaitement quand quelqu'un lui chuchote une chanson à l'oreille dans un bar bruyant.

Les chercheurs de ce papier (appelé DoWhatISay ou DOWIS) se sont dit : « Attendez une minute ! Dans la vraie vie, les gens ne parlent pas à leurs ordinateurs en écrivant des emails. Ils parlent ! Ils disent : « Hé, résume-moi cette réunion » ou « Traduis ce que cette personne vient de dire ». »

Leur constat est sans appel : quand ils testent ces robots intelligents (les modèles de langage vocaux) avec des instructions écrites, ils semblent des génies. Mais dès qu'on leur parle vraiment, ils trébuchent, surtout s'ils doivent produire du texte à la fin. C'est comme si le robot avait un trouble de la compréhension : il comprend l'écrit, mais le parlé le rend confus.

La solution : Le grand test multilingue
Pour régler ce problème, l'équipe a créé DOWIS, une immense boîte à outils. Imaginez cette boîte comme un menu gastronomique géant :

9 plats (Tâches) : De la reconnaissance de la parole (écouter et écrire) à la traduction, en passant par la synthèse de la voix (faire parler le robot).
11 langues : Du français à l'allemand, en passant par le russe, le tchèque, etc.
5 styles de commande : Comme dans un restaurant, vous pouvez commander de manière formelle (« Veuillez me traduire ceci »), informelle (« Hé, traduis ça ! »), détaillée, courte ou basique.

Le plus important ? Tout a été enregistré par de vrais humains. Pas de robots qui lisent du texte avec une voix synthétique. Ce sont de vraies personnes, avec de vraies voix, des intonations naturelles, enregistrées sur leur téléphone ou leur ordinateur, comme si elles parlaient à un ami.

Ce qu'ils ont découvert
En faisant manger ce menu à deux robots très avancés (Phi-4 et Qwen2.5), ils ont vu des choses surprenantes :

Le choc de la réalité : Pour les tâches où le robot doit écrire (comme résumer un texte), les instructions écrites le font briller, mais les instructions parlées le font chuter dans les notes. C'est comme si le robot avait des lunettes de soleil : il voit bien le texte, mais il est aveugle quand on lui parle.
L'exception de la voix : Par contre, si le robot doit parler en retour (comme traduire une voix en une autre voix), alors les instructions parlées fonctionnent aussi bien, voire mieux ! C'est comme si le robot était plus à l'aise quand tout le monde parle le même langage.
Le style compte : Les ordres trop familiers (« Hé, fais ça ! ») ou trop courts fonctionnent souvent moins bien que les ordres clairs et structurés. Le robot a besoin de repères, un peu comme un élève qui a besoin d'un énoncé de problème bien rédigé pour réussir son exercice.
La voix des hommes et des femmes : Il y a même de petites différences selon que l'ordre est donné par un homme ou une femme, ce qui montre que les robots ont encore des biais à corriger.

En résumé
Ce papier nous dit une chose simple mais cruciale : ne vous fiez pas aux notes écrites pour juger un robot. Si vous voulez savoir si votre assistant vocal est vraiment intelligent, ne lui écrivez pas des ordres. Parlez-lui !

DOWIS est la première boîte à outils qui permet de faire ce test de manière réaliste, dans plusieurs langues et avec plusieurs styles de voix. C'est un outil indispensable pour s'assurer que nos futurs assistants ne seront pas de simples « perroquets à papier », mais de vrais interlocuteurs capables de comprendre notre voix, avec toutes ses nuances.

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

1. Problématique

2. Méthodologie et Contribution Principale : DOWIS

3. Expérimentations

4. Résultats Clés

5. Signification et Conclusion

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

1. Problématique

2. Méthodologie et Contribution Principale : DOWIS

3. Expérimentations

4. Résultats Clés

5. Signification et Conclusion

Articles similaires

Image Captioning via Compact Bidirectional Architecture

Correspondence Analysis and PMI-Based Word Embeddings: A Comparative Study

Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus

ThinkQE: Query Expansion via an Evolving Thinking Process

AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios