Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Each language version is independently generated for its own context, not a direct translation.

"Doe wat ik zeg": Een nieuw spreektest voor slimme computers

Stel je voor dat je een zeer slimme robot hebt die alles kan doen: vertalen, samenvatten, vragen beantwoorden. Maar tot nu toe hebben we deze robot alleen getest door hem te schrijven wat hij moet doen. Alsof je een kok alleen test door hem een recept op een briefje te geven, maar nooit zegt: "Hé kok, maak die soep!" terwijl je naast hem staat.

Dat is precies het probleem dat dit nieuwe onderzoek (van een team uit Duitsland, Italië en Polen) aanpakt. Ze hebben een nieuwe test ontwikkeld genaamd DOWIS (DoWhatISay). Hier is hoe het werkt, vertaald naar alledaags taalgebruik:

1. Het Probleem: De "Schrijf-Blindheid"

Tot nu toe dachten onderzoekers dat als een robot goed was in het lezen van instructies, hij ook goed zou zijn in het horen van instructies. Maar dat bleek niet waar.

De Analogie: Het is alsof je iemand test op zijn vermogen om te dansen door alleen naar zijn foto's te kijken. Je ziet hoe hij eruit ziet, maar je weet niet of hij kan bewegen.
De Realiteit: De robots (zoals Qwen en Phi) presteerden fantastisch op tekst, maar vielen vaak flink door de mand als mensen hen spreektaal gaven. Ze raakten in de war, vooral als de taal niet hun moedertaal was of als de instructie informeel klonk.

2. De Oplossing: DOWIS (De "Spreek-Set")

De onderzoekers hebben een enorme verzameling gemaakt van spreekopdrachten.

Hoe het is gemaakt: In plaats van dat een computer de stemmen heeft nagebootst (wat vaak klinkt als een robot), hebben ze echte mensen ingeschakeld. 19 mensen uit 11 verschillende landen (zoals Nederland, Duitsland, Rusland, Hongarije) hebben de opdrachten opgenomen alsof ze tegen een vriend praten.
De Variatie: Ze hebben niet alleen gezegd "Vertaal dit". Ze hebben ook gezegd:
- Formeel: "Zou u deze tekst willen vertalen?"
- Informeel: "Hé, kun jij even zeggen wat die vent daar zegt?"
- Kort: "Vertaal."
- Gedetailleerd: "Luister goed naar dit gesprek en vertaal precies wat er gezegd wordt, zonder iets toe te voegen."
Het Resultaat: Een dataset met uren aan audio in 11 talen, die je kunt koppelen aan elke bestaande test. Het is als een "proefkeuken" waar je de robot kunt testen met echte menselijke stemmen in plaats van met een schriftelijke menukaart.

3. Wat Vonden Ze? (De Verassingen)

Toen ze de slimme robots met deze nieuwe spreektesten testten, kwamen er interessante dingen naar boven:

Schrijven is makkelijker dan spreken: Voor taken waarbij de robot iets moet schrijven (zoals een samenvatting of vertaling), deed hij het veel slechter als hij een gesproken opdracht kreeg. Het was alsof de robot dacht: "Oh, iemand praat tegen me? Dan weet ik niet meer wat ik moet doen."
Spreken is makkelijker als het antwoord ook spreken is: Als de robot iets moet zeggen (zoals een vertaling voorlezen), deed hij het juist heel goed met gesproken opdrachten. Hier sluit het gesprek naadloos aan.
De "Hé, kan jij..." factor: Informele, slordige zinnen (zoals "Hé, doe maar wat") waren vaak de moeilijkste. De robots houden van duidelijke, gestructureerde instructies. Alsof een kok liever een strak recept heeft dan een flauwe grap van de klant.
Mannen vs. Vrouwen: Het bleek dat sommige robots iets beter reageerden op de stem van een man en anderen op die van een vrouw. Dit is een teken dat de robots nog vooroordelen hebben die we moeten oplossen.

4. Waarom is dit belangrijk?

Vroeger dachten we: "Onze robot is 99% goed!" omdat hij tekst perfect las. Maar met deze nieuwe test zien we: "Oh, als een mens tegen hem praat, is hij misschien maar 60% goed."

De conclusie in één zin:
Om echt slimme robots te bouwen die in het echte leven kunnen werken (waar mensen praten in plaats van typen), moeten we stoppen met ze alleen te testen met pennen en papier, en ze gaan testen met onze eigen stemmen. DOWIS is de nieuwe "spreekles" die we nodig hebben om deze robots echt menselijk te maken.

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

1. Het Probleem: De "Schrijf-Blindheid"

2. De Oplossing: DOWIS (De "Spreek-Set")

3. Wat Vonden Ze? (De Verassingen)

4. Waarom is dit belangrijk?

Probleemstelling

Methodologie: Het DOWIS Dataset

Experimenten en Evaluatie

Belangrijkste Resultaten

Bijdrage en Significantie

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

1. Het Probleem: De "Schrijf-Blindheid"

2. De Oplossing: DOWIS (De "Spreek-Set")

3. Wat Vonden Ze? (De Verassingen)

4. Waarom is dit belangrijk?

Probleemstelling

Methodologie: Het DOWIS Dataset

Experimenten en Evaluatie

Belangrijkste Resultaten

Bijdrage en Significantie

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance