Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten Roboter-Assistenten, der sowohl hören als auch sprechen kann. Wir nennen ihn einen „Sprach-KI-Modell". Bisher haben die Entwickler diesen Roboter hauptsächlich getestet, indem sie ihm Texte auf einem Bildschirm vorgelesen haben. Das ist so, als würdest du einen Koch testen, indem du ihm eine schriftliche Einkaufsliste gibst, anstatt ihm zu sagen: „Hey, kauf mir bitte Milch und Brot!"

Das Problem ist: Im echten Leben sprechen wir mit unseren Geräten. Wir sagen: „Fasse dieses Meeting zusammen" oder „Übersetze, was der andere gerade gesagt hat." Wenn wir den Roboter nur mit Text testen, wissen wir nicht, ob er wirklich gut im Hören und Verstehen von Sprache ist.

Hier kommt das neue Projekt DOWIS ins Spiel.

Was ist DOWIS? (Der „Sprach-Testkoffer")

Die Forscher haben einen riesigen Sprach-Testkoffer namens DOWIS („Do What I Say" – „Tu, was ich sage") gebaut.

Stell dir DOWIS wie ein multikulturelles Kochbuch vor, das es in 11 verschiedenen Sprachen gibt (wie Deutsch, Englisch, Spanisch, Russisch usw.). Aber statt Rezepte zu schreiben, haben echte Menschen diese Rezepte aufgezeichnet.

Die Vielfalt: Der Koffer enthält Anweisungen für 9 verschiedene Aufgaben. Das reicht vom einfachen „Schreibe auf, was ich gerade gesagt habe" (Spracherkennung) bis hin zu komplexen Dingen wie „Fasse dieses ganze Gespräch zusammen" oder „Übersetze, was der andere sagt".
Die Stile: Für jede Aufgabe gibt es nicht nur eine Art, sie zu sagen. Es gibt 10 verschiedene Varianten pro Sprache.
- Einmal sehr formell („Ich bitte Sie, dies zu tun...").
- Einmal sehr locker („Hey, kannst du mal das hier machen?").
- Einmal kurz und knapp oder sehr detailliert.
Die Menschen: Echte Muttersprachler haben diese Sätze in ihre Handys gesprochen, genau so, als würden sie in einem echten Meeting mit einem Kollegen reden. Das macht den Test echt, nicht künstlich.

Was haben die Forscher herausgefunden? (Die Überraschung)

Als sie die neuesten und klügsten Sprach-KIs (namens Phi und Qwen) mit diesem neuen DOWIS-Testkoffer prüften, kamen einige überraschende Ergebnisse ans Licht:

1. Der „Text-Trick":
Die KIs schienen auf dem Papier (also bei Texteingaben) viel schlauer zu sein als sie wirklich sind.

Die Analogie: Stell dir vor, du trainierst einen Sportler nur auf dem Laufband im Studio. Er läuft super schnell. Aber wenn du ihn auf eine echte, unebene Waldstraße schickst (die echte Sprache), stolpert er.
Das Ergebnis: Bei Aufgaben, bei denen die KI nur Text zurückgeben muss (z. B. Zusammenfassung), waren sie mit Textanweisungen viel besser als mit Sprachanweisungen. Mit Sprache machten sie oft Fehler oder verstanden gar nichts. Das bedeutet: Wenn wir sie nur mit Text testen, sind wir zu optimistisch!

2. Der „Sprech-Plus"-Effekt:
Es gab aber auch eine gute Nachricht. Bei Aufgaben, bei denen die KI selbst sprechen muss (z. B. „Übersetze das Gesagte in eine andere Sprache und sprich es aus"), waren sie mit Sprachanweisungen genauso gut oder sogar besser.

Die Analogie: Wenn du einem Übersetzer sagst „Übersetze diesen Satz" (Text), ist das okay. Aber wenn du ihm sagst „Hör mir zu und sag mir, was das auf Französisch bedeutet" (Sprache), funktioniert das für die KI in diesem Fall besser, weil der ganze Prozess „Sprache" ist.

3. Der „Höflichkeits-Faktor":
Die Art, wie man die KI anspricht, macht einen Unterschied.

Die Analogie: Stell dir vor, du fragst einen Freund: „Hey, mach mal schnell das hier!" (informell/kurz). Er macht vielleicht Fehler, weil er es eilig hat oder den Kontext nicht versteht. Sagst du aber: „Könntest du bitte sehr genau das hier für mich erledigen?" (formell/detailliert), dann macht er es besser.
Das Ergebnis: Die KIs haben es am schwersten, wenn die Anweisungen zu locker, zu kurz oder zu umgangssprachlich sind. Sie brauchen klare, strukturierte Sätze, um gut zu funktionieren.

4. Der „Stimme-Unterschied":
Interessanterweise reagierten die KIs manchmal unterschiedlich auf Männer- und Frauenstimmen. Das ist wie bei einem alten Radio, das bei bestimmten Frequenzen besser empfängt als bei anderen. Die Forscher fanden heraus, dass die KI nicht unbedingt schlechter hörte, wenn eine Frau sprach, aber sie hatte manchmal eine „Vorliebe" für die eine oder andere Stimme. Das zeigt, dass die KI noch nicht perfekt neutral ist.

Warum ist das wichtig? (Das Fazit)

Bisher haben wir die Sprach-KIs wie einen Schüler getestet, der nur schriftliche Prüfungen macht. DOWIS ist wie die mündliche Prüfung.

Die Studie zeigt uns:

Wir dürfen uns nicht zu sehr auf Text-Tests verlassen, weil sie ein zu schönes Bild von der KI zeichnen.
Echte Sprach-KIs müssen auch mit echten, menschlichen Stimmen, verschiedenen Dialekten und unterschiedlichen Sprechweisen zurechtkommen.
Damit wir in Zukunft wirklich gute Sprach-Assistenten haben, müssen wir sie so testen, wie wir sie auch benutzen: Mit dem Mund, nicht nur mit der Tastatur.

DOWIS ist also das Werkzeug, das uns hilft, diese KI-Modelle ehrlicher und realistischer zu prüfen, damit sie uns im echten Leben wirklich helfen können.

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Was ist DOWIS? (Der „Sprach-Testkoffer")

Was haben die Forscher herausgefunden? (Die Überraschung)

Warum ist das wichtig? (Das Fazit)

1. Problemstellung

2. Methodik und Datensatz (DOWIS)

3. Experimente

4. Wichtige Ergebnisse

A. Text vs. Gesprochene Prompts

B. Einfluss von Prompt-Stilen

C. Sprachliche und demografische Faktoren

5. Bedeutung und Fazit

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Was ist DOWIS? (Der „Sprach-Testkoffer")

Was haben die Forscher herausgefunden? (Die Überraschung)

Warum ist das wichtig? (Das Fazit)

1. Problemstellung

2. Methodik und Datensatz (DOWIS)

3. Experimente

4. Wichtige Ergebnisse

A. Text vs. Gesprochene Prompts

B. Einfluss von Prompt-Stilen

C. Sprachliche und demografische Faktoren

5. Bedeutung und Fazit

Mehr davon

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance