Do What I Say: A Spoken Prompt Dataset for Instruction-Following

本論文は、音声大規模言語モデル(SLLM)の現実的な評価を可能にする多言語・多タスクの音声指示データセット「DoWhatISay (DOWIS)」を提案し、テキスト指示に比べ音声指示の性能が特に低資源言語やクロスリンガル設定で劣る傾向がある一方で、音声出力タスクではその差が縮まることを示した。

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues

公開日 Wed, 11 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI に話しかける新しいテスト方法」**について書かれたものです。

想像してみてください。あなたが新しい料理のレシピを教えるために、AI という優秀な料理人に指示を出そうとしています。これまで、私たちは AI に指示を出すとき、「文字で書かれたレシピ」(テキスト)しか渡していませんでした。しかし、現実の世界では、私たちは AI に**「声で話しかけて」**指示を出すことが多いですよね。「この会議の録音を要約して」とか、「この人の話を翻訳して」といった具合にです。

この研究は、**「文字で指示するのと、声で指示するのでは、AI の能力は本当に同じように発揮されるのか?」**という疑問に答えるために作られました。

以下に、この論文の核心をわかりやすく解説します。

1. 作られたもの:「DOWIS(ドウィス)」という新しいテストセット

研究者たちは、**「DOWIS(Do What I Say)」という新しいデータセットを作りました。
これは、
「11 の言語」「9 つの異なるタスク(翻訳、要約、音声認識など)」に対応した、「人間が実際に録音した音声」「その書き起こしテキスト」**のセットです。

  • どんなもの?
    • 1 つのタスクに対して、「5 つの異なる話し方」(丁寧な言い方、カジュアルな言い方、短く簡潔な言い方など)で、**「10 種類のバリエーション」**を用意しています。
    • 例:「要約して」という指示を、
      • 基本形:「要約してください」
      • カジュアル:「これ、要約してよ」
      • 詳細:「この音声の要点を 3 つにまとめて、簡潔に説明して」
      • といった感じで、人間が実際にスマホやパソコンで録音したものです。

2. 実験の結果:「文字」と「声」の意外なギャップ

最新の AI モデル(Phi-4 や Qwen2.5-Omni など)を使って、この DOWIS でテストを行いました。結果は非常に興味深いものでした。

📝 文字で指示した場合 vs 🗣️ 声で指示した場合

  • 文字で指示すると、AI は「天才」に見える:
    多くのタスク(特に文字を出力するタスク)では、文字で指示を出したほうが、AI の成績が圧倒的に良くなりました。まるで、文字で書かれた指示なら完璧に理解できるのに、**「耳で聞いただけでは、なぜか頭が回らなくなる」**ような状態です。
  • 声で指示すると、AI は「戸惑う」:
    文字で指示を出したときよりも、声で指示を出したほうが成績が大幅に落ちるタスクが多くありました。特に、言語が違ったり、リソースが少ない言語の場合、その差は激しかったです。
    • 例え話: 文字のレシピなら「塩を小さじ 1」を正確に計れますが、声で「塩をちょっと入れて」と言われると、AI は「ちょっと」の量がわからず、失敗してしまうような感じです。

🎤 例外:声で出力するタスクは「声」が得意

ただし、「音声で答えを出すタスク」(例:テキストを音声に変える、ある言語の音声を別の言語の音声に変える)に限っては、**「声で指示しても、文字で指示しても、成績はほぼ同じ」**でした。
これは、AI が「声で話すこと」自体には慣れているため、指示も声で受け取っても大丈夫だということです。

3. 話し方のスタイルも重要

指示の「トーン」も成績に影響しました。

  • フォーマル(丁寧)や詳細な指示: どの言語でも、どの AI でもよく機能しました。
  • カジュアル(くだけた)や短い指示: これが一番難しかったです。「ねえ、これやって」といったような、友達同士の会話のような指示だと、AI は混乱して失敗しやすかったです。

4. なぜこれが重要なのか?

これまでの AI の評価は、ほとんどが「文字での指示」で行われていました。それは、**「文字で書かれたテストしか受けていない学生が、実社会で『口頭での指示』を完璧にこなせるか?」**を評価していないのと同じです。

この研究は、**「文字でのテスト結果は、AI の本当の能力を過大評価している可能性がある」**と警告しています。
私たちが実際に AI を使うとき(会議の録音整理や、リアルタイム翻訳など)は、ほとんどが「声」で指示を出します。もし、声で指示すると AI がバカになってしまうなら、それは実用化には大きな問題です。

まとめ

この論文は、**「AI に『声』で指示するテスト(DOWIS)」を初めて作ったことを報告し、「今の AI は、文字ではすごいけど、声で話しかけると意外と頼りない」**という現実を浮き彫りにしました。

これからは、AI を開発する人たちは、**「文字だけでなく、人間の声のニュアンスや、さまざまな話し方にも耐えられるように」**AI を鍛え直す必要がある、というメッセージが込められています。


一言で言うと:
「AI に『文字』で指示すると天才に見えるけど、実際に『声』で話しかけると、意外とバカっぽくなっちゃうんだって!だから、本当の能力を知るには、声でのテストが必要だよ!」