Do What I Say: A Spoken Prompt Dataset for Instruction-Following

该论文提出了名为 DoWhatISay (DOWIS) 的多语言口语指令数据集,旨在填补语音大模型评估中缺乏真实口语指令的空白,并通过基准测试揭示了文本提示在多数场景下优于口语提示,但在涉及语音输出的任务中口语提示能有效缩小性能差距。

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DoWhatISay (DOWIS) 的新项目,你可以把它想象成给语音大模型(SLLMs)准备的一套"真人录音版考试卷"。

为了让你更容易理解,我们可以用几个生活中的比喻来拆解这篇论文的核心内容:

1. 为什么要搞这个?(背景与痛点)

现状:现在的语音大模型(比如能听懂你说话并回答问题的 AI)发展很快。但是,科学家在测试它们时,通常是用文字来下指令的。
比喻:这就好比你想测试一个同声传译员的能力,但你却只给他看文字稿让他翻译,而不是真的让他听别人说话。这就像是在考游泳冠军,却让他先在陆地上做俯卧撑。虽然俯卧撑做得好,但并不代表他在水里游得好。
问题:现实世界中,我们是直接对着手机说话(“帮我总结这个会议”),而不是打字。如果只用文字测试,就会高估模型在真实语音场景下的能力。而且,现有的语音测试数据要么是用机器合成的(听起来像机器人),要么只支持英语或中文,不够全面。

2. 他们做了什么?(DOWIS 数据集)

解决方案:作者们制作了一个全新的数据集,叫 DOWIS
比喻

  • 真人录音:他们找了 19 位母语人士,像平时打电话一样,用自然的语气录下了各种指令。这就像是给 AI 找了一群“真人考官”,而不是“机器考官”。
  • 多语言多风格:这个数据集覆盖了 11 种语言(如德语、中文、俄语等)和 9 种任务(如语音转文字、翻译、总结会议等)。
  • 五种“说话风格”:他们不仅让考官用“标准普通话”说话,还设计了五种风格:
    • 基础版:像平时聊天。
    • 正式版:像商务会议。
    • 随意版:像跟朋友开玩笑(比如“嘿,帮我把这段音频里的内容写出来”)。
    • 详细版:像写说明书一样啰嗦。
    • 简短版:像发微信一样惜字如金。
    • 比喻:这就像是为了测试一个演员,不仅让他演正剧,还让他演喜剧、悲剧、即兴表演,看看他到底能不能“接得住戏”。

3. 他们发现了什么?(实验结果)

作者用这个新数据集测试了当时最先进的两个语音大模型(Phi-4 和 Qwen2.5-Omni),结果发现了一些有趣的现象:

  • 文字 vs. 语音的“落差”

    • 现象:当任务是输出文字(比如把语音转成文字、翻译)时,用文字指令测试,模型表现很好;但一旦换成真人语音指令,模型就“翻车”了,表现大幅下降。
    • 比喻:这就像是一个学生,让他做“书面数学题”能考 100 分,但如果你让他“听口述题目”再做题,他就懵了,分数直接掉到不及格。这说明之前的“书面考试”太乐观了,掩盖了模型听不懂人话的短板。
    • 例外:只有当任务是输出语音(比如让 AI 说话、语音翻译)时,用语音指令和文字指令的效果才差不多。
  • 说话风格的影响

    • 现象:模型最喜欢正式、详细的指令。最不喜欢随意、简短的指令(比如“嘿,帮个忙”这种)。
    • 比喻:现在的 AI 还像个刚入职的实习生,你越是用礼貌、详细的口吻(“请帮我..."),他越能听懂;如果你太随意(“搞定这个”),他就容易理解错。
  • 语言与性别的差异

    • 模型对某些语言(如捷克语、荷兰语)的语音指令理解能力特别差,哪怕文字指令能懂,语音指令就听不懂。
    • 有趣的是,模型对男声女声的指令反应也不一样,这暗示模型可能存在某种“性别偏见”。

4. 总结与意义

核心结论
这篇论文告诉我们,只靠文字测试语音大模型是不够的。现在的模型在“听人说话”这件事上,其实还有很多缺陷,尤其是在处理非正式、口语化的指令时。

比喻
以前我们以为 AI 已经是个“全能沟通大师”,但 DOWIS 这个数据集就像是一面照妖镜,照出了它在真实语音交流中的“原形”——它可能还是个只会死记硬背的“书呆子”,还没学会像真人一样灵活地听懂各种语气和方言。

未来价值
DOWIS 就像是一个通用的“语音能力测试包”,任何研究者都可以把它套用到自己的 AI 模型上,看看模型到底能不能在真实的语音环境中“听懂人话”。这将帮助开发者改进模型,让它们真正变得像人类一样自然交流。