Do What I Say: A Spoken Prompt Dataset for Instruction-Following

O artigo apresenta o conjunto de dados multilíngue "DoWhatISay" (DOWIS), composto por prompts falados e escritos para avaliar modelos de linguagem de fala, revelando que os prompts textuais superam consistentemente os falados, exceto em tarefas com saída de áudio, onde a diferença diminui.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues

Publicado Wed, 11 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você construiu um robô superinteligente, um "cérebro falante" capaz de entender o que você diz e fazer tarefas incríveis, como traduzir idiomas, resumir reuniões ou escrever textos. Você testou esse robô dando ordens por escrito (digitando no teclado) e ele parecia um gênio, acertando tudo.

Mas e se, na vida real, as pessoas não digitam para o robô? E se elas falam com ele? Será que o robô continua sendo um gênio quando ouve a voz humana, com seus sotaques, pausas e gírias?

É exatamente sobre isso que trata o artigo "Do What I Say" (Faça o que eu digo). Os pesquisadores criaram um novo "campo de provas" para testar esses robôs falantes de verdade.

Aqui está a explicação do que eles fizeram, usando analogias simples:

1. O Problema: O Teste de "Boca Fechada"

Até hoje, a maioria dos testes para esses robôs era feita como se fosse um teste de matemática escrito. Você escreve a pergunta, o robô responde.

  • A Analogia: Imagine que você quer testar um piloto de avião. Você o coloca em uma cadeira de escritório, na frente de uma tela, e pergunta: "Como você pilotaria em uma tempestade?". Ele responde perfeitamente no papel. Mas, na vida real, ele precisa estar no cockpit, ouvindo o vento, sentindo a turbulência e falando com a torre de controle.
  • O Erro: Os pesquisadores descobriram que os robôs atuais são ótimos quando recebem ordens escritas, mas muitas vezes "travam" ou fazem besteira quando recebem as mesmas ordens faladas. O teste escrito estava dando uma nota de 10, mas na vida real, a nota poderia ser 4.

2. A Solução: O "DOWIS" (O Kit de Instruções Faladas)

Para consertar isso, eles criaram o DOWIS (Do What I Say). Pense nele como um grande livro de receitas de voz gravado por humanos reais.

  • O que tem nele? Eles gravaram pessoas reais falando em 11 idiomas diferentes (como português, alemão, russo, etc.).
  • A Variedade: Eles não gravaram apenas uma frase. Para cada tarefa, eles gravaram 10 versões diferentes da mesma ordem, variando o "estilo":
    • Formal: "Por favor, poderia resumir este áudio?" (Como um chefe falando).
    • Informal: "Ei, resume esse áudio pra mim?" (Como um amigo falando).
    • Curto: "Resuma."
    • Detalhado: "Analise o áudio, pegue os pontos principais e faça um resumo de 3 linhas."
  • O Objetivo: Eles queriam ver se o robô entende melhor quando você é educado, quando é rápido, ou quando fala com sotaque.

3. O Que Eles Descobriram (As Surpresas)

Quando eles testaram dois dos robôs mais modernos do mundo (chamados Qwen e Phi) usando esse novo kit de vozes, as descobertas foram interessantes:

  • O "Choque de Realidade" para Tarefas de Texto:
    Quando a tarefa era escrever algo (como traduzir um texto ou resumir uma história), o robô funcionava muito bem com ordens escritas, mas desmoronava com ordens faladas.

    • Analogia: É como se o robô fosse um chef de cozinha que cozinha perfeitamente seguindo um livro de receitas, mas se você gritar as instruções para ele na cozinha barulhenta, ele esquece de colocar o sal ou queima o prato.
  • O Sucesso para Tarefas de Voz:
    Quando a tarefa era falar (como transformar texto em voz ou traduzir uma voz para outra voz), o robô funcionou bem tanto com ordens escritas quanto faladas.

    • Analogia: Se você pede para o robô "cantar uma música", ele canta bem, seja você quem pede no papel ou gritando no microfone.
  • O Estilo Importa:
    Eles descobriram que ordens muito informais ou muito curtas ("Ei, faz isso") tendiam a confundir mais o robô do que ordens claras e detalhadas.

    • Analogia: Se você der uma ordem vaga para um estagiário, ele pode errar. Se você der uma ordem clara e educada, ele acerta. Os robôs são parecidos: precisam de clareza.
  • A Voz do Falante:
    Curiosamente, em alguns casos, o robô entendia melhor a voz de mulheres do que de homens, ou vice-versa, dependendo da tarefa. Isso mostra que os robôs ainda têm "vícios" ou preconceitos sobre como as vozes soam.

4. Por que isso é importante?

O artigo conclui que, se continuarmos testando esses robôs apenas com texto, estamos criando uma ilusão de competência. Estamos achando que eles são melhores do que realmente são.

O DOWIS é como um "espelho da realidade". Ele força os desenvolvedores a olharem para os robôs e dizerem: "Ok, você é ótimo no papel, mas consegue me entender quando eu estou falando rápido, com sotaque e usando gírias?".

Resumo da Ópera:
Os pesquisadores criaram um banco de dados de vozes humanas reais para testar se os robôs de IA conseguem entender o que as pessoas dizem de verdade. Eles descobriram que, embora os robôs sejam inteligentes, eles ainda têm dificuldade em seguir ordens faladas para tarefas que exigem escrita, e que o jeito como falamos (formal ou informal) faz toda a diferença. É um passo essencial para que, no futuro, possamos conversar com nossos assistentes de IA de forma natural, sem precisar digitar nada.