Behaviour Driven Development Scenario Generation with Large Language Models

Este artigo avalia o desempenho de três modelos de linguagem (GPT-4, Claude 3 e Gemini) na geração automática de cenários de Desenvolvimento Orientado a Comportamento (BDD) a partir de um conjunto de dados de 500 histórias de usuário, revelando que, embora o GPT-4 apresente maior similaridade textual, o Claude 3 produz cenários de maior qualidade segundo especialistas humanos e avaliadores de IA, além de identificar que a qualidade da entrada, técnicas de *prompting* específicas e configurações de temperatura zero são determinantes para o sucesso da geração.

Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei

Publicado 2026-03-06
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo uma casa muito complexa. No mundo do desenvolvimento de software, essa "casa" é o aplicativo ou sistema que as pessoas usam todos os dias. Para garantir que a casa não desabe e que todas as portas abram corretamente, você precisa de um manual de instruções de teste muito detalhado.

No passado, escrever esse manual era como tentar desenhar um mapa do tesouro à mão, sem GPS. Era lento, cansativo e dependia totalmente da experiência do desenhista. Se ele esquecesse um detalhe (como "a porta só abre se a chave for girada duas vezes"), a casa poderia ter um defeito grave.

Este artigo é sobre como a Inteligência Artificial (IA) pode ajudar a escrever esses manuais de teste automaticamente, de forma rápida e precisa.

Aqui está a explicação do estudo, traduzida para uma linguagem simples e cheia de analogias:

1. O Problema: O "Chef" Cansado

No desenvolvimento de software, existe uma técnica chamada BDD (Desenvolvimento Orientado a Comportamento). Pense nela como uma conversa entre o cliente (que quer a casa), o arquiteto e o pedreiro para definir exatamente como a casa deve funcionar.

O problema é que transformar essa conversa em um "manual de teste" (chamado de cenário BDD) é trabalhoso.

  • O cenário antigo: Uma pessoa (o "Chef") pega uma ideia vaga ("Quero uma porta que abre com a voz") e tenta escrever 20 regras diferentes para testar se isso funciona. Isso demora horas e, às vezes, o Chef esquece de testar o que acontece se a voz estiver rouca ou se houver barulho de fundo.

2. A Solução: Três "Assistentes de IA"

Os pesquisadores pegaram três super-IA famosas (GPT-4, Claude 3 e Gemini) e perguntaram: "Vocês conseguem escrever esses manuais de teste sozinhos?"

Eles deram para as IAs 500 pedidos reais de clientes (chamados de "histórias de usuário") e viram o que elas produziam.

3. Quem foi o Vencedor? (O Resultado Surpreendente)

Aqui está a parte mais interessante, que quebra alguns mitos:

  • O "Copista" Perfeito (GPT-4): Se você mede apenas por "quantas palavras parecidas" a IA escreveu em relação ao manual original, o GPT-4 ganha. Ele é ótimo em copiar o estilo e a estrutura.
  • O "Especialista Humano" (Claude 3): Mas, quando especialistas reais (pessoas de verdade com anos de experiência) leram os manuais, eles disseram: "O do Claude 3 é o melhor!". Ele entendeu a intenção por trás do pedido melhor do que os outros.
  • O "Aprendiz" (Gemini): O Gemini precisou de mais ajuda para se sair bem.

A Lição: Às vezes, quem parece mais parecido com o original (GPT-4) não é necessariamente quem entende melhor o problema (Claude 3).

4. O Segredo do Chef: Como Dar as Instruções (Prompting)

Não basta apenas pedir para a IA. Você precisa saber como pedir. O estudo descobriu que cada IA gosta de um tipo diferente de instrução, como cozinheiros diferentes:

  • GPT-4: Gosta de instruções diretas. Você diz: "Faça o teste para a porta de voz" e ele faz. Não precisa de exemplos. É o "mestre que não precisa de receitas".
  • Claude 3: Gosta de pensar passo a passo. Você deve pedir: "Primeiro pense nos problemas, depois nos passos, depois escreva o teste". Isso melhora muito o resultado.
  • Gemini: Gosta de ver exemplos. Você precisa mostrar: "Aqui está um exemplo de um teste de porta. Agora faça um para a janela". Ele aprende copiando o modelo.

5. O Ingrediente Principal: A Qualidade da Receita

Este é talvez o ponto mais importante do estudo. A qualidade do manual de teste gerado pela IA depende 100% da qualidade do que você dá a ela para ler.

  • Cenário Ruim: Você dá apenas uma frase vaga: "Quero uma porta que abre com a voz".
    • Resultado: A IA gera um manual fraco, cheio de falhas. É como tentar cozinhar um banquete com apenas um ovo.
  • Cenário Bom: Você dá detalhes técnicos: "A porta deve abrir com a voz, mas se a pessoa estiver com gripe, deve pedir um PIN. Se o microfone estiver desligado, deve avisar. O tempo limite é de 5 segundos."
    • Resultado: Mesmo que você dê apenas esses detalhes técnicos (sem a frase inicial), a IA gera um manual de teste excelente.

Conclusão: A IA não é mágica; ela é um espelho. Se você der informações ruins, ela devolve resultados ruins. Se você der detalhes ricos, ela brilha.

6. O "Botão de Aleatoriedade"

As IAs têm um botão chamado "Temperatura".

  • Temperatura Alta: A IA fica criativa e inventa coisas novas (mas pode errar).
  • Temperatura Zero: A IA fica focada e faz exatamente o que é pedido, sem surpresas.

O estudo descobriu que, para escrever manuais de teste, o botão deve estar sempre em Zero. Você quer precisão, não criatividade. Quer que a porta abra exatamente como foi planejado, não que a IA invente que a porta voa.

Resumo Final para Leigos

Imagine que você quer contratar um estagiário superinteligente para escrever regras de segurança para sua empresa.

  1. Escolha o estagierto certo: O Claude 3 parece ser o mais sensato e entende melhor o negócio.
  2. Dê as instruções certas: Se for o GPT-4, seja direto. Se for o Claude, peça para ele pensar antes de agir. Se for o Gemini, mostre exemplos.
  3. Forneça os dados: Não espere que a IA adivinhe os detalhes. Escreva os requisitos técnicos com clareza. Se você der apenas uma ideia vaga, o resultado será ruim.
  4. Use o modo "Foco Total": Desligue a criatividade da IA (temperatura zero) para garantir que as regras sejam consistentes e seguras.

Este estudo nos diz que a IA já está pronta para ajudar os testadores de software, mas precisamos saber como usá-la: com bons dados, as instruções certas e o modelo adequado.