Behaviour Driven Development Scenario Generation with Large Language Models

Este artículo evalúa el rendimiento de GPT-4, Claude 3 y Gemini en la generación automática de escenarios de Desarrollo Dirigido por Comportamientos (BDD) a partir de un conjunto de datos de 500 historias de usuario, revelando que, aunque GPT-4 supera en métricas de similitud, Claude 3 obtiene las mejores calificaciones en evaluación humana y mediante LLM, mientras que la calidad del resultado depende críticamente de la especificidad de los requisitos de entrada y de la configuración de parámetros y técnicas de prompting adecuadas para cada modelo.

Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei

Publicado 2026-03-06
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que construir un software es como construir una casa.

Antes de poner un solo ladrillo, necesitas un plano muy claro. En el mundo del desarrollo de software, ese plano se llama BDD (Desarrollo Guiado por Comportamiento). Es una forma de escribir las reglas de la casa en un lenguaje que tanto los arquitectos (programadores) como los dueños de la casa (clientes) puedan entender. Por ejemplo: "Dado que soy un inquilino, cuando pongo la llave en la cerradura, entonces la puerta se abre".

El problema es que escribir estos planos a mano es lento, aburrido y propenso a errores. A veces, el arquitecto olvida mencionar que la puerta también debe tener una alarma, o el cliente no se da cuenta de que la cerradura no funciona con lluvia.

¿Qué hicieron los autores de este estudio?

Los investigadores (Amila, Mojtaba y Golnoush) se preguntaron: "¿Podemos usar a los 'super-robots' de inteligencia artificial (como GPT-4, Claude 3 y Gemini) para escribir estos planos por nosotros?"

Para averiguarlo, hicieron un experimento gigante:

  1. Recopilaron 500 planos reales de empresas de verdad (no de libros de texto).
  2. Le dieron a tres robots diferentes (GPT-4, Claude 3 y Gemini) la descripción de lo que se necesita y les dijeron: "Escribe el plano de la casa (el escenario BDD)".
  3. Contrataron a expertos humanos (inspectores de calidad) para que revisaran los planos hechos por los robots y les dieran una nota del 1 al 5.

Los Hallazgos Principales (Explicados con Analogías)

Aquí están las conclusiones más importantes, traducidas a un lenguaje sencillo:

1. No todos los robots son iguales (El "Quién gana")

  • GPT-4 es como un copista muy rápido: Escribió textos que se parecían mucho a los originales palabra por palabra, pero a veces le faltaba el "alma" o la lógica profunda.
  • Claude 3 es como el arquitecto más sabio: Aunque sus palabras no eran idénticas a las originales, los expertos humanos y otros robots lo calificaron como el mejor. Entendió mejor la intención y escribió planos más seguros y completos.
  • Gemini fue un poco más lento y menos preciso en este juego.

2. La forma de pedir las cosas importa (El "Cómo pedir")

No basta con decirle al robot "hazlo". Tienes que saber cómo pedirlo:

  • Si le pides a GPT-4 que lo haga sin darle ejemplos (como pedirle a un chef que cocine sin darle la receta), lo hace mejor.
  • Si le pides a Claude 3 que piense paso a paso ("primero haz esto, luego aquello"), mejora un poco.
  • Si le das a Gemini algunos ejemplos de cómo hacerlo antes de pedirle el trabajo nuevo, funciona mucho mejor.
  • Lección: No hay una "receta mágica" única; cada robot necesita un tipo de instrucción diferente.

3. La calidad de los ingredientes es clave (El "Qué le das al robot")

Esto fue lo más sorprendente.

  • Si le das al robot solo una idea vaga (como decir: "Quiero una puerta"), el robot hace un plano malo.
  • Si le das una descripción detallada (como decir: "Quiero una puerta de madera, con cerradura digital, que se abra con huella y que tenga una alarma si alguien intenta forzarla en menos de 5 segundos"), el robot hace un plano excelente, incluso si no le das la idea vaga inicial.
  • Lección: La inteligencia artificial es tan buena como la información que le das. Si le das instrucciones vagas, obtendrás resultados vagos.

4. La "creatividad" no es buena aquí (El "Modo de conducción")

Los robots tienen un botón de "temperatura" (como un termostato).

  • Si lo pones en temperatura alta, el robot se vuelve "creativo" y locamente inventivo (como un conductor borracho que toma decisiones al azar). Esto genera errores.
  • Si lo pones en temperatura cero, el robot se vuelve máquina: hace exactamente lo que se le pide, una y otra vez, sin sorpresas.
  • Lección: Para escribir planos de seguridad, quieres un robot aburrido y predecible, no uno creativo.

5. ¿Quién juzga al robot?

Los investigadores probaron si podían usar a otro robot para calificar a los robots. Resultó que DeepSeek (otro modelo de IA) fue el mejor juez, casi tan bueno como los humanos expertos. Esto es genial porque permite revisar miles de planos automáticamente sin cansar a los humanos.

¿Por qué es importante esto para el mundo real?

Imagina que eres el dueño de una empresa de software. Antes, tenías que esperar días para que tu equipo de control de calidad escribiera todas las pruebas de seguridad. Ahora, con este estudio, sabes que:

  1. Puedes usar Claude 3 o GPT-4 para escribir esos planos en segundos.
  2. Pero tienes que escribir descripciones muy detalladas de lo que quieres.
  3. Debes configurar al robot para que sea predecible (sin creatividad).
  4. Y puedes usar a otro robot para revisar el trabajo antes de que lo vea un humano.

En resumen: La inteligencia artificial ya es lo suficientemente madura para ayudar a construir software de alta calidad, pero no es un "botón mágico". Necesitas ser un buen "capitán" que le dé instrucciones claras, precisas y detalladas para que el robot haga un trabajo excelente.