Can ChatGPT Generate Realistic Synthetic System Requirement Specifications? Results of a Case Study

Este estudio de caso demuestra que, aunque es posible generar especificaciones de requisitos de sistema sintéticas y realistas con ChatGPT mediante un enfoque iterativo de patrones de prompts, la evaluación automática basada en modelos de lenguaje no puede sustituir completamente la revisión exhaustiva de expertos debido a errores como contradicciones y alucinaciones.

Alex R. Mattukat, Florian M. Braun, Horst Lichter

Publicado Wed, 11 Ma
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que eres un arquitecto que quiere construir un rascacielos. Para hacerlo, necesitas los planos originales de edificios reales para estudiar cómo se construyen, qué materiales se usan y dónde suelen fallar. Pero, por desgracia, esos planos son secretos de estado: las empresas no te los dejan ver porque son confidenciales o propiedad privada.

¿Qué haces? ¿Abandonas el proyecto? No. Decides dibujar tus propios planos desde cero, intentando que parezcan tan reales que nadie note la diferencia.

Ese es exactamente el desafío que se plantearon los autores de este estudio. Quisieron saber si una Inteligencia Artificial (específicamente ChatGPT) podía inventar "Planos de Requisitos de Sistemas" (documentos que describen cómo debe funcionar un software) que fueran tan convincentes y realistas que pudieran usarse en investigaciones sin necesidad de tener los documentos reales.

Aquí tienes la historia de su experimento, explicada de forma sencilla:

1. El Experimento: La Fábrica de Planos Falsos (pero buenos)

Los investigadores le pidieron a ChatGPT que actuara como un ingeniero de requisitos experto. Le dijeron: "Inventa los planos para un sistema de logística, otro para un banco, otro para un hospital, etc.".

El problema es que las IAs a veces tienen un defecto llamado "alucinación". Es como si un niño muy seguro de sí mismo inventara una historia sobre un dragón que escupe fuego azul, y te lo cuenta con tanta convicción que tú terminas creyéndolo, aunque los dragones no existan. Las IAs hacen lo mismo: inventan datos que suenan muy profesionales pero que son falsos o contradictorios.

Para evitar esto, los investigadores no solo le pidieron a la IA que escribiera, sino que también se autoevaluara. Le dijeron: "Escribe el plano, y luego actúa como un inspector estricto para decirme qué tan realista es lo que acabas de escribir". Lo hicieron esto una y otra vez (10 veces), mejorando las instrucciones cada vez, hasta tener 300 documentos generados en 10 industrias diferentes.

2. La Prueba de Fuego: ¿Engañan a los expertos?

Tener 300 planos generados por una IA es genial, pero... ¿son realmente buenos? Para saberlo, los investigadores hicieron algo muy inteligente: le mostraron una muestra de estos planos a 87 expertos humanos (ingenieros de software reales) y les preguntaron: "¿Esto parece un documento real o parece algo hecho por una máquina?".

El resultado fue una mezcla de sorpresa y precaución:

  • La buena noticia: El 62% de los expertos pensó: "¡Vaya! Esto parece muy real. Podría ser un documento real". La IA logró engañar a la mayoría de las personas con su presentación segura y estructurada.
  • La mala noticia: Cuando los expertos miraron más de cerca (como quien revisa un contrato letra por letra), encontraron agujeros. Había contradicciones (decían una cosa en la página 1 y lo opuesto en la página 10), detalles demasiado vagos o requisitos imposibles (como pedir que un sistema funcione para 15.000 usuarios en su primera semana, algo que ninguna empresa real haría).

3. La Lección: La IA es un gran "Borrador", pero no un "Juez"

El estudio llegó a tres conclusiones clave, que podemos resumir con una analogía culinaria:

  1. La IA es un chef increíble para el "plato principal" (la estructura): Puede crear un menú completo, con entradas, platos fuertes y postres, todo muy bien organizado. Si solo miras el menú, parece un restaurante de lujo.
  2. Pero la IA no sabe de "sabores sutiles" (el contexto real): A veces, el plato fuerte tiene ingredientes que no combinan, o la cantidad de sal es absurda. La IA es muy segura de sí misma al servir el plato, pero no tiene el paladar de un chef experto para detectar esos errores.
  3. No confíes ciegamente en el "sabor" de la IA: Intentar que la IA juzgue su propia comida (medir la "realidad" con números) fue un desastre. La IA a veces decía que su comida era perfecta (9/10) y otras veces que era terrible (4/10) sin razón aparente. Solo un humano experto puede decirte si el plato está realmente bueno.

En resumen

Este estudio nos dice que ChatGPT es una herramienta fantástica para crear borradores de requisitos de software cuando no tenemos acceso a documentos reales. Nos ahorra tiempo y nos da una base sólida para empezar.

Sin embargo, no podemos confiar en ella para decirnos si lo que ha escrito es verdad o no. La IA es como un actor muy talentoso que puede interpretar un papel tan bien que el público llora, pero si el guion tiene un error lógico, el actor no se dará cuenta. Necesitamos a un director (un experto humano) para revisar el guion antes de que se estrene la obra.

La moraleja: Usa la IA para generar ideas y estructuras, pero deja que los expertos humanos sean los que den el "visto bueno" final.