Can ChatGPT Generate Realistic Synthetic System Requirement Specifications? Results of a Case Study

Este estudo de caso demonstra que é possível gerar especificações de requisitos de sistema sintéticas e realistas com o ChatGPT sem acesso a dados reais, embora a avaliação automática por LLMs não substitua completamente a necessidade de uma avaliação expert devido a contradições e deficiências identificadas.

Alex R. Mattukat, Florian M. Braun, Horst Lichter

Publicado Wed, 11 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um cozinheiro que quer criar um livro de receitas para ensinar outros chefs a cozinhar pratos complexos. O problema é que você não tem acesso às receitas originais e secretas dos melhores restaurantes do mundo (por questões de sigilo ou porque elas são privadas).

A pergunta que os autores deste estudo se fizeram foi: "Será que podemos usar uma inteligência artificial (como o ChatGPT) para inventar receitas que pareçam tão reais e profissionais que ninguém note a diferença?"

Aqui está a explicação do estudo, traduzida para uma linguagem simples e cheia de analogias:

1. O Desafio: A Escassez de "Receitas Reais"

No mundo do desenvolvimento de software, os engenheiros precisam de documentos chamados "Especificações de Requisitos do Sistema" (SyRS). Pense neles como os blueprints ou as receitas detalhadas de como um software deve funcionar.

  • O Problema: Esses documentos reais são difíceis de conseguir para pesquisas porque as empresas os tratam como segredos industriais.
  • A Solução Tentada: Criar "Especificações Sintéticas" (SSyRS), ou seja, receitas falsas, mas que pareçam reais, geradas por uma IA.

2. A Ferramenta: O "Chef Robô" (ChatGPT)

Os pesquisadores usaram o ChatGPT como se fosse um chef robô muito talentoso, mas com um defeito grave: ele é um pouco alucinado e muito confiante.

  • A Alucinação: O robô pode inventar ingredientes que não existem ou dizer que um prato fica pronto em 5 minutos quando leva 5 horas. Ele sabe que está inventando, mas age como se fosse verdade absoluta.
  • O Conflito: Como o robô foi treinado na internet (onde há muita informação superficial), ele pode não saber os detalhes técnicos profundos de indústrias específicas (como saúde ou finanças).

3. O Experimento: A Cozinha de Testes

Os pesquisadores decidiram testar se conseguiam fazer esse "chef robô" criar 300 receitas (especificações) para 10 indústrias diferentes (como e-commerce, saúde, logística, etc.), sem mostrar a ele nenhuma receita real de referência.

Eles usaram um método de tentativa e erro:

  1. Pediram ao robô para criar uma receita.
  2. Pediram ao próprio robô (ou a outro modelo) para avaliar se a receita parecia real e completa.
  3. Se a receita tivesse erros, eles ajustavam as instruções (o "prompt") e tentavam de novo.
  4. Repetiram isso 10 vezes até ficarem satisfeitos.

O Resultado da Cozinha: Eles conseguiram criar 300 documentos que, à primeira vista, pareciam muito bem estruturados e profissionais.

4. O Grande Teste: O Juri de Especialistas

Agora vinha a parte difícil: Será que um chef humano de verdade acharia essas receitas boas?
Eles enviaram uma amostra dessas receitas geradas por IA para 87 especialistas reais (engenheiros de software experientes) e pediram para eles darem uma nota de "Realista" a "Artificial".

O Veredito dos Humanos:

  • A Surpresa: Cerca de 62% dos especialistas disseram: "Parece real! Parece algo que poderíamos usar".
  • A Pegadinha: Quando os especialistas leram com mais atenção (como quem lê uma receita e percebe que falta sal ou que o tempo de forno está errado), eles encontraram muitos problemas:
    • Contradições (a receita diz para usar forno a gás, mas o prato exige forno elétrico).
    • Falta de detalhes técnicos importantes.
    • Frases genéricas que soam como "jargão de marketing" em vez de engenharia real.

5. As Lições Aprendidas (O que isso significa para nós?)

O estudo chegou a três conclusões principais, que podemos resumir assim:

  • A IA é ótima para a "embalagem", mas ruim para o "conteúdo": O ChatGPT consegue criar documentos que têm a estrutura perfeita, o formato certo e a linguagem correta. É como um pacote de presente lindo. Mas, se você abrir o pacote, pode achar que o presente é de mentira.
  • Não confie na IA para julgar a própria IA: Quando os pesquisadores pediram para a IA avaliar se o texto dela era real, os resultados foram inconsistentes. Às vezes a IA dizia que era 90% real, outras vezes 40%. É como pedir para um aluno corrigir a prova dele mesmo: ele tende a ser muito generoso ou muito confuso.
  • O "Efeito de Confiança Excessiva": A IA escreve com tanta certeza e estrutura que engana até os especialistas. Ela faz você pensar: "Isso parece tão bem organizado que deve ser verdade", mesmo quando contém erros lógicos.

Conclusão Final

O ChatGPT é uma ferramenta poderosa para gerar rascunhos iniciais de especificações de software. Ele pode ajudar a criar a base, o esqueleto do documento.

Porém, a IA não substitui o especialista humano.
Para que essas "receitas sintéticas" sejam realmente úteis e seguras, um humano experiente precisa revisar tudo, corrigir os erros, preencher as lacunas e garantir que o que está escrito faz sentido no mundo real.

Em resumo: Você pode usar a IA para escrever o primeiro rascunho de um contrato ou de um plano de engenharia, mas nunca assine ou construa nada baseado apenas no que a IA disse sem uma revisão humana cuidadosa. A IA é um ótimo estagiário criativo, mas ainda não é o Chefe de Cozinha.