Class Model Generation from Requirements using Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um arquiteto de software. O seu trabalho é transformar ideias vagas e conversas informais (como "eu quero um sistema que gerencie pacotes") em desenhos técnicos precisos e complexos, chamados Diagramas de Classes UML. Tradicionalmente, fazer isso manualmente é como desenhar a planta de um arranha-céu à mão, exigindo anos de estudo e muita paciência. Um erro de cálculo pode fazer o prédio inteiro desmoronar (ou o software falhar).

Este artigo é como uma história sobre como a Inteligência Artificial (IA) está entrando nessa sala de desenho para ajudar, e como os pesquisadores decidiram testar se ela realmente sabe o que está fazendo.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Grande Desafio: Transformar Texto em Desenho

Os pesquisadores pegaram várias histórias e requisitos escritos em linguagem comum (como "O usuário deve poder logar") e pediram para quatro "cérebros" de IA diferentes (chamados GPT-5, Claude, Gemini e Llama) desenharem o plano técnico desses sistemas.

A Analogia: Pense nisso como pedir para quatro chefs diferentes lerem um pedido de um cliente ("Quero uma pizza com queijo e tomate, mas sem azeitona") e tentarem desenhar a receita exata e o formato da pizza no papel. O objetivo era ver quem desenhava a receita mais correta.

2. O Problema do "Juiz": Quem avalia quem?

Aqui está a parte mais inteligente do estudo. Como saber se o desenho feito pela IA está bom? Normalmente, você precisa de um especialista humano para olhar e dizer "Isso está certo". Mas especialistas são caros e demorados.

Então, os pesquisadores tiveram uma ideia ousada: E se a própria IA julgasse a outra IA?

A Analogia: Imagine um concurso de culinária onde os chefs não são julgados por um mestre chef humano, mas por dois outros robôs superinteligentes. Esses robôs-juízes olham os desenhos das receitas e dizem: "A receita do Chef A está mais completa e lógica que a do Chef B".
O Teste: Eles usaram dois robôs-juízes (Grok e Mistral) para comparar os desenhos feitos pelos quatro chefs (os modelos geradores). Eles perguntaram: "Qual desenho está mais perto da realidade?"

3. O Resultado: A IA consegue desenhar e julgar?

Os resultados foram surpreendentes:

Desenhando: A IA conseguiu criar desenhos técnicos que faziam muito sentido. O "Chef" GPT-5 foi o grande vencedor, criando planos que eram estruturalmente sólidos e cobriam bem as necessidades do cliente.
Julgando: Os robôs-juízes concordaram muito entre si! Quando um disse que o desenho do GPT-5 era o melhor, o outro também disse. Eles tinham uma "visão de dupla" muito alinhada.
A Comparação com Humanos: Para ter certeza, eles trouxeram dois arquitetos humanos reais para julgar os desenhos. Adivinhe? Os robôs-juízes e os humanos concordaram em grande parte! Os robôs não estavam apenas "chutando"; eles estavam entendendo a lógica do desenho quase tão bem quanto um humano experiente.

4. Onde a IA ainda tropeça?

Nem tudo é perfeito. Assim como um aluno novo na faculdade, a IA às vezes se confunde em situações muito complexas ou específicas (como sistemas médicos ou de controle de voo).

A Analogia: Se você pedir para a IA desenhar a planta de uma casa simples, ela acerta. Mas se você pedir a planta de um hospital com regras de segurança estritas, ela pode esquecer de colocar uma porta de emergência ou confundir onde fica a sala de cirurgia. Nessas situações, o olhar humano ainda é essencial para o "aprovado final".

5. A Conclusão: Uma Parceria Humano-Máquina

O estudo não diz que a IA vai substituir os engenheiros de software. Pelo contrário, ele mostra que a IA é uma assistente incrível.

O Futuro: Imagine um fluxo de trabalho onde a IA faz o "trabalho pesado" inicial: ela lê o pedido, desenha o esboço do sistema e até faz uma primeira revisão crítica. Depois, o engenheiro humano olha, ajusta os detalhes finos e dá o "ok" final.
A Metáfora Final: É como ter um estagiário superinteligente que trabalha 24 horas por dia, desenhando 100 plantas por dia e dizendo "Olhe, esta aqui parece errada, a porta está no lugar errado". O engenheiro humano então foca apenas em corrigir os erros e garantir que tudo esteja perfeito.

Resumo em uma frase:
Este papel prova que a Inteligência Artificial não só consegue transformar ideias em desenhos técnicos complexos, mas também consegue avaliar a qualidade desses desenhos quase tão bem quanto um humano, abrindo caminho para um futuro onde humanos e máquinas trabalham juntos para construir software mais rápido e com menos erros.

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo "Class Model Generation from Requirements using Large Language Models", apresentado em português:

Título: Geração de Modelos de Classe a partir de Requisitos usando Grandes Modelos de Linguagem (LLMs)

1. Problema Investigado

A engenharia de requisitos e o design de software dependem criticamente de modelos gráficos, como Diagramas de Classes UML, para visualizar e comunicar a estrutura do sistema. No entanto, a criação manual desses diagramas a partir de requisitos em linguagem natural (NL) é:

Intensiva em recursos: Requer esforço significativo e expertise especializada.
Sujeita a erros: Pode levar a mal-entendidos entre engenheiros de requisitos e partes interessadas devido à complexidade do domínio.
Limitada na automação: Tentativas anteriores de automação baseadas em NLP (Processamento de Linguagem Natural) tradicional careciam de flexibilidade para generalizar interações em domínios especializados.

Além disso, a avaliação automática desses modelos gerados é um desafio, especialmente na ausência de um "modelo de verdade" (ground truth) para comparação. O artigo busca responder duas perguntas fundamentais:

LLMs podem gerar diagramas UML de alta qualidade a partir de requisitos?
LLMs podem avaliar e distinguir a qualidade desses diagramas de forma confiável (atuando como "juízes")?

2. Metodologia

O estudo adotou uma abordagem de validação dual (dupla), combinando a metodologia "LLM como Juiz" (LLM-as-a-Judge) com avaliação humana (Human-in-the-Loop).

Modelos Generativos (Geradores): Foram testados quatro LLMs de última geração:
- GPT-5 (ChatGPT)
- Claude Sonnet 4.0
- Gemini 2.5 Flash Thinking
- Llama-3.1-8B-Instruct
Conjunto de Dados: Utilizaram-se 8 conjuntos de dados heterogêneos de requisitos reais, cobrindo domínios variados (ex: Gestão de Dados, Reciclagem, Saúde, Sistemas Ciber-físicos, Dispositivos Médicos como Marcapassos). Os requisitos incluíram "User Stories" e requisitos do tipo "shall".
Processo de Geração:
- Utilizou-se Prompting de Cadeia de Pensamento (Chain-of-Thought) para instruir os modelos a extrair entidades, atributos, associações e multiplicidades passo a passo.
- A saída foi gerada em PlantUML (texto), garantindo uma estrutura estrita (pacotes, classes, interfaces, herança).
Processo de Avaliação:
- Juízes LLM: Dois modelos independentes (Grok e Mistral Small 3.1) foram usados para realizar comparações pareadas (pairwise) entre os diagramas gerados.
- Critérios de Qualidade: A avaliação baseou-se em 5 dimensões:
  1. Completude (cobertura dos requisitos).
  2. Correção (lógica e comportamento).
  3. Conformidade com Padrões (sintaxe UML/PlantUML).
  4. Compreensibilidade (clareza para stakeholders).
  5. Alinhamento Terminológico (uso consistente dos termos dos requisitos).
- Validação Humana: Dois especialistas em engenharia de software avaliaram os melhores resultados (GPT-5) usando a mesma rubrica de 1 a 5 pontos.
Análise Estatística:
- Correlação de Spearman ( $\rho$ ): Para medir a concordância na ordenação dos modelos.
- Coeficiente Kappa de Cohen ( $\kappa$ ): Para medir a concordância categórica (aceitável vs. inaceitável).
- Tamanho do Efeito (Cohen's d): Para quantificar a magnitude das diferenças nas pontuações.
- Testes de Significância: Teste de Wilcoxon para verificar se as pontuações superaram o nível neutro (3).

3. Principais Contribuições

Framework de Validação Dual: Propõe um método robusto que integra juízes de IA com avaliação humana para validar a geração de modelos sem a necessidade de um ground truth pré-existente.
Análise Comparativa de LLMs: Oferece uma avaliação empírica detalhada de modelos de ponta (incluindo versões futuras hipotéticas como GPT-5 e Claude 4.0) na tarefa específica de engenharia de software.
Validação de "LLM como Juiz": Demonstra que LLMs podem não apenas gerar, mas também avaliar criticamente artefatos de engenharia de software com um nível de concordância substancial com especialistas humanos.
Conjunto de Dados e Artefatos: Disponibiliza dados e prompts estruturados para a comunidade de pesquisa em Engenharia de Requisitos e IA Generativa.

4. Resultados

Desempenho na Geração (RQ1):
- O GPT-5 destacou-se consistentemente como o melhor gerador, produzindo diagramas estruturalmente coerentes e semanticamente significativos.
- O Claude ficou em segundo lugar, seguido pelo Gemini e Llama.
- Os modelos conseguiram extrair conceitos de domínio com sucesso, embora tenham apresentado erros em associações complexas e multiplicidades em domínios altamente específicos (ex: Marcapassos).
Confiabilidade da Avaliação (RQ1):
- Os dois juízes LLM (Grok e Mistral) apresentaram alta concordância na ordenação dos modelos (Correlação de Spearman $\rho$ entre 0.8 e 1.0 em 7 dos 8 conjuntos de dados).
- O coeficiente Kappa entre os juízes foi de 0.773, indicando concordância substancial.
Alinhamento Humano-IA (RQ2):
- A avaliação humana validou que os diagramas do GPT-5 superaram significativamente o nível "aceitável" em todos os critérios.
- Houve uma forte concordância entre os juízes LLM e os avaliadores humanos (Kappa de 0.722 entre o consenso dos LLMs e os humanos).
- As médias de pontuação foram muito próximas, embora os LLMs tendessem a ser ligeiramente mais generosos em critérios como "Completude" e "Correção".
- Critérios subjetivos como "Compreensibilidade" e "Alinhamento Terminológico" apresentaram maiores variações (efeito de tamanho maior), indicando que a interpretação humana ainda possui nuances que os modelos podem não capturar totalmente.

5. Significado e Conclusão

O estudo conclui que os LLMs são ferramentas viáveis e eficazes para automatizar a geração e a avaliação inicial de diagramas de classes UML a partir de requisitos em linguagem natural.

Colaboração Humano-AI: O trabalho sugere um fluxo de trabalho híbrido onde os LLMs realizam a geração e a triagem inicial, enquanto a expertise humana é aplicada para validação final em modelos complexos ou de domínio intensivo.
Impacto na Engenharia de Requisitos: A capacidade de usar LLMs como avaliadores confiáveis reduz a carga cognitiva e o tempo de revisão, tornando a engenharia de requisitos mais acessível e escalável.
Limitações e Futuro: A complexidade de domínios específicos ainda representa um desafio. Trabalhos futuros devem explorar técnicas como Retrieval-Augmented Generation (RAG) e expandir a diversidade de conjuntos de dados e modelos testados.

Em suma, o artigo fornece evidências empíricas sólidas de que a automação baseada em LLMs pode transformar a fase de modelagem de software, desde que integrada em um framework de validação rigoroso.

Class Model Generation from Requirements using Large Language Models

1. O Grande Desafio: Transformar Texto em Desenho

2. O Problema do "Juiz": Quem avalia quem?

3. O Resultado: A IA consegue desenhar e julgar?

4. Onde a IA ainda tropeça?

5. A Conclusão: Uma Parceria Humano-Máquina

Título: Geração de Modelos de Classe a partir de Requisitos usando Grandes Modelos de Linguagem (LLMs)

1. Problema Investigado

2. Metodologia

3. Principais Contribuições

4. Resultados

5. Significado e Conclusão

Mais como este

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities