Can AI Agents Generate Microservices? How Far are We?

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o dono de uma grande cidade (um sistema de software) e precisa construir novos bairros (microserviços) para acomodar mais gente. Antigamente, você precisava de um arquiteto humano para desenhar tudo e uma equipe de pedreiros para construir.

Agora, surgiram os "Agentes de IA". Eles são como robôs superinteligentes que podem ler seus planos e tentar construir esses bairros sozinhos. Mas a pergunta é: eles são bons o suficiente para fazer isso sem errar?

Este artigo é como um "teste de estrada" para ver se esses robôs construtores conseguem entregar obras de qualidade. Aqui está o resumo da história, explicado de forma simples:

1. O Grande Experimento: Duas Formas de Construir

Os pesquisadores testaram os robôs de duas maneiras diferentes, como se fossem dois cenários de construção:

Cenário A: A Reforma (Geração Incremental)
- A Analogia: Imagine que você quer adicionar um novo quarto à sua casa, mas a casa já está pronta, com móveis, encanamento e elétrica instalados. O robô precisa olhar para o que já existe e encaixar o novo quarto perfeitamente, sem quebrar nada.
- O Desafio: O robô precisa entender as regras da casa antiga.
- O Resultado: Foi mais difícil. Os robôs acertaram cerca de 50% a 76% das vezes. Curiosamente, quando os pesquisadores deram menos informações (apenas disseram "construa um quarto"), os robôs foram melhores do que quando receberam manuais gigantes e detalhados. Parece que, às vezes, dar um manual muito longo confunde o robô, e ele prefere explorar a casa por conta própria.
Cenário B: O Terreno Vazio (Geração "Clean State")
- A Analogia: Aqui, você dá ao robô apenas um papel com o que o bairro deve fazer (ex: "precisa ter um banco e uma padaria") e diz: "Construa tudo do zero, sem olhar para nada que já existe".
- O Desafio: O robô precisa inventar a estrutura inteira.
- O Resultado: Surpreendentemente, eles foram muito melhores aqui, acertando entre 81% e 98% das vezes! Por quê? Porque como não havia uma casa antiga para "quebrar", o robô podia construir do jeito que quisesse, desde que o prédio final funcionasse.

2. A Qualidade da Obra

Os pesquisadores olharam para os "prédios" que os robôs construíram e compararam com os feitos por humanos.

Eles são mais simples: Os códigos gerados pelos robôs eram menos complexos (mais fáceis de ler) do que os feitos por humanos.
Mas cuidado: Às vezes, essa simplicidade era perigosa. O robô podia esquecer de colocar um "seguro" (tratamento de erros) porque o código ficou muito limpo. É como um prédio bonito, mas que não tem extintor de incêndio.

3. Velocidade e Custo: Quem é o mais rápido e barato?

Os pesquisadores testaram três "marcas" de robôs (Claude, Codex e Code Qwen):

O Rápido e Barato (Code Qwen): Era o mais econômico e rápido, mas às vezes travava ou precisava de mais ajuda.
O Caro e Detalhista (Claude Code): Era muito bom, mas custava mais caro e gerava códigos muito curtos e diretos.
O Lento e Caro (Codex): Era o mais lento (às vezes levava quase 2 horas para fazer uma tarefa que os outros faziam em 10 minutos) e gerava textos enormes, mas não necessariamente melhores.

A lição: Ter um código longo e detalhado não significa que ele é melhor. Às vezes, o robô mais rápido e barato faz um trabalho tão bom quanto o mais caro.

4. O Problema da "Memória" (Contaminação de Dados)

Os robôs funcionaram muito melhor em projetos famosos da internet (como o "PiggyMetrics" ou "Train-Ticket") do que em projetos privados de estudantes.

A Analogia: É como se o robô tivesse estudado para a prova lendo apenas os livros mais famosos da biblioteca. Quando a prova era sobre um livro novo e obscuro (projetos privados), ele travava. Isso sugere que os robôs estão apenas "decorando" o que já viram na internet, em vez de realmente aprender a construir do zero.

Conclusão Final: Estamos prontos para demitir os arquitetos?

Não ainda.

Os robôs (Agentes de IA) são ferramentas incríveis que podem construir microserviços funcionais e de boa qualidade. Eles são rápidos e, às vezes, até mais simples que os humanos.

Mas, eles ainda precisam de um supervisor humano.

Eles não conseguem garantir que tudo se encaixe perfeitamente em sistemas complexos sem ajuda.
Eles podem esquecer detalhes importantes se o contexto for muito difícil.
A escolha de como pedir a tarefa (o "prompt") faz toda a diferença: às vezes menos informação é melhor, às vezes mais é necessário.

Em resumo: A IA é um excelente estagiário que trabalha rápido e faz códigos limpos, mas você (o arquiteto humano) ainda precisa estar lá para revisar o trabalho, garantir que as regras da cidade sejam seguidas e impedir que o robô derrube a parede que sustenta o prédio. A automação total ainda não chegou, mas estamos muito perto de ter um assistente de construção muito poderoso.

Can AI Agents Generate Microservices? How Far are We?

1. O Grande Experimento: Duas Formas de Construir

2. A Qualidade da Obra

3. Velocidade e Custo: Quem é o mais rápido e barato?

4. O Problema da "Memória" (Contaminação de Dados)

Conclusão Final: Estamos prontos para demitir os arquitetos?

Resumo Técnico: Geração de Microserviços por Agentes de IA

1. Problema e Contexto

2. Metodologia do Estudo

2.1. Configuração Experimental

2.2. Métricas de Avaliação

3. Principais Contribuições

4. Resultados Chave

4.1. Correção Funcional (RQ1)

4.2. Qualidade de Código

4.3. Eficiência (RQ2)

5. Significado e Implicações

Para a Prática

Para a Pesquisa

Conclusão Final

Can AI Agents Generate Microservices? How Far are We?

1. O Grande Experimento: Duas Formas de Construir

2. A Qualidade da Obra

3. Velocidade e Custo: Quem é o mais rápido e barato?

4. O Problema da "Memória" (Contaminação de Dados)

Conclusão Final: Estamos prontos para demitir os arquitetos?

Resumo Técnico: Geração de Microserviços por Agentes de IA

1. Problema e Contexto

2. Metodologia do Estudo

2.1. Configuração Experimental

2.2. Métricas de Avaliação

3. Principais Contribuições

4. Resultados Chave

4.1. Correção Funcional (RQ1)

4.2. Qualidade de Código

4.3. Eficiência (RQ2)

5. Significado e Implicações

Para a Prática

Para a Pesquisa

Conclusão Final

Mais como este

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities