Beyond Functional Correctness: Design Issues in AI IDE-Generated Large-Scale Projects

Este estudo avalia a capacidade da ferramenta Cursor, auxiliada pelo framework FD-HITL, em gerar projetos de software de grande escala funcionalmente corretos, revelando que, embora atinjam uma taxa de correção funcional de 91%, os sistemas gerados apresentam inúmeros problemas de design que comprometem a manutenibilidade e violam princípios fundamentais de engenharia de software.

Autores originais: Syed Mohammad Kashif, Ruiyin Li, Peng Liang, Amjed Tahir, Qiong Feng, Zengyang Li, Mojtaba Shahin

Publicado 2026-04-09✓ Author reviewed
📖 5 min de leitura🧠 Leitura aprofundada

Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Each language version is independently generated for its own context, not a direct translation.

Imagine que você decidiu construir uma cidade inteira usando um assistente de construção superinteligente, um robô que sabe tudo sobre arquitetura e engenharia. Você dá a ele um plano simples: "Construa uma cidade com prédios, ruas e lojas". O robô trabalha a noite toda e, de manhã, você tem uma cidade pronta! As luzes acendem, as portas abrem e as pessoas podem entrar. Parece mágico, não é?

Mas, se você começar a andar pelas ruas dessa cidade, vai notar algumas coisas estranhas. Alguns prédios têm paredes duplas desnecessárias (como se o robô tivesse esquecido de apagar o esboço). Outros têm escadas que levam a lugar nenhum, ou salas tão grandes e bagunçadas que é difícil encontrar a saída. A cidade funciona, mas é um caos para manter ou expandir no futuro.

É exatamente isso que este estudo descobriu sobre os novos "IDEs com Inteligência Artificial", como o Cursor.

O Que os Pesquisadores Fizeram?

Os autores deste estudo (um grupo de cientistas de computação da China, Nova Zelândia e Austrália) queriam testar até onde esses robôs programadores conseguiam ir. Eles não pediram apenas um "códigozinho" (como um botão de login), mas sim 10 projetos de software grandes e complexos, como:

  • Um aplicativo de rede social (como um mini-Facebook).
  • Um sistema de gestão escolar.
  • Uma loja online completa.
  • Ferramentas de utilidade.

Eles usaram uma técnica especial chamada FD-HITL. Pense nisso como dar ao robô um "manual de instruções" muito detalhado, em vez de apenas um comando vago. Eles disseram: "Primeiro, vamos planejar a estrutura. Depois, vamos construir o banco de dados. Agora, vamos fazer o fundo da tela. Teste cada parte antes de seguir para a próxima."

O Que Eles Descobriram?

1. O Robô é Rápido e Funcional (Mas não Perfeito)

Com o "manual de instruções" certo, o Cursor conseguiu construir cidades inteiras!

  • Tamanho: Os projetos gerados eram enormes, com uma média de 17.000 linhas de código e 114 arquivos cada.
  • Funcionamento: Cerca de 91% do que foi pedido funcionava. As luzes acendiam, as portas abriam. O robô conseguiu fazer o trabalho básico muito bem.

2. O Problema: A "Cidade" Tem Muitos Defeitos de Projeto

Aqui está a parte importante: embora a cidade funcione, ela foi construída com muitos defeitos de engenharia. Os pesquisadores usaram dois "inspetores de qualidade" (ferramentas chamadas CodeScene e SonarQube) para varrer o código e encontraram mais de 4.000 problemas de design.

Aqui estão os principais "defeitos de construção" encontrados:

  • Cópia e Cola Excessiva (Duplicação de Código):

    • Analogia: É como se o robô construísse 10 casas idênticas, mas em vez de usar um molde, ele construiu cada uma do zero, tijolo por tijolo, repetindo o mesmo trabalho. Se você precisar pintar todas as casas de azul, terá que pintar 10 vezes o mesmo trabalho.
    • O que significa: O código é repetitivo e difícil de manter. Se houver um erro, você precisa corrigir em 10 lugares diferentes.
  • Salas Gigantes e Confusas (Métodos Grandes e Complexos):

    • Analogia: Imagine um único cômodo que serve como cozinha, quarto, banheiro e sala de estar ao mesmo tempo, com móveis empilhados de forma caótica. É difícil saber onde começar a limpar.
    • O que significa: O robô escreveu funções de código gigantescas que fazem tudo de uma vez. Isso viola o princípio de "fazer uma coisa só bem feita". É difícil de testar e fácil de quebrar.
  • Regras de Construção Ignoradas (Violação de Melhores Práticas):

    • Analogia: O robô construiu uma escada sem corrimão ou usou cimento que não é permitido em prédios altos.
    • O que significa: O código não segue as regras modernas de segurança e organização (como tratar erros de forma correta ou validar dados).
  • Acessibilidade Cega:

    • Analogia: A cidade tem escadas, mas nenhuma rampa para cadeiras de rodas.
    • O que significa: O código gerado muitas vezes ignora pessoas que usam leitores de tela ou navegam apenas pelo teclado, tornando o software inacessível para parte da população.

A Lição Principal: O Robô é um Operário, Não um Arquiteto

O estudo conclui que os IDEs com IA (como o Cursor) são incríveis operários. Se você der a eles um plano claro, eles podem construir a estrutura básica muito rápido.

PORÉM, eles ainda não são arquitetos.

  • Eles não entendem a "grande visão" de como o sistema deve evoluir nos próximos 5 anos.
  • Eles tendem a criar soluções rápidas e sujas que funcionam hoje, mas que vão virar um pesadelo para manter amanhã.

O Que Isso Significa Para Nós?

Se você é um desenvolvedor ou alguém que usa IA para criar software:

  1. Não confie cegamente: Não basta pedir "crie um app" e esperar que fique perfeito.
  2. Seja o Chefe de Obra: Você precisa fazer o planejamento, dividir o trabalho em pequenas partes e revisar o que o robô fez.
  3. Faça a Limpeza: O código gerado pela IA precisa de uma "revisão humana" rigorosa para corrigir a bagunça (duplicação, complexidade e falta de acessibilidade) antes de ser usado em um produto real.

Em resumo: A IA é uma ferramenta poderosa que acelera a construção, mas o engenheiro humano ainda é essencial para garantir que a cidade não desabe no futuro.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →