Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

Each language version is independently generated for its own context, not a direct translation.

Imagine que o desenvolvimento de software é como construir uma cidade inteira, desde o primeiro esboço no papel até a manutenção dos prédios anos depois. Esse processo completo é chamado de Ciclo de Vida do Desenvolvimento de Software (SDLC).

Neste artigo, os autores fazem uma "vistoria" gigante para ver como estamos testando os novos robôs inteligentes (Inteligência Artificial) que estão sendo criados para ajudar os programadores a construir essa cidade. Eles chamam esses robôs de "CodeLLMs" e "Agentes".

Aqui está o resumo da história, explicado de forma simples:

1. O Problema: Estamos medindo apenas a "pintura" e ignorando o "arquiteto"

Os autores analisaram 178 testes diferentes (chamados de benchmarks) usados para ver se esses robôs são bons.

A Descoberta Chocante: Eles descobriram que 61% de todos os testes focam apenas em uma única etapa: escrever o código (a "construção" ou "pintura" do prédio).
O Que Faltou: Apenas 5% dos testes olham para o início do processo (entender o que o cliente quer) e 3% olham para o design (como o prédio será estruturado).
A Analogia: É como se você tivesse uma escola para formar arquitetos, mas 60% das provas fossem apenas "quem consegue pintar uma parede mais rápido", e ninguém fosse testado sobre como desenhar o projeto ou entender as necessidades do morador.

2. O Perigo: Os robôs estão "colando" na prova

Os autores apontam um problema sério de vazamento de dados.

A Analogia: Imagine que os robôs estudam para uma prova usando livros de uma biblioteca. O problema é que os livros de prova (os testes) estão misturados na mesma biblioteca. Então, o robô não está "aprendendo" a construir; ele apenas está decorando a resposta porque já viu a pergunta antes nos livros de estudo.
Isso faz com que os robôs pareçam superinteligentes, mas na vida real, quando enfrentam um problema novo, eles falham. A maioria dos testes atuais não tem "segurança" para impedir que o robô veja a resposta antes da hora.

3. Onde estamos falhando (por fase):

Planejamento (Requisitos): Os testes são raros. É difícil criar um teste que avalie se o robô entende um pedido confuso de um cliente (como "quero um prédio que pareça um castelo, mas que seja eficiente").
Design: Quase não existem testes para ver se o robô consegue criar a estrutura complexa de um sistema. Os testes atuais focam em tarefas simples, como "desenhe um botão", e não em "projete o sistema de encanamento de toda a cidade".
Construção (Código): É aqui que temos muitos testes. Eles avaliam se o robô escreve linhas de código corretas. Mas muitos desses testes são muito artificiais (como exercícios de escola) e não refletem o caos de um projeto real de software.
Manutenção: Quando um prédio precisa de reparos anos depois, os testes atuais são fracos. Eles não avaliam bem se o robô consegue consertar um problema sem quebrar o resto do sistema, especialmente em projetos gigantes.

4. O Que Precisamos Fazer (O Futuro)

Os autores sugerem que precisamos mudar a forma como avaliamos esses robôs:

Testes Mais Reais: Em vez de pedir para o robô escrever uma função isolada, devemos pedir para ele resolver um problema completo, como "conserte esse erro em um sistema que já está rodando há 10 anos".
Segurança Contra Colagem: Criar testes que mudam constantemente ou que são secretos, para garantir que o robô realmente saiba fazer o trabalho e não apenas lembrou da resposta.
Avaliar a Colaboração: Os robôs não devem ser avaliados apenas como substitutos humanos, mas como parceiros. Como eles ajudam um humano a trabalhar? Eles entendem o contexto?
Linguagens Diversas: A maioria dos testes é feita em Python (como se todos os robôs só falassem inglês). Precisamos testá-los em outras "línguas" de programação modernas, como Rust e Go.

Conclusão

Em resumo, o artigo diz: "Estamos treinando nossos robôs para serem excelentes pintores, mas esquecemos de testar se eles sabem ser arquitetos ou engenheiros."

Para que a Inteligência Artificial realmente revolucione o mundo do software, precisamos de testes que avaliem todo o processo de construção da cidade, e não apenas a parte final de colocar o tijolo.

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

1. O Problema: Estamos medindo apenas a "pintura" e ignorando o "arquiteto"

2. O Perigo: Os robôs estão "colando" na prova

3. Onde estamos falhando (por fase):

4. O Que Precisamos Fazer (O Futuro)

Conclusão

Resumo Técnico: Uma Perspectiva do Ciclo de Vida de Desenvolvimento de Software (SDLC) sobre Benchmarks para CodeLLMs e Agentes

1. Problema e Motivação

2. Metodologia

3. Principais Contribuições

4. Resultados e Descobertas Chave

5. Significado e Direções Futuras

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

1. O Problema: Estamos medindo apenas a "pintura" e ignorando o "arquiteto"

2. O Perigo: Os robôs estão "colando" na prova

3. Onde estamos falhando (por fase):

4. O Que Precisamos Fazer (O Futuro)

Conclusão

Resumo Técnico: Uma Perspectiva do Ciclo de Vida de Desenvolvimento de Software (SDLC) sobre Benchmarks para CodeLLMs e Agentes

1. Problema e Motivação

2. Metodologia

3. Principais Contribuições

4. Resultados e Descobertas Chave

5. Significado e Direções Futuras

Mais como este

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem