Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents
Este artigo apresenta uma análise sistemática de 178 benchmarks para modelos de linguagem e agentes de código, revelando um desequilíbrio significativo que prioriza excessivamente a fase de implementação em detrimento do planejamento e design, além de apontar a falta de estratégias contra contaminação de dados e propor direções futuras para alinhar as capacidades teóricas dessas ferramentas com sua eficácia prática no ciclo de vida de desenvolvimento de software.