Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

Each language version is independently generated for its own context, not a direct translation.

Imagina que el desarrollo de software es como construir una ciudad gigante. No se trata solo de poner ladrillos (escribir código), sino de planear el tráfico, diseñar los edificios, asegurar que no se caigan con el viento y reparar las grietas cuando aparecen.

Este artículo es como un gran reporte de inspección sobre las "pruebas de manejo" (benchmarks) que usamos para evaluar a los nuevos "arquitectos de IA" (los Modelos de Lenguaje Grandes o CodeLLMs).

Aquí tienes la explicación sencilla, con analogías para entenderlo mejor:

1. El Problema: Estamos entrenando a los arquitectos solo para poner ladrillos

La vida de un software (el SDLC) tiene varias fases:

Requerimientos: ¿Qué quiere el cliente? (El plano).
Diseño: ¿Cómo se verá y funcionará? (Los planos arquitectónicos).
Implementación: ¡A poner los ladrillos! (Escribir el código).
Pruebas: ¿Se cae si lo sacudimos? (Buscar errores).
Mantenimiento: ¿Cómo lo reparamos cuando envejece?

El hallazgo principal: Los investigadores han estado obsesionados con la fase 3 (poner ladrillos).

El 61% de todas las pruebas actuales solo miden si la IA puede escribir código rápido.
La fase 1 (Requerimientos) y la fase 2 (Diseño) apenas reciben atención (solo un 5% y un 3% respectivamente).

La analogía: Es como si tuvieras un examen para ser arquitecto, pero el examen solo te pidiera que dibujaras un ladrillo perfecto. Si apruebas, te contratan, pero luego, cuando llegas a la obra, no sabes diseñar el edificio ni entender qué quiere el cliente. ¡Es un desastre!

2. El "Truco" de la IA: La contaminación de datos

Imagina que le das a un estudiante un examen de matemáticas, pero el estudiante ya vio las respuestas en el libro de texto antes de entrar al aula. ¡No es un examen justo!

En el mundo de la IA, esto se llama contaminación.

Muchas de estas "pruebas de manejo" (benchmarks) son públicas y viejas.
Las IAs modernas se entrenan con todo internet, incluyendo esas pruebas viejas.
El riesgo: La IA no está "pensando" o "creando", simplemente está "recordando" la respuesta que ya vio en su entrenamiento. Es como un estudiante que se aprende de memoria las respuestas del examen final en lugar de aprender matemáticas.

3. La falta de "Realismo"

Muchas pruebas son como simuladores de vuelo en una habitación vacía.

Las pruebas actuales suelen pedirle a la IA que escriba una función pequeña y aislada.
En la vida real, un programador trabaja en un edificio entero (un repositorio de código) con miles de archivos, dependencias y errores que se conectan entre sí.
La analogía: Es como si entrenáramos a un conductor de Fórmula 1 en una pista de karting vacía y luego lo mandáramos a conducir un camión de mudanzas por una ciudad llena de tráfico. No está preparado para la complejidad real.

4. ¿Qué proponen los autores?

Los autores dicen: "¡Alto ahí! Necesitamos cambiar las reglas del juego".

Equilibrar la balanza: Necesitamos más pruebas para las fases de diseño y requisitos. ¿Puede la IA entender un documento legal confuso y convertirlo en un plano de software?
Pruebas dinámicas (Anti-trampas): En lugar de usar preguntas fijas, las pruebas deben cambiar constantemente (como un examen que se reescribe cada día) para que la IA no pueda memorizar las respuestas.
Trabajo en equipo: Las pruebas actuales evalúan a la IA como si fuera un robot solitario. En el futuro, deberíamos evaluar cómo la IA trabaja con humanos, ayudándoles a resolver problemas complejos paso a paso, no solo dando respuestas mágicas.

En resumen

Este artículo nos dice que, aunque la IA para programar parece un genio, solo le hemos enseñado a hacer la parte más fácil y repetitiva del trabajo.

Estamos construyendo una ciudad con arquitectos que solo saben poner ladrillos, pero no saben diseñar ni reparar. Para que la IA sea realmente útil en el mundo real, necesitamos nuevas pruebas que la desafíen a pensar como un ingeniero de software completo, no solo como un escriba de código.

La moraleja: No basta con que la IA sea rápida; tiene que ser inteligente, creativa y capaz de trabajar en el caos del mundo real, no solo en un laboratorio limpio.

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

1. El Problema: Estamos entrenando a los arquitectos solo para poner ladrillos

2. El "Truco" de la IA: La contaminación de datos

3. La falta de "Realismo"

4. ¿Qué proponen los autores?

En resumen

Título: Perspectiva del Ciclo de Vida de Desarrollo de Software (SDLC): Una Encuesta de Puntos de Referencia para Modelos de Lenguaje Grande de Código (CodeLLMs) y Agentes

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados y Hallazgos Principales

5. Significado e Impacto

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

1. El Problema: Estamos entrenando a los arquitectos solo para poner ladrillos

2. El "Truco" de la IA: La contaminación de datos

3. La falta de "Realismo"

4. ¿Qué proponen los autores?

En resumen

Título: Perspectiva del Ciclo de Vida de Desarrollo de Software (SDLC): Una Encuesta de Puntos de Referencia para Modelos de Lenguaje Grande de Código (CodeLLMs) y Agentes

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados y Hallazgos Principales

5. Significado e Impacto

Más como este

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem