Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Each language version is independently generated for its own context, not a direct translation.

Imagina que hasta ahora, probar si una Inteligencia Artificial (IA) podía programar era como pedirle a un estudiante que resolviera una sola ecuación matemática en un examen. Si la resolvía bien, decíamos: "¡Genial, sabe matemáticas!".

Pero en la vida real, construir software no es resolver una sola ecuación; es como construir una casa entera desde cero, desde los cimientos hasta el techo, con electricidad, fontanería y que la gente pueda vivir dentro.

Este paper, llamado "Vibe Code Bench", presenta un nuevo examen para las IAs que es mucho más difícil y realista. Aquí te lo explico con analogías sencillas:

1. El Nuevo Examen: De "Escribir una frase" a "Construir un restaurante"

Antes, las pruebas de IA pedían: "Escribe una función que sume dos números".
Vibe Code Bench dice: "Aquí tienes una idea: 'Quiero una app para que la gente reserve estacionamientos en la ciudad'. ¡Constrúyela!"

La IA tiene que:

Escribir todo el código (frente y fondo).
Configurar la base de datos (donde se guardan los datos).
Conectar servicios externos (como cobrar con tarjeta o enviar correos).
Lo más importante: La IA debe probarse a sí misma. Tiene que abrir un navegador virtual, hacer clic en los botones, registrarse como usuario y asegurarse de que todo funcione antes de decir "terminado".

2. ¿Cómo se califica? El "Inspector de Obras" Robot

No hay humanos revisando el código línea por línea. En su lugar, usan un agente autónomo (un robot con "ojos" y "dedos" digitales) que actúa como un cliente real.

El robot entra a la aplicación creada por la IA.
Sigue una lista de tareas: "Regístrate", "Sube una foto", "Paga $10".
Si el robot logra completar el 90% de los pasos, la aplicación aprueba.
Si la aplicación se cae, no carga o el botón de "Pagar" no funciona, reprueba.

Es como si contrataras a un inspector de construcción que no solo mira los planos, sino que camina por la casa, abre las puertas, prueba el grifo y se sienta en el sofá para ver si está listo para vivir.

3. Los Resultados: ¡Todavía estamos aprendiendo!

Probaron a las 16 IAs más potentes del mundo (como las de OpenAI, Google, Anthropic, etc.).

El mejor resultado: La IA ganadora (GPT-5.3-Codex) logró construir aplicaciones que funcionaban perfectamente en solo el 61.8% de los intentos.
La realidad: Esto significa que casi 4 de cada 10 veces, la IA falla en construir la app completa. A veces olvida poner la puerta, a veces la electricidad no funciona, o a veces el grifo gotea.

La lección: Las IAs son muy buenas escribiendo código suelto, pero todavía les cuesta mucho orquestar todo el proceso para crear un producto final que funcione solo.

4. El Secreto de los Éxitos: "El que se prueba, pasa"

El estudio descubrió algo fascinante: las IAs que tienen éxito son las que se ponen a prueba a sí mismas mientras trabajan.

Analogía: Imagina a un cocinero.
- El cocinero novato mezcla los ingredientes y sirve el plato sin probarlo. (Resultado: A veces está salado o crudo).
- El cocinero experto prueba la sopa, ajusta la sal, prueba de nuevo y luego sirve.
Las IAs que usaban el navegador para "probar" su propia aplicación mientras la construían tuvieron un rendimiento mucho mejor. Las que solo escribían código sin verificar, fallaban más.

5. El Problema del "Juez"

Otro hallazgo interesante es que quién califica importa mucho.

Si usas un "juez" (otra IA) diferente para calificar el trabajo, la nota puede cambiar drásticamente.
Es como si un profesor de matemáticas le diera un 10 a un examen y otro profesor le diera un 5 al mismo examen porque tienen criterios distintos. El estudio encontró que elegir el "juez" correcto es vital para saber si la IA realmente aprendió.

En Resumen

Este paper nos dice que la era de "pedirle a la IA que escriba un código" ya pasó. Ahora estamos en la era de "pedirle a la IA que construya un producto".

Aunque las IAs son increíbles, todavía no son arquitectos perfectos. A veces construyen casas bonitas que se caen al primer viento. Pero con este nuevo examen ("Vibe Code Bench"), sabemos exactamente dónde están fallando y cómo mejorarlas: haciéndolas probar su propio trabajo una y otra vez hasta que funcione.

El futuro no es solo que la IA escriba código, sino que pueda crear software que la gente pueda usar de verdad. Y estamos a medio camino de lograrlo.

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

1. El Nuevo Examen: De "Escribir una frase" a "Construir un restaurante"

2. ¿Cómo se califica? El "Inspector de Obras" Robot

3. Los Resultados: ¡Todavía estamos aprendiendo!

4. El Secreto de los Éxitos: "El que se prueba, pasa"

5. El Problema del "Juez"

En Resumen

Resumen Técnico: Vibe Code Bench - Evaluación de Modelos de IA en el Desarrollo de Aplicaciones Web de Extremo a Extremo

1. El Problema: La Brecha en la Evaluación de "Cero a Uno"

2. Metodología: Vibe Code Bench (VCB)

A. Diseño del Dataset

B. Entorno de Generación (Harness)

C. Pipeline de Evaluación Automatizada

3. Contribuciones Clave

4. Resultados Principales

Rendimiento General

Análisis de Factores

Análisis de Errores

5. Estudio de Alineación Humana

6. Significado e Impacto

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

1. El Nuevo Examen: De "Escribir una frase" a "Construir un restaurante"

2. ¿Cómo se califica? El "Inspector de Obras" Robot

3. Los Resultados: ¡Todavía estamos aprendiendo!

4. El Secreto de los Éxitos: "El que se prueba, pasa"

5. El Problema del "Juez"

En Resumen

Resumen Técnico: Vibe Code Bench - Evaluación de Modelos de IA en el Desarrollo de Aplicaciones Web de Extremo a Extremo

1. El Problema: La Brecha en la Evaluación de "Cero a Uno"

2. Metodología: Vibe Code Bench (VCB)

A. Diseño del Dataset

B. Entorno de Generación (Harness)

C. Pipeline de Evaluación Automatizada

3. Contribuciones Clave

4. Resultados Principales

Rendimiento General

Análisis de Factores

Análisis de Errores

5. Estudio de Alineación Humana

6. Significado e Impacto

Más como este

The Structure of Service Level Agreement of Slice-based 5G Network

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

Homotopy type theory as a language for diagrams of $\infty$ -logoses