Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma ideia brilhante para um aplicativo: um site para organizar festas de aniversário, um sistema para gerenciar uma pequena loja ou um diário de hábitos. Antigamente, para tirar essa ideia do papel, você precisava contratar um programador, gastar meses e muito dinheiro.

Hoje, a Inteligência Artificial promete fazer isso sozinha. Mas será que ela realmente consegue? É aí que entra o "Vibe Code Bench", o "teste de direção" criado pelos autores deste artigo.

Aqui está a explicação do que eles fizeram, usando analogias do dia a dia:

1. O Problema: O "Teste de Matemática" vs. "Construir uma Casa"

Até agora, os testes de IA para programação eram como pedir para a IA resolver uma equação de matemática isolada (ex: "calcule 2+2"). A IA é ótima nisso.

A realidade: Construir um software real não é só resolver uma conta. É como construir uma casa do zero. Você precisa da fundação, das paredes, da eletricidade, do encanamento, e depois garantir que a porta abre, a luz acende e o chuveiro funciona.
O buraco: Ninguém tinha um teste que pedisse para a IA: "Aqui está o projeto da casa, construa-a inteira, do alicerce ao telhado, e me mostre que você pode morar nela".

2. A Solução: O "Vibe Code Bench" (O Grande Desafio)

Os autores criaram um "campo de provas" com 100 desafios.

O Cenário: Eles deram para 16 das IAs mais inteligentes do mundo (como GPT-5, Claude Opus, Gemini) uma descrição simples em linguagem natural (ex: "Quero um app para dividir contas de restaurante entre amigos").
A Regra de Ouro: A IA não pode apenas escrever código solto. Ela tem que:
1. Criar o código.
2. Instalar as ferramentas necessárias.
3. Conectar bancos de dados.
4. Testar o próprio trabalho (como um encanador que testa se não há vazamentos antes de entregar a obra).
5. Entregar um aplicativo que funcione de verdade no navegador.

3. O Juiz: O "Robô Visitante"

Como saber se o aplicativo funciona? Eles não olharam o código (que pode ser bonito mas quebrado). Eles usaram um agente autônomo no navegador (um robô virtual).

A Analogia: Imagine que você contrata um pedreiro. Em vez de ler o plano dele, você manda um inspetor (o robô) entrar na casa, tentar abrir a porta, ligar a luz, abrir a torneira e ver se o chuveiro joga água.
Se o robô consegue fazer tudo o que o usuário faria (clicar, digitar, comprar algo, fazer login), o aplicativo passa no teste.

4. O Resultado: Ainda é um "Estagiário"

O resultado foi revelador e um pouco decepcionante, mas honesto:

A Melhor IA (GPT-5.3-Codex): Conseguiu construir aplicativos que funcionavam perfeitamente em apenas 61,8% dos casos.
O que isso significa? Se você pedisse para 10 IAs construírem um app, 4 delas provavelmente entregariam algo quebrado, que não abre ou que não salva os dados.
A Lição: A IA é ótima em escrever pedaços de código, mas ainda falha em gerenciar o projeto inteiro do início ao fim.

5. O Segredo do Sucesso: "Auto-Teste"

Os autores descobriram algo crucial:

As IAs que tinham mais sucesso eram aquelas que paravam para testar o próprio trabalho enquanto construíam.
Analogia: É a diferença entre um aluno que escreve a redação e entrega imediatamente, e um aluno que escreve, relê, corrige erros de português, verifica se o tema foi atendido e só depois entrega. As IAs que "pensavam e testavam" (usavam o navegador para ver se o app funcionava) foram muito melhores.

6. O Perigo dos "Juízes"

O estudo também mostrou que quem avalia importa muito.

Se você pedir para uma IA avaliar o trabalho de outra, elas podem concordar ou discordar totalmente, dependendo de qual IA você escolheu como juiz.
Foi como ter três professores avaliando a mesma redação: um dá nota 10, outro dá nota 4. Isso mostra que precisamos de cuidado ao confiar apenas em testes automáticos.

Resumo Final

O "Vibe Code Bench" nos diz que a IA já não é apenas uma "máquina de escrever código". Ela está começando a ser uma "engenheira de software".

Onde ela está: Consegue fazer 60% do trabalho sozinha, mas ainda precisa de supervisão humana para os 40% restantes (especialmente em tarefas complexas).
O futuro: O objetivo não é mais saber se a IA sabe programar, mas se ela consegue entregar um produto final que funcione. Estamos perto, mas ainda não chegamos lá.

Em suma: A IA já sabe escrever as peças do quebra-cabeça, mas ainda está aprendendo a montar a imagem completa sem deixar peças faltando ou de cabeça para baixo.

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

1. O Problema: O "Teste de Matemática" vs. "Construir uma Casa"

2. A Solução: O "Vibe Code Bench" (O Grande Desafio)

3. O Juiz: O "Robô Visitante"

4. O Resultado: Ainda é um "Estagiário"

5. O Segredo do Sucesso: "Auto-Teste"

6. O Perigo dos "Juízes"

Resumo Final

Resumo Técnico: Vibe Code Bench

1. Problema e Motivação

2. Metodologia e Design do Benchmark

2.1. Estrutura do Dataset

2.2. Fluxo de Trabalho e Avaliação

2.3. Pipeline de Avaliação Automatizada

3. Principais Contribuições

4. Resultados Chave

4.1. Desempenho Geral

4.2. Fatores de Desempenho e Comportamento

4.3. Análise de Erros

4.4. Alinhamento Humano-AI

5. Significado e Conclusão

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

1. O Problema: O "Teste de Matemática" vs. "Construir uma Casa"

2. A Solução: O "Vibe Code Bench" (O Grande Desafio)

3. O Juiz: O "Robô Visitante"

4. O Resultado: Ainda é um "Estagiário"

5. O Segredo do Sucesso: "Auto-Teste"

6. O Perigo dos "Juízes"

Resumo Final

Resumo Técnico: Vibe Code Bench

1. Problema e Motivação

2. Metodologia e Design do Benchmark

2.1. Estrutura do Dataset

2.2. Fluxo de Trabalho e Avaliação

2.3. Pipeline de Avaliação Automatizada

3. Principais Contribuições

4. Resultados Chave

4.1. Desempenho Geral

4.2. Fatores de Desempenho e Comportamento

4.3. Análise de Erros

4.4. Alinhamento Humano-AI

5. Significado e Conclusão

Mais como este

The Structure of Service Level Agreement of Slice-based 5G Network

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

Homotopy type theory as a language for diagrams of $\infty$ -logoses