Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

O artigo apresenta o Vision2Web, um benchmark hierárquico baseado em sites reais para avaliar agentes de codificação na geração de código a partir de interfaces visuais, reprodução de front-end e desenvolvimento full-stack, utilizando uma nova paradigma de verificação por agentes para identificar lacunas significativas no desempenho dos modelos atuais.

Zehai He, Wenyi Hong, Zhen Yang, Ziyang Pan, Mingdao Liu, Xiaotao Gu, Jie Tang

Publicado 2026-03-30
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu a um assistente de IA para construir uma casa inteira, desde o desenho do arquiteto até a instalação da eletricidade e encanamento. O Vision2Web é como um "teste de estresse" gigante e muito organizado criado para ver se esses assistentes de IA (chamados de agentes de codificação) realmente sabem construir essa casa ou se apenas sabem pintar uma parede.

Aqui está uma explicação simples do que os pesquisadores fizeram:

1. O Problema: "O Assistente que Sabe Pintar, mas não Constrói"

Atualmente, as IAs são ótimas em escrever pequenos pedaços de código ou corrigir erros simples (como trocar uma cor de botão). Mas, quando o pedido é complexo — como criar um site inteiro, com várias páginas, que funcione em celulares e computadores, e que tenha sistemas de login e carrinho de compras — elas tendem a falhar. Os testes antigos não conseguiam medir isso direito porque eram muito simples ou não olhavam para o visual.

2. A Solução: O "Vision2Web" (Um Treinamento em Três Níveis)

Os pesquisadores criaram um novo banco de testes chamado Vision2Web. Eles pensaram nele como uma escada com três degraus, onde cada degrau é mais difícil que o anterior:

  • Degrau 1 (A Página Estática): É como pedir para a IA copiar um desenho de uma página da internet. Ela precisa fazer o código ficar idêntico ao desenho, tanto no computador quanto no celular. É só "pintar a parede".
  • Degrau 2 (O Frontend Interativo): Agora, a IA precisa criar várias páginas que se conectam. Se você clica em "Sobre Nós", ela tem que ir para a página certa. É como construir a casa com portas e janelas que funcionam.
  • Degrau 3 (O Site Completo Full-Stack): O nível mais difícil. A IA precisa criar o site inteiro, incluindo o "cérebro" (banco de dados), o sistema de login, o carrinho de compras e tudo o que acontece nos bastidores. É como construir a casa, instalar a luz, a água e garantir que a segurança funcione.

3. Como Eles Avaliam? (O "Inspector" e o "Crítico de Arte")

O grande diferencial deste trabalho é como eles verificam se o trabalho foi bem feito. Em vez de apenas olhar o código, eles usam dois "robôs avaliadores":

  • O Agente "Mão na Massa" (Verificador de Funcionalidade): Imagine um robô que entra no site criado pela IA e tenta usá-lo como um humano. Ele clica em botões, tenta fazer login, preenche formulários e verifica se o sistema não quebra. Se o robô consegue navegar pelo site sem travar, a IA passa na prova de funcionalidade.
  • O Juiz Visual (Baseado em IA Multimodal): Imagine um crítico de arte que compara o site final com o desenho original (o protótipo). Ele olha se as cores estão certas, se os textos estão no lugar e se o layout parece o mesmo. Ele dá uma nota de "beleza e fidelidade".

Essa combinação garante que o site não apenas pareça bonito, mas que funcione de verdade.

4. O Que Eles Descobriram? (As Surpresas)

Ao testar as IAs mais modernas do mundo (como Claude, GPT-5, Gemini, etc.), eles descobriram algumas coisas importantes:

  • Quanto mais complexo, pior: As IAs são ótimas no Degrau 1 (copiar uma página), mas o desempenho cai drasticamente no Degrau 3 (criar um sistema completo).
  • Celulares são difíceis: Mesmo as melhores IAs têm mais dificuldade em fazer o site ficar bonito no celular do que no computador grande.
  • O "Cérebro" é o calcanhar de Aquiles: As IAs conseguem fazer a parte visual, mas falham muito quando precisam gerenciar dados, lembrar de informações (como o que está no carrinho de compras) ou conectar partes diferentes do sistema.
  • Nenhuma IA é perfeita: Mesmo as IAs mais avançadas ainda não conseguem construir um site completo e complexo sozinhas, sem ajuda humana. Elas cometem erros de planejamento e perdem o rumo em tarefas longas.

Resumo da Ópera

O Vision2Web é um novo padrão de ouro para testar IAs que criam sites. Ele mostra que, embora as IAs tenham evoluído muito, ainda há um grande abismo entre "fazer um código bonito" e "construir um sistema complexo e funcional".

É como se tivéssemos IAs que são excelentes pintoras, mas ainda precisam de ajuda para se tornarem arquitetas e engenheiras completas. Este teste ajuda os cientistas a saber exatamente onde precisam melhorar essas ferramentas para o futuro.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →