DesignBench: A Comprehensive Benchmark for MLLM-based Front-end Code Generation

O artigo apresenta o DesignBench, um benchmark abrangente e multifacetado que avalia a capacidade de Modelos de Linguagem Multimodais (MLLMs) na geração de código front-end, cobrindo três frameworks populares, três tarefas essenciais do ciclo de desenvolvimento e 900 amostras para superar as limitações das avaliações existentes.

Jingyu Xiao, Ming Wang, Man Ho Lam, Yuxuan Wan, Junliang Liu, Yintong Huo, Michael R. Lyu

Publicado 2026-03-17
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um arquiteto e tem um desenho lindo de uma casa (o design da interface). Você quer que um assistente super inteligente, chamado MLLM (um modelo de linguagem que "vê" imagens e entende texto), construa essa casa para você usando tijolos e cimento (o código de programação).

O artigo que você leu apresenta o DesignBench, que é basicamente um exame de qualificação muito rigoroso para testar esses assistentes. Antes desse teste, os exames eram fáceis e não refletiam a realidade. O DesignBench mudou as regras do jogo.

Aqui está a explicação do que eles descobriram, usando analogias do dia a dia:

1. O Problema: Os Exames Antigos Eram Falsos

Antes, os testes para esses assistentes eram como pedir para eles construírem uma casa de palha.

  • Faltava "Tijolo Moderno": A maioria dos testes usava apenas HTML e CSS básico (como madeira simples). Mas no mundo real, os programadores usam "kits de construção" avançados chamados React, Vue e Angular. Os assistentes antigos não sabiam usar essas ferramentas modernas.
  • Era só "Construir e Esquecer": Os testes antigos só perguntavam: "Construa a casa". Mas na vida real, você constrói, o cliente diz "mude a cor da parede" (edição) e depois descobre que a janela está torta e precisa consertar (reparo). Os testes antigos ignoravam essas etapas.
  • Avaliação Superficial: Eles olhavam apenas se a casa parecia bonita de longe, sem checar se as encanamentos funcionavam ou se o código estava organizado.

2. A Solução: O DesignBench (O Grande Exame)

Os criadores do DesignBench montaram um desafio com 900 páginas de internet reais. Eles testaram os assistentes em três fases, como se fosse um jogo de níveis:

  • Nível 1: Geração (Construir do Zero)
    • O Desafio: "Olhe para este desenho e construa a página."
    • O Resultado: Os assistentes conseguem fazer uma casa bonita, mas muitas vezes usam o material errado (código que não funciona) ou esquecem de colocar janelas (elementos faltando). Eles têm dificuldade em entender as regras complexas dos "kits de construção" modernos (React, Vue, Angular).
  • Nível 2: Edição (Fazer Reformas)
    • O Desafio: "A casa está pronta, mas o cliente quer a parede azul e uma porta nova."
    • O Resultado: Aqui é onde eles tropeçam. Em vez de pintar apenas a parede, eles podem pintar a casa inteira de azul ou demolir a porta. Eles têm dificuldade em saber exatamente onde mexer no código sem estragar o resto.
  • Nível 3: Reparo (Consertar Erros)
    • O Desafio: "A porta está batendo no teto e a janela está torta. Conserte isso."
    • O Resultado: É o nível mais difícil. Muitos assistentes nem conseguem identificar onde está o problema. Eles tentam consertar, mas muitas vezes pioram a situação ou não fazem nada.

3. As Descobertas Surpreendentes (O que os assistentes não sabem)

  • O "Segredo" é o Código, não a Foto:

    • A Analogia: Imagine que você precisa explicar a um amigo como mudar a cor de um sofá. Se você mandar uma foto do sofá, ele pode não entender. Mas se você mandar o manual de instruções do sofá (o código), ele entende perfeitamente.
    • A Descoberta: O estudo mostrou que, para fazer edições e consertos, dar apenas o código para o assistente funciona muito melhor do que dar a imagem. A imagem é bonita, mas o código tem a "alma" da instrução. Misturar os dois não ajuda muito; o código já é o suficiente.
  • Eles não são "Arquitetos", são "Alvenaria" (Falta de Reutilização):

    • A Analogia: Um bom construtor faz uma janela modelo e a usa em todos os cômodos. Os assistentes, porém, constroem cada janela do zero, mesmo que sejam idênticas.
    • A Descoberta: Eles não usam "componentes" (peças reutilizáveis) como os programadores humanos fazem. Isso torna o código deles bagunçado e difícil de manter.
  • Tamanho Importa (Modelos Maiores são Melhores):

    • A Analogia: Um assistente com um cérebro pequeno (modelo pequeno) se perde em casas grandes. Um assistente com um cérebro gigante (modelo grande) consegue lidar melhor com a complexidade.
    • A Descoberta: Os modelos maiores (como o Claude-3.7 ou GPT-4o) são muito melhores do que os menores, especialmente em tarefas difíceis.
  • Dificuldade Destrói a Performance:

    • Se o desenho da casa for muito complexo, ou se a ordem de reforma for confusa, a performance dos assistentes cai drasticamente. Eles são ótimos em tarefas simples, mas falham feio quando a coisa fica complicada.

4. Conclusão: O Que Fazer Agora?

O estudo diz que, embora esses assistentes sejam impressionantes, eles ainda não são prontos para trabalhar sozinhos em um escritório de arquitetura real.

  • Para quem cria os assistentes: Precisam ensiná-los melhor a usar as ferramentas modernas (React, Vue) e a entender que "reutilizar peças" é importante.
  • Para quem usa os assistentes: Não peça para eles adivinharem onde está o erro. Diga exatamente: "Conserte a porta". E não mande apenas a foto; mande o código atual junto com a foto.

Em resumo, o DesignBench é o espelho que mostrou que, embora os assistentes de IA saibam desenhar casas bonitas, eles ainda precisam aprender a ser construtores competentes, especialmente quando o trabalho exige precisão, uso de ferramentas modernas e capacidade de consertar o que quebrou.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →