Imagine que você é um detetive tentando resolver um mistério. Você recebe um desenho pronto — uma imagem em preto e branco de círculos e quadrados sobre um fundo branco. Sua função não é apenas descrever a imagem; você precisa escrever o código de computador exato que um robô usaria para desenhar aquela imagem do zero.

Este é o desafio do ShapeCodeBench, um novo "teste" criado pelo pesquisador Shivam Kumar para avaliar o quão bons os modelos de IA modernos são nessa tarefa específica.

Abaixo está uma explicação de como funciona, por que é especial e o que os resultados revelam, usando analogias simples.

1. O Jogo: "Engenharia Reversa de um Desenho"

Pense nos modelos de IA como alunos fazendo uma prova muito rigorosa.

A Entrada: O aluno vê uma imagem (um "raster") de formas pretas sobre um canvas branco.
A Tarefa: O aluno deve digitar um programa usando uma linguagem pequena e específica (uma "DSL") que instrui um computador sobre como desenhar exatamente aquelas formas.
As Regras: A linguagem possui apenas quatro movimentos: desenhar um círculo preenchido, um círculo de contorno, um quadrado preenchido ou um quadrado de contorno. O canvas tem sempre 512x512 pixels.
A Avaliação: Um computador não apenas lê o código do aluno; ele o executa. Ele desenha a imagem novamente com base no código e compara o novo desenho com o original. Se até mesmo um pixel estiver no lugar errado, a resposta não é "perfeita".

2. Por Que Este Teste é Diferente: O "Papel Fresco Infinito"

A maioria dos testes de IA usa um conjunto fixo de perguntas (como um teste padrão de matemática). Uma vez que uma IA memoriza as respostas, o teste torna-se inútil. Isso é chamado de "contaminação".

O ShapeCodeBench é como uma máquina mágica de desenho.

Toda vez que você deseja um novo teste, você gira uma manivela (uma "semente").
A máquina gera instantaneamente um conjunto novo e único de formas, com tamanhos, sobreposições e posições diferentes.
Como pesquisadores podem gerar um conjunto de teste oculto fresco a partir de uma nova semente sempre que desejarem, isso reduz a contaminação exata de instâncias — o risco de o modelo já ter visto as perguntas de teste específicas durante o treinamento.

3. Os Níveis de Dificuldade

O teste possui três níveis, como um videogame:

Fácil: Poucas formas, distantes entre si, sem se tocar.
Médio: Mais formas, algumas ficando próximas ou levemente sobrepostas.
Difícil: Muitas formas, todas amontoadas, sobrepondo-se pesadamente, e algumas cortadas pela borda da página.

4. Os Concorrentes

O artigo testou dois tipos de "alunos":

O Robô Antigo (Heurístico): Um programa de computador tradicional que observa a imagem, encontra manchas de tinta preta e adivinha: "Isso é um círculo", "Isso é um quadrado". É rápido e bom em coisas simples, mas fica confuso quando as formas se sobrepõem.
A Super-IA (Modelos Multimodais): Dois dos modelos de IA mais inteligentes do mundo (Claude Opus 4.7 e GPT-5.5) foram convidados a olhar para a imagem e escrever o código. Eles foram testados com diferentes níveis de "esforço de pensamento" (como pedir para eles "pensarem mais" ou "levarem mais tempo").

5. Os Resultados: Um Conto de Duas Forças

Os resultados foram surpreendentes e mostraram que nenhum dos lados é perfeito ainda.

Nos Níveis Fáceis: O Robô Antigo na verdade venceu! Ele foi melhor em obter o código exato correto para formas simples e não sobrepostas. As Super-Is frequentemente acertaram as formas, mas erraram nos detalhes minúsculos (como o raio estar fora por alguns pixels).
- Analogia: O robô é como um carpinteiro que consegue medir perfeitamente uma única tábua isolada. A IA é como um artista criativo que sabe como uma cadeira parece, mas luta para medir as pernas até o milímetro.
Nos Níveis Difíceis: Quando as formas estavam empilhadas umas sobre as outras, o Robô Antigo ficou confuso e muitas vezes viu uma grande mancha em vez de formas separadas. As Super-Is mantiveram mais da estrutura espacial nessas cenas mais complexas — especialmente conforme medido pelo IoU de primeiro plano (quanto as regiões pintadas das duas imagens se sobrepõem) — e escreveram código que capturou o layout geral da pilha. Mas nenhum dos lados dominou as cenas difíceis: mesmo as Super-Is ainda lutaram para reconstruir os detalhes exatos em nível de pixel.
- Analogia: O robô vê uma pilha de roupas sujas e diz: "Isso é uma pilha". A IA vê a pilha e diz: "Isso é uma camisa, uma meia e um chapéu todos emaranhados" (entendendo a estrutura), mas ainda tem dificuldade em identificar a posição exata de cada peça (precisão).
O Problema da "Pontuação Perfeita": Mesmo o melhor modelo de IA raramente obtinha uma pontuação 100% perfeita (onde a imagem redesenhada corresponde à original pixel por pixel). Geralmente, eles acertavam a estrutura (as formas certas nos lugares certos), mas falhavam na precisão (os números exatos para tamanho e posição).

6. O Que Isso Significa

O artigo conclui que não estamos "acabados" com este problema.

O teste não está saturado (não é fácil demais).
Os modelos de IA atuais são ótimos em entender o quadro geral (estrutura espacial), mas ainda lutam com os detalhes minúsculos (parâmetros exatos).
O teste fornece uma maneira clara de medir o progresso: à medida que a IA melhora, ela deve começar a vencer o Robô Antigo nos níveis fáceis, mantendo sua liderança nos níveis difíceis.

Em resumo, o ShapeCodeBench é um playground fresco e renovável onde podemos ver exatamente onde a IA é forte (entendendo cenas complexas) e onde ainda é desajeitada (medindo detalhes precisos).

Resumo Técnico: ShapeCodeBench

Declaração do Problema

O artigo aborda o desafio da reconstrução de percepção para programa: dada uma imagem raster renderizada, um modelo deve emitir um programa de desenho executável que, quando re-renderizado por um avaliador determinístico, produza uma imagem idêntica ou quase idêntica. Embora os modelos multimodais modernos sejam cada vez mais avaliados em tarefas de imagem para código (por exemplo, captura de tela para HTML, extração de estrutura), os benchmarks existentes frequentemente carecem de uma combinação de execução determinística, avaliação baseada em renderização e renovabilidade. A maioria dos benchmarks satisfaz apenas um ou dois desses critérios, e poucos permitem a regeneração de conjuntos de teste frescos e não contaminados sem anotação manual. O ShapeCodeBench foi projetado para preencher essa lacuna, fornecendo um benchmark sintético e renovável para gráficos inversos sobre uma Linguagem Específica de Domínio (DSL) restrita.

Metodologia

1. Design do Benchmark

O ShapeCodeBench consiste em quatro componentes acoplados:

DSL (Linguagem Específica de Domínio): Um conjunto mínimo de quatro primitivas operando em uma tela fixa de $512 \times 512$ com preto sobre branco: filled_circle (círculo preenchido), circle (círculo), filled_square (quadrado preenchido) e square (quadrado). A linguagem suporta parâmetros inteiros para coordenadas, tamanho/raio e largura do traço. O analisador sintático é uma implementação estrita de lista branca baseada no módulo ast do Python, rejeitando imports, loops e literais não inteiros.
Gerador de Cenas: Um gerador de números aleatórios (RNG) com semente cria cenas por amostragem por rejeição de formas candidatas. Ele impõe restrições específicas baseadas em três níveis de dificuldade (Fácil, Médio, Difícil) referentes à contagem de formas, extensão (raio/tamanho), largura do traço, probabilidade de recorte na tela e sobreposição de caixa delimitadora.
Renderizador: Utiliza a biblioteca Pillow para renderizar deterministicamente o programa DSL em uma imagem em escala de cinza de 8 bits. A ordem de renderização é preservada, mas a paleta binária torna as cenas invariantes à ordem em relação à adição de pixels de primeiro plano (formas posteriores não podem apagar formas anteriores).
Avaliador: Analisa o programa previsto pelo modelo, re-renderiza-o e compara o raster resultante com a verdade fundamental.

2. Métricas de Avaliação

O sistema relata cinco métricas principais:

Correspondência Exata: Igualdade pixel a pixel entre a imagem alvo e a imagem re-renderizada.
Precisão de Pixels: Fração de pixels correspondentes.
IoU de Primeiro Plano: Interseção sobre União de pixels pretos.
Sucesso de Análise: Se o programa é sintaticamente válido.
Sucesso de Execução: Se o programa é renderizado sem erros.

3. Configuração Experimental

Os autores avaliaram seis sistemas em uma divisão congelada (eval_v1) de 150 amostras (50 por nível de dificuldade):

Baselines: Um limite inferior de "Programa Vazio" e uma baseline "CV Heurística" (visão computacional clássica usando componentes conectados, erosão morfológica e razões de área/perímetro para estimar parâmetros de forma).
Modelos Multimodais:
- Claude Opus 4.7 (1M de contexto): Testado com esforço de raciocínio "alto" e "máximo".
- GPT-5.5: Testado com esforço de raciocínio "médio" e "extra_alto".
Protocolo: Todos os modelos usaram promptagem zero-shot com restrições estritas de formatação. Nenhuma cadeia de pensamento ou exemplos few-shot foi utilizada.

Principais Contribuições

Lançamento do ShapeCodeBench: Um conjunto completo de benchmark incluindo a DSL, um analisador sintático restrito e seguro, um gerador de cenas com semente com três níveis de dificuldade e um avaliador baseado em renderização.
Divisão de Avaliação Congelada (eval_v1): Um conjunto determinístico de 150 amostras com hashes SHA-256 publicados para reprodutibilidade exata entre plataformas.
Fluxo de Trabalho Renovável: Um mecanismo para gerar divisões de retenção frescas a partir de novas sementes e avaliá-las automaticamente, mitigando a contaminação por instâncias exatas sem exigir anotação humana.
Executor Agnóstico ao Provedor: Uma ferramenta para registrar prompts, configurações, saídas brutas e métricas, tornando as avaliações auditáveis.
Resultados de Baseline: Relato abrangente de quatro configurações multimodais contra baselines não-LLM, revelando modos de falha distintos e lacunas de desempenho.

Resultados

Desempenho Geral

Correspondência Exata: O benchmark está longe de estar saturado. A melhor taxa de correspondência exata alcançada por qualquer modelo multimodal é 0,027 (GPT-5.5 médio), enquanto a baseline heurística clássica alcança 0,087.
IoU de Primeiro Plano: Os modelos multimodais superam significativamente a heurística nesta métrica. O GPT-5.5 (extra_alto) alcança uma IoU média de primeiro plano de 0,87, mantendo a maior parte da estrutura espacial.
Sucesso de Análise: Os LLMs alcançam altas taxas de sucesso de análise (0,97–1,00), com falhas ocorrendo principalmente devido a parâmetros fora do intervalo ou larguras de traço inválidas.

Cruzamento Dependente do Nível

Uma descoberta crítica é o cruzamento dependente do nível entre a heurística e os LLMs:

Nível Fácil: A heurística clássica lidera na correspondência exata (0,26) porque as cenas consistem em formas separadas e não sobrepostas que os componentes conectados podem individualizar perfeitamente. Os modelos multimodais lutam aqui, frequentemente perdendo a correspondência exata devido a pequenos erros de parâmetro (fora de alguns pixels).
Níveis Médio/Difícil: A heurística colapsa à medida que formas sobrepostas se fundem em componentes conectados únicos, impedindo a individualização. Os modelos multimodais mantêm a estrutura espacial (alta IoU) e podem enumerar formas sobrepostas, embora ainda falhem em alcançar correspondências exatas pixel a pixel devido a problemas de precisão de parâmetro sob oclusão.

Modos de Falha

LLMs: As falhas são dominadas por erros "out_of_range" (coordenadas/tamanho fora dos limites válidos) e "invalid_stroke". Eles também lutam com a estimativa precisa de parâmetros (por exemplo, raio exato ou largura do traço) e em distinguir formas ocas versus preenchidas quando os traços são finos.
Heurística: Falha em individualizar formas sobrepostas ou recortadas, levando a uma queda acentuada na IoU em níveis mais difíceis.

Significado e Alegações

O artigo posiciona o ShapeCodeBench não como um substituto para benchmarks existentes como TurtleBench ou Image2Struct, mas como uma ferramenta complementar que prioriza controle e reprodutibilidade sobre realismo.

Valor Diagnóstico: O benchmark expõe com sucesso modos de falha distintos: os LLMs lutam com a emissão precisa de parâmetros mesmo quando entendem a estrutura da cena, enquanto a CV clássica falha na individualização em cenas complexas.
Renovabilidade: Ao permitir a geração de divisões frescas, o benchmark oferece um ciclo de feedback sustentável para o desenvolvimento de modelos, evitando os problemas de "contaminação" comuns em conjuntos de dados estáticos.
Escopo Modesto: Os autores afirmam explicitamente que a versão atual é uma "v1" com limitações deliberadas (paleta monocromática, quatro primitivas, apenas zero-shot). Eles não alegam ter resolvido o problema da indução de programas visuais, mas sim fornecer um ambiente rigoroso e renovável para medir o progresso e identificar lacunas específicas entre percepção e emissão de código estruturado.

O artigo conclui que, embora os modelos de fronteira atuais mostrem promessa no raciocínio espacial (alta IoU), eles estão longe da precisão necessária para a reconstrução exata de programas, e a lacuna entre o desempenho heurístico em tarefas simples e o desempenho dos LLMs em tarefas complexas destaca a necessidade de mais pesquisa em estimativa de parâmetros e raciocínio sobre oclusão.

ShapeCodeBench: A Renewable Benchmark for Perception-to-Program Reconstruction of Synthetic Shape Scenes