Imagina que eres un detective tratando de resolver un misterio. Te entregan un dibujo terminado: una imagen en blanco y negro de círculos y cuadrados sobre un fondo blanco. Tu trabajo no es solo describir la imagen; debes escribir el código informático exacto que un robot usaría para dibujar esa imagen desde cero.

Este es el desafío de ShapeCodeBench, una nueva "prueba" creada por el investigador Shivam Kumar para evaluar qué tan buenos son los modelos de IA modernos en esta tarea específica.

A continuación, se presenta un desglose de cómo funciona, por qué es especial y qué nos dicen los resultados, utilizando analogías sencillas.

1. El Juego: "Ingeniería Inversa de un Dibujo"

Piensa en los modelos de IA como estudiantes que rinden un examen muy estricto.

La Entrada: El estudiante ve una imagen (un "raster") de formas negras sobre un lienzo blanco.
La Tarea: El estudiante debe escribir un programa usando un lenguaje pequeño y específico (un "DSL") que le indique a una computadora cómo dibujar esas formas exactas.
Las Reglas: El lenguaje solo tiene cuatro movimientos: dibujar un círculo relleno, un círculo de contorno, un cuadrado relleno o un cuadrado de contorno. El lienzo es siempre de 512x512 píxeles.
La Calificación: Una computadora no solo lee el código del estudiante; lo ejecuta. Dibuja la imagen nuevamente basándose en el código y compara el nuevo dibujo con el original. Si incluso un solo píxel está en el lugar equivocado, la respuesta no es "perfecta".

2. Por Qué Esta Prueba es Diferente: El "Papel Fresco Infinito"

La mayoría de las pruebas de IA utilizan un conjunto fijo de preguntas (como un examen de matemáticas estándar). Una vez que una IA memoriza las respuestas, la prueba deja de ser útil. Esto se llama "contaminación".

ShapeCodeBench es como una máquina de dibujo mágica.

Cada vez que quieres una nueva prueba, giras una manivela (una "semilla").
La máquina genera instantáneamente un conjunto nuevo y único de formas con diferentes tamaños, superposiciones y posiciones.
Because researchers can generate a fresh held-out set from a new seed whenever they want, this reduces exact-instance contamination — the risk that the model has already seen the specific test questions during training.

3. Los Niveles de Dificultad

La prueba tiene tres niveles, como un videojuego:

Fácil: Pocas formas, lejos entre sí, sin tocarse.
Medio: Más formas, algunas acercándose o superponiéndose ligeramente.
Difícil: Muchas formas, todas apretujadas, superponiéndose fuertemente, y algunas cortadas por el borde de la página.

4. Los Participantes

El artículo probó dos tipos de "estudiantes":

El Robot Vieja Escuela (Heurístico): Un programa informático tradicional que observa la imagen, encuentra manchas de tinta negra y adivina: "Eso es un círculo", "Eso es un cuadrado". Es rápido y bueno en cosas simples, pero se confunde cuando las formas se superponen.
La Super-IA (Modelos Multimodales): Se pidió a dos de los modelos de IA más inteligentes del mundo (Claude Opus 4.7 y GPT-5.5) que miraran la imagen y escribieran el código. Se les probó con diferentes niveles de "esfuerzo de pensamiento" (como pedirles que "piensen más" o "tomen más tiempo").

5. Los Resultados: Un Cuento de Dos Fortalezas

Los resultados fueron sorprendentes y mostraron que ninguno de los dos bandos es perfecto todavía.

En Niveles Fáciles: ¡El Robot Vieja Escuela ganó de hecho! Fue mejor obteniendo el código exacto correcto para formas simples y no superpuestas. Las Super-IA a menudo acertaban las formas pero fallaban en los pequeños detalles (como que el radio estuviera desviado por unos pocos píxeles).
- Analogía: El robot es como un carpintero que puede medir perfectamente una sola tabla aislada. La IA es como un artista creativo que sabe cómo se ve una silla pero le cuesta medir las patas hasta el milímetro.
En Niveles Difíciles: Cuando las formas estaban apiladas unas sobre otras, el Robot Vieja Escuela se confundió y a menudo vio una gran mancha en lugar de formas separadas. Las Super-IA retuvieron más de la estructura espacial en estas escenas más complejas —especialmente según lo medido por el IoU de primer plano (cuánto se superponen las regiones pintadas de las dos imágenes)— y escribieron código que capturaba la disposición general de la pila. Pero ninguno de los dos bandos dominó las escenas difíciles: incluso las Super-IA aún lucharon por reconstruir los detalles exactos a nivel de píxel.
- Analogía: El robot ve una pila de ropa y dice: "Eso es una pila". La IA ve la pila y dice: "Eso es una camisa, un calcetín y un sombrero todos enredados juntos", aunque a veces le cuesta decir exactamente dónde termina uno y empieza el otro.
El Problema de la "Puntuación Perfecta": Incluso el mejor modelo de IA rara vez obtuvo una puntuación perfecta del 100% (donde el dibujo redibujado coincide píxel a píxel con el original). Por lo general, acertaban la estructura (las formas correctas en los lugares correctos) pero fallaban en la precisión (los números exactos para tamaño y posición).

6. Qué Significa Esto

El artículo concluye que no hemos "terminado" con este problema.

La prueba no está saturada (no es demasiado fácil).
Los modelos de IA actuales son excelentes entendiendo el panorama general (estructura espacial) pero aún luchan con los detalles diminutos (parámetros exactos).
La prueba proporciona una forma clara de medir el progreso: a medida que la IA mejore, debería comenzar a vencer al Robot Vieja Escuela en niveles fáciles mientras mantiene su ventaja en niveles difíciles.

En resumen, ShapeCodeBench es un campo de juego fresco e inmanipulable donde podemos ver exactamente dónde es fuerte la IA (entender escenas complejas) y dónde aún es torpe (medir detalles precisos).

Resumen Técnico: ShapeCodeBench

Enunciado del Problema

El artículo aborda el desafío de la reconstrucción de percepción a programa: dado una imagen rasterizada renderizada, un modelo debe emitir un programa de dibujo ejecutable que, al ser volver a renderizado por un evaluador determinista, produzca una imagen idéntica o casi idéntica. Aunque los modelos multimodales modernos son evaluados cada vez más en tareas de imagen-a-código (por ejemplo, captura de pantalla-a-HTML, extracción de estructura), las evaluaciones existentes a menudo carecen de una combinación de ejecución determinista, evaluación basada en renderizado y renovabilidad. La mayoría de las evaluaciones satisfacen solo uno o dos de estos criterios, y pocas permiten la regeneración de conjuntos de prueba frescos y no contaminados sin anotación manual. ShapeCodeBench está diseñado para llenar esta brecha proporcionando una evaluación sintética y renovable para gráficos inversos sobre un Lenguaje de Dominio Específico (DSL) restringido.

Metodología

1. Diseño de la Evaluación

ShapeCodeBench consta de cuatro componentes acoplados:

DSL (Lenguaje de Dominio Específico): Un conjunto mínimo de cuatro primitivas que operan sobre un lienzo fijo de $512 \times 512$ píxeles en blanco y negro: filled_circle (círculo relleno), circle (círculo), filled_square (cuadrado relleno) y square (cuadrado). El lenguaje admite parámetros enteros para coordenadas, tamaño/radio y grosor de trazo. El analizador es una implementación estricta de lista blanca basada en el módulo ast de Python, que rechaza importaciones, bucles y literales no enteros.
Generador de Escenas: Un generador de números aleatorios (RNG) con semilla crea escenas mediante muestreo por rechazo de formas candidatas. Hace cumplir restricciones específicas basadas en tres niveles de dificultad (Fácil, Medio, Difícil) respecto a la cantidad de formas, la extensión (radio/tamaño), el grosor del trazo, la probabilidad de recorte en el lienzo y la superposición de cajas delimitadoras.
Renderizador: Utiliza la biblioteca Pillow para renderizar determinísticamente el programa DSL en una imagen de escala de grises de 8 bits. El orden de renderizado se preserva, pero la paleta binaria hace que las escenas sean invariantes al orden en cuanto a la adición de píxeles de primer plano (las formas posteriores no pueden borrar las anteriores).
Evaluador: Analiza el programa predicho por el modelo, lo vuelve a renderizar y compara el resultado rasterizado con la verdad fundamental.

2. Métricas de Evaluación

El sistema reporta cinco métricas principales:

Coincidencia Exacta: Igualdad píxel a píxel entre la imagen objetivo y la imagen volver a renderizada.
Precisión de Píxeles: Fracción de píxeles coincidentes.
IoU de Primer Plano: Intersección sobre Unión de los píxeles negros.
Éxito de Análisis: Si el programa es sintácticamente válido.
Éxito de Ejecución: Si el programa se renderiza sin errores.

3. Configuración Experimental

Los autores evaluaron seis sistemas en una partición congelada (eval_v1) de 150 muestras (50 por nivel de dificultad):

Líneas Base: Un "piso de Programa Vacío" y una línea base "CV Heurística" (visión por computadora clásica que utiliza componentes conectados, erosión morfológica y relaciones de área/perímetro para estimar parámetros de forma).
Modelos Multimodales:
- Claude Opus 4.7 (1M de contexto): Probado con esfuerzo de razonamiento "alto" y "máximo".
- GPT-5.5: Probado con esfuerzo de razonamiento "medio" y "extra_alto".
Protocolo: Todos los modelos utilizaron indicaciones de cero disparos (zero-shot) con restricciones estrictas de formato. No se utilizaron cadenas de pensamiento ni ejemplos de pocos disparos.

Contribuciones Clave

Lanzamiento de ShapeCodeBench: Una suite completa de evaluaciones que incluye el DSL, un analizador restringido seguro, un generador de escenas con semilla con tres niveles de dificultad y un evaluador basado en renderizado.
Partición de Evaluación Congelada (eval_v1): Un conjunto determinista de 150 muestras con hashes SHA-256 publicados para reproducibilidad exacta entre plataformas.
Flujo de Trabajo Renovable: Un mecanismo para generar particiones de retención frescas a partir de nuevas semillas y evaluarlas automáticamente, mitigando la contaminación de instancias exactas sin requerir anotación humana.
Ejecutor Agnóstico al Proveedor: Una herramienta para registrar indicaciones, configuraciones, salidas crudas y métricas, haciendo que las evaluaciones sean auditables.
Resultados de Línea Base: Reporte exhaustivo de cuatro configuraciones multimodales frente a líneas base que no son LLM, revelando modos de fallo distintos y brechas de rendimiento.

Resultados

Rendimiento General

Coincidencia Exacta: La evaluación está lejos de estar saturada. La mejor tasa de coincidencia exacta lograda por cualquier modelo multimodal es 0.027 (GPT-5.5 medio), mientras que la línea base heurística clásica logra 0.087.
IoU de Primer Plano: Los modelos multimodales superan significativamente a la heurística en esta métrica. GPT-5.5 (extra_alto) logra un IoU medio de primer plano de 0.87, reteniendo la mayor parte de la estructura espacial.
Éxito de Análisis: Los LLM logran altas tasas de éxito de análisis (0.97–1.00), con fallos debidos principalmente a parámetros fuera de rango o grosores de trazo inválidos.

Cruce Dependiente del Nivel

Un hallazgo crítico es el cruce dependiente del nivel entre la heurística y los LLM:

Nivel Fácil: La heurística clásica lidera en coincidencia exacta (0.26) porque las escenas consisten en formas separadas y no superpuestas que los componentes conectados pueden individualizar perfectamente. Los modelos multimodales luchan aquí, a menudo perdiendo la coincidencia exacta por pequeños errores de parámetros (desviación de unos pocos píxeles).
Niveles Medio/Difícil: La heurística colapsa a medida que las formas superpuestas se fusionan en componentes conectados únicos, impidiendo la individualización. Los modelos multimodales retienen la estructura espacial (alto IoU) y pueden enumerar formas superpuestas, aunque siguen sin lograr coincidencias exactas píxel a píxel debido a problemas de precisión de parámetros bajo oclusión.

Modos de Fallo

LLM: Los fallos están dominados por errores "out_of_range" (coordenadas/tamaño fuera de los límites válidos) e "invalid_stroke". También luchan con la estimación precisa de parámetros (por ejemplo, radio exacto o grosor de trazo) y con distinguir formas huecas frente a rellenas cuando los trazos son delgados.
Heurística: No logra individualizar formas superpuestas o recortadas, lo que lleva a una caída brusca en el IoU en niveles más difíciles.

Significado y Afirmaciones

El artículo posiciona a ShapeCodeBench no como un reemplazo para evaluaciones existentes como TurtleBench o Image2Struct, sino como una herramienta complementaria que prioriza el control y la reproducibilidad sobre el realismo.

Valor Diagnóstico: La evaluación expone con éxito modos de fallo distintos: los LLM luchan con la emisión precisa de parámetros incluso cuando comprenden la estructura de la escena, mientras que la CV clásica falla en la individualización en escenas complejas.
Renovabilidad: Al permitir la generación de particiones frescas, la evaluación ofrece un ciclo de retroalimentación sostenible para el desarrollo de modelos, evitando los problemas de "contaminación" comunes en conjuntos de datos estáticos.
Alcance Modesto: Los autores declaran explícitamente que la versión actual es una "v1" con limitaciones deliberadas (paleta monocromática, cuatro primitivas, solo cero disparos). No afirman haber resuelto el problema de la inducción de programas visuales, sino proporcionar un entorno riguroso y renovable para medir el progreso e identificar brechas específicas entre la percepción y la emisión de código estructurado.

El artículo concluye que, aunque los modelos de vanguardia actuales muestran promesa en el razonamiento espacial (alto IoU), están lejos de la precisión requerida para la reconstrucción exacta de programas, y la brecha entre el rendimiento heurístico en tareas simples y el rendimiento de los LLM en tareas complejas destaca la necesidad de más investigación en la estimación de parámetros y el razonamiento sobre oclusión.

ShapeCodeBench: A Renewable Benchmark for Perception-to-Program Reconstruction of Synthetic Shape Scenes