Stel je voor dat je een detective bent die een mysterie probeert op te lossen. Je krijgt een voltooid tekening overhandigd—een zwart-wit afbeelding van cirkels en vierkanten op een witte achtergrond. Je taak is niet alleen om de afbeelding te beschrijven; je moet de exacte computercode schrijven die een robot zou gebruiken om die afbeelding vanaf nul te tekenen.

Dit is de uitdaging van ShapeCodeBench, een nieuwe "test" ontwikkeld door onderzoeker Shivam Kumar om te zien hoe goed moderne AI-modellen zijn in deze specifieke taak.

Hieronder volgt een uiteenzetting van hoe het werkt, waarom het bijzonder is en wat de resultaten ons vertellen, met behulp van eenvoudige analogieën.

1. Het Spel: "Een tekening reverse-engineeren"

Stel je de AI-modellen voor als studenten die een zeer strenge examen afleggen.

De Invoer: De student ziet een afbeelding (een "raster") van zwarte vormen op een wit canvas.
De Taak: De student moet een programma typen in een kleine, specifieke taal (een "DSL") die de computer vertelt hoe die exacte vormen getekend moeten worden.
De Regels: De taal heeft slechts vier bewegingen: een gevulde cirkel tekenen, een omtrekcirkel, een gevuld vierkant of een omtrekvierkant. Het canvas is altijd 512x512 pixels.
De Beoordeling: Een computer leest niet alleen de code van de student; het voert deze uit. Het tekent de afbeelding opnieuw op basis van de code en vergelijkt de nieuwe tekening met de originele. Als zelfs één pixel op de verkeerde plek staat, is het antwoord niet "perfect".

2. Waarom deze Test Anders Is: Het "Oneindige Schone Papier"

De meeste AI-tests gebruiken een vast stel vragen (zoals een standaard wiskundetest). Zodra een AI de antwoorden heeft gememoriseerd, is de test nutteloos. Dit wordt "vervuiling" genoemd.

ShapeCodeBench is als een magische tekenmachine.

Elke keer dat je een nieuwe test wilt, draai je aan een crank (een "seed").
De machine genereert direct een volledig nieuwe, unieke set vormen met verschillende maten, overlappings en posities.
Omdat onderzoekers een nieuwe, frisse set met uitsluitingsgegevens kunnen genereren vanuit een nieuwe seed, vermindert dit de exacte-instantie-contaminatie — het risico dat het model de specifieke testvragen al heeft gezien tijdens het trainen.

3. De Moeilijkheidsniveaus

De test heeft drie niveaus, zoals een videospel:

Makkelijk: Een paar vormen, ver uit elkaar, niet aanrakend.
Middel: Meer vormen, sommige dicht bij elkaar of licht overlappend.
Moeilijk: Veel vormen, allemaal op elkaar gedrukt, zwaar overlappend, en sommige afgesneden door de rand van de pagina.

4. De Deelnemers

Het paper testte twee soorten "studenten":

De Oude-Robot (Heuristisch): Een traditioneel computerprogramma dat naar de afbeelding kijkt, zwarte inktvlekken vindt en raadt: "Dat is een cirkel", "Dat is een vierkant". Het is snel en goed in simpele dingen, maar raakt in de war wanneer vormen overlappen.
De Super-AI (Multimodale Modellen): Twee van 's werelds slimste AI-modellen (Claude Opus 4.7 en GPT-5.5) werden gevraagd om naar de afbeelding te kijken en de code te schrijven. Ze werden getest met verschillende niveaus van "denkinspanning" (zoals hen vragen om "harder te denken" of "meer tijd te nemen").

5. De Resultaten: Een Verhaal van Twee Sterke Punten

De resultaten waren verrassend en toonden aan dat geen van beide kanten nog perfect is.

Op Makkelijke Niveaus: De Oude-Robot won eigenlijk! Het was beter in het krijgen van de exacte code goed voor simpele, niet-overlappende vormen. De Super-AI's kregen vaak de vormen wel goed, maar maakten fouten in de kleine details (zoals de straal die een paar pixels afweek).
- Analogie: De robot is als een timmerman die een enkel, geïsoleerd plank perfect kan afmeten. De AI is als een creatieve kunstenaar die weet hoe een stoel eruitziet, maar moeite heeft om de poten tot op de millimeter af te meten.
Op Moeilijke Niveaus: Toen vormen op elkaar gestapeld waren, raakte de Oude-Robot in de war en zag vaak één grote vlek in plaats van aparte vormen. De Super-AI's behielden meer van de ruimtelijke structuur in deze moeilijkere scènes — vooral gemeten aan de hand van de voorgrond-IoU (hoeveel de geschilderde gebieden van de twee afbeeldingen overlappen) — en schreven code die de algemene opbouw van de stapel vastlegde. Maar geen van beide partijen masterde de moeilijke scènes: zelfs de Super-AI's hadden nog steeds moeite om de exacte details op pixelniveau te reconstrueren.
- Analogie: De robot ziet een hoop wasgoed en zegt: "Dat is een hoop." De AI ziet de hoop en zegt: "Dat is een overhemd, een sok en een hoed, allemaal in elkaar verstrikt," maar heeft moeite om de exacte vouwen en posities van elk kledingstuk perfect na te bootsen.
Het "Perfecte Score"-Probleem: Zelfs het beste AI-model kreeg zelden een 100% perfecte score (waarbij de opnieuw getekende afbeelding pixel-voor-pixel overeenkomt met het origineel). Ze kregen meestal de structuur goed (de juiste vormen op de juiste plaatsen), maar faalden op de precisie (de exacte nummers voor grootte en positie).

6. Wat Dit Betekent

Het paper concludeert dat we met dit probleem nog niet "klaar" zijn.

De test is niet verzadigd (het is niet te makkelijk).
Huidige AI-modellen zijn geweldig in het begrijpen van het grote plaatje (ruimtelijke structuur), maar worstelen nog steeds met de kleine details (exacte parameters).
De test biedt een duidelijke manier om vooruitgang te meten: naarmate AI beter wordt, zou het de Oude-Robot op makkelijke niveaus moeten gaan verslaan, terwijl het zijn voorsprong op moeilijke niveaus behoudt.

Kortom, ShapeCodeBench is een frisse, renewable speelplaats waar we precies kunnen zien waar AI sterk is (het begrijpen van complexe scènes) en waar het nog onhandig is (het meten van precieze details).

Technische Samenvatting: ShapeCodeBench

Probleemstelling

Het artikel behandelt de uitdaging van perceptie-naar-programma reconstructie: gegeven een gerenderde rasterafbeelding, moet een model een uitvoerbaar tekenprogramma genereren dat, wanneer het opnieuw wordt gerenderd door een deterministische evaluator, een identieke of bijna identieke afbeelding oplevert. Hoewel moderne multimodale modellen steeds vaker worden geëvalueerd op taken van afbeelding-naar-code (bijvoorbeeld screenshot-naar-HTML, structuurextractie), missen bestaande benchmarks vaak een combinatie van deterministische uitvoering, render-gebaseerde scoring en hernieuwbaarheid. De meeste benchmarks voldoen slechts aan één of twee van deze criteria, en slechts weinig staan toe dat verse, onbesmette testsets worden gegenereerd zonder handmatige annotatie. ShapeCodeBench is ontworpen om deze kloof te dichten door een synthetische, hernieuwbare benchmark te bieden voor inverse graphics binnen een beperkte Domain Specific Language (DSL).

Methodologie

1. Benchmarkontwerp

ShapeCodeBench bestaat uit vier gekoppelde componenten:

DSL (Domain Specific Language): Een minimale set van vier primitieven die opereren op een vast $512 \times 512$ zwart-op-wit canvas: filled_circle, circle, filled_square en square. De taal ondersteunt integer-parameters voor coördinaten, grootte/radius en lijndikte. De parser is een strikte whitelist-implementatie gebaseerd op Python's ast-module, die imports, lussen en niet-integer literalen verwierpt.
Scènegenerator: Een met een zaadje gestelde willekeurige getallengenerator (RNG) creëert scènes door kandidaat-vormen te selecteren via rejection sampling. Deze handhaaft specifieke beperkingen gebaseerd op drie moeilijkheidsgraden (Gemakkelijk, Gemiddeld, Moeilijk) met betrekking tot aantal vormen, uitgestrektheid (radius/grootte), lijndikte, kans op canvas-clipping en overlap van omhullende rechthoeken.
Renderer: Gebruikt de Pillow-bibliotheek om het DSL-programma deterministisch te renderen naar een 8-bit grijswaardenafbeelding. De rendervolgorde wordt behouden, maar het binaire palet maakt scènes volgorde-invariant met betrekking tot het toevoegen van voorgrondpixels (latere vormen kunnen eerdere vormen niet wissen).
Evaluator: Parseert het door het model voorspelde programma, render het opnieuw en vergelijkt de resulterende rasterafbeelding met de ground truth.

2. Evaluatiemetrics

Het systeem rapporteert vijf primaire metrics:

Exacte Overeenkomst: Pixel-perfecte gelijkheid tussen de doelafbeelding en de opnieuw gerenderde afbeelding.
Pixelnauwkeurigheid: Fractie van overeenkomende pixels.
Foreground IoU: Intersection-over-Union van zwarte pixels.
Parse-succes: Of het programma syntactisch geldig is.
Uitvoeringssucces: Of het programma zonder fouten wordt gerenderd.

3. Experimentele Opstelling

De auteurs evalueerden zes systemen op een bevroren split (eval_v1) van 150 samples (50 per moeilijkheidsgraad):

Baselines: Een "Empty-Program"-ondergrens en een "Heuristic-CV"-baseline (klassieke computer vision die gebruikmaakt van verbonden componenten, morfologische erosie en oppervlakte/omtrek-verhoudingen om vormparameters te schatten).
Multimodale Modellen:
- Claude Opus 4.7 (1M context): Getest met "hoog" en "max" redeneerinspanning.
- GPT-5.5: Getest met "medium" en "extra_high" redeneerinspanning.
Protocol: Alle modellen gebruikten zero-shot prompting met strikte opmaakbeperkingen. Er werden geen chain-of-thought of few-shot voorbeelden gebruikt.

Belangrijkste Bijdragen

Release van ShapeCodeBench: Een complete benchmark-suite inclusief de DSL, een veilige beperkte parser, een met een zaadje gestelde scènegenerator met drie moeilijkheidsgraden en een render-gebaseerde evaluator.
Bevroren Evaluatiesplit (eval_v1): Een deterministische set van 150 samples met gepubliceerde SHA-256-hashes voor exacte reproduceerbaarheid over platforms heen.
Hernieuwbare Werkstroom: Een mechanisme om verse, vastgehouden splits te genereren vanuit nieuwe zaden en deze automatisch te scoren, waarmee besmetting door exacte instanties wordt tegengegaan zonder menselijke annotatie.
Provider-onafhankelijke Runner: Een tool om prompts, configuraties, ruwe outputs en metrics op te nemen, waardoor evaluaties auditabel worden.
Baseline-resultaten: Uitgebreide rapportage van vier multimodale configuraties tegenover niet-LLM-baselines, waarbij onderscheidende faalmodi en prestatiekloven worden blootgelegd.

Resultaten

Algemene Prestaties

Exacte Overeenkomst: De benchmark is verre van verzadigd. De beste exacte overeenkomstsscore die door een multimodaal model wordt behaald is 0,027 (GPT-5.5 medium), terwijl de klassieke heuristische baseline 0,087 bereikt.
Foreground IoU: Multimodale modellen presteren op deze metric significant beter dan de heuristiek. GPT-5.5 (extra_high) bereikt een gemiddelde foreground IoU van 0,87, waarbij de meeste ruimtelijke structuur behouden blijft.
Parse-succes: LLM's bereiken hoge parse-succespercentages (0,97–1,00), waarbij mislukkingen voornamelijk te wijten zijn aan parameters buiten het bereik of ongeldige lijndiktes.

Graad-afhankelijke Crossover

Een kritieke bevinding is de graad-afhankelijke crossover tussen de heuristiek en LLM's:

Gemakkelijke Graad: De klassieke heuristiek leidt qua exacte overeenkomst (0,26) omdat scènes bestaan uit gescheiden, niet-overlappende vormen die verbonden componenten perfect kunnen individueren. Multimodale modellen worstelen hier, vaak net de exacte overeenkomst missend door kleine parameterfouten (enkele pixels afwijking).
Gemiddelde/Moeilijke Graden: De heuristiek stort in omdat overlappende vormen samensmelten tot enkele verbonden componenten, wat individueren verhindert. Multimodale modellen behouden ruimtelijke structuur (hoge IoU) en kunnen overlappende vormen enumereren, hoewel ze nog steeds falen om pixel-perfecte exacte overeenkomsten te bereiken door parameterprecisieproblemen onder occlusie.

Faalmodi

LLM's: Mislukkingen worden gedomineerd door "out_of_range" (coördinaten/grootte buiten geldige grenzen) en "invalid_stroke"-fouten. Ze worstelen ook met nauwkeurige parameterschatting (bijvoorbeeld exacte radius of lijndikte) en het onderscheiden van holle versus gevulde vormen wanneer lijnen dun zijn.
Heuristiek: Faalt bij het individueren van overlappende of geknipte vormen, wat leidt tot een scherpe daling in IoU op moeilijkere graden.

Betekenis en Claims

Het artikel positioneert ShapeCodeBench niet als een vervanging voor bestaande benchmarks zoals TurtleBench of Image2Struct, maar als een aanvullend hulpmiddel dat controle en reproduceerbaarheid prioriteert boven realisme.

Diagnostische Waarde: De benchmark blootlegt succesvol onderscheidende faalmodi: LLM's worstelen met nauwkeurige parameteremissie, zelfs wanneer ze de scènestructuur begrijpen, terwijl klassieke CV faalt bij individueren in complexe scènes.
Hernieuwbaarheid: Door het genereren van verse splits mogelijk te maken, biedt de benchmark een duurzame feedbacklus voor modelontwikkeling, waarmee de "besmettings"-problemen die gebruikelijk zijn in statische datasets worden vermeden.
Beperkte Omvang: De auteurs stellen expliciet dat de huidige versie een "v1" is met bewuste beperkingen (monochroom palet, vier primitieven, alleen zero-shot). Zij claimen niet het probleem van visuele programma-inductie opgelost te hebben, maar bieden eerder een rigoureuze, hernieuwbare omgeving om vooruitgang te meten en specifieke kloven te identificeren tussen perceptie en gestructureerde code-emissie.

Het artikel concludeert dat hoewel huidige frontier-modellen veelbelovend zijn in ruimtelijk redeneren (hoge IoU), ze ver verwijderd zijn van de precisie die nodig is voor exacte programma-reconstructie, en dat de kloof tussen heuristische prestaties op eenvoudige taken en LLM-prestaties op complexe taken de noodzaak onderstreept voor verder onderzoek naar parameterschatting en redeneren over occlusie.

ShapeCodeBench: A Renewable Benchmark for Perception-to-Program Reconstruction of Synthetic Shape Scenes