Stellen Sie sich vor, Sie sind ein Detektiv, der versucht, ein Rätsel zu lösen. Ihnen wird eine fertige Zeichnung übergeben – ein schwarz-weißes Bild aus Kreisen und Quadraten auf weißem Hintergrund. Ihre Aufgabe besteht nicht nur darin, das Bild zu beschreiben; Sie müssen den exakten Computercode schreiben, den ein Roboter verwenden würde, um dieses Bild von Grund auf neu zu zeichnen.

Dies ist die Herausforderung von ShapeCodeBench, einem neuen „Test", der vom Forscher Shivam Kumar entwickelt wurde, um zu prüfen, wie gut moderne KI-Modelle bei dieser spezifischen Aufgabe sind.

Hier ist eine Aufschlüsselung, wie es funktioniert, warum es besonders ist und was die Ergebnisse uns sagen, unter Verwendung einfacher Analogien.

1. Das Spiel: „Reverse-Engineering einer Zeichnung"

Stellen Sie sich die KI-Modelle als Schüler vor, die eine sehr strenge Prüfung ablegen.

Die Eingabe: Der Schüler sieht ein Bild (ein „Raster") schwarzer Formen auf einer weißen Leinwand.
Die Aufgabe: Der Schüler muss ein Programm in einer winzigen, spezifischen Sprache (eine „DSL") tippen, das einem Computer sagt, wie es diese exakten Formen zeichnet.
Die Regeln: Die Sprache bietet nur vier Bewegungen: einen gefüllten Kreis, einen Umriß-Kreis, ein gefülltes Quadrat oder ein Umriß-Quadrat zeichnen. Die Leinwand ist immer 512x512 Pixel groß.
Die Benotung: Ein Computer liest den Code des Schülers nicht nur; er führt ihn aus. Er zeichnet das Bild basierend auf dem Code erneut und vergleicht die neue Zeichnung mit dem Original. Wenn auch nur ein Pixel falsch platziert ist, ist die Antwort nicht „perfekt".

2. Warum dieser Test anders ist: Das „Unendliche frische Papier"

Die meisten KI-Tests verwenden einen festen Satz von Fragen (wie ein Standard-Mathematiktest). Sobald eine KI die Antworten auswendig gelernt hat, ist der Test nutzlos. Dies wird als „Kontamination" bezeichnet.

ShapeCodeBench ist wie eine magische Zeichenmaschine.

Jedes Mal, wenn Sie einen neuen Test wünschen, drehen Sie eine Kurbel (ein „Seed").
Die Maschine generiert sofort einen brandneuen, einzigartigen Satz von Formen mit unterschiedlichen Größen, Überlappungen und Positionen.
Weil Forscher jederzeit einen neuen Held-out-Datensatz aus einem neuen Seed generieren können, reduziert dies die „exact-instance contamination" – das Risiko, dass das Modell die spezifischen Testfragen bereits während des Trainings gesehen hat.

3. Die Schwierigkeitsstufen

Der Test hat drei Stufen, wie ein Videospiel:

Einfach: Einige Formen, weit voneinander entfernt, nicht berührend.
Mittel: Mehr Formen, einige kommen sich nahe oder überlappen sich leicht.
Schwer: Viele Formen, alle eng zusammengedrängt, stark überlappend, und einige vom Rand der Seite abgeschnitten.

4. Die Teilnehmer

Die Arbeit testete zwei Arten von „Schülern":

Der Old-School-Roboter (Heuristik): Ein traditionelles Computerprogramm, das das Bild betrachtet, schwarze Tintenflecken findet und rät: „Das ist ein Kreis", „Das ist ein Quadrat". Es ist schnell und gut bei einfachen Dingen, gerät aber in Verwirrung, wenn sich Formen überlappen.
Der Super-KI (Multimodale Modelle): Zwei der weltweit intelligentesten KI-Modelle (Claude Opus 4.7 und GPT-5.5) wurden aufgefordert, das Bild zu betrachten und den Code zu schreiben. Sie wurden mit unterschiedlichen Niveaus an „Denk-Anstrengung" getestet (wie sie zu bitten, „intensiver zu denken" oder „mehr Zeit zu nehmen").

5. Die Ergebnisse: Eine Geschichte zweier Stärken

Die Ergebnisse waren überraschend und zeigten, dass keine Seite bisher perfekt ist.

Auf einfachen Stufen: Der Old-School-Roboter gewann tatsächlich! Er war besser darin, den exakten Code für einfache, nicht überlappende Formen zu erhalten. Die Super-KIs bekamen oft die Formen richtig, vermasselten aber die winzigen Details (wie den Radius, der um einige Pixel falsch war).
- Analogie: Der Roboter ist wie ein Tischler, der ein einzelnes, isoliertes Brett perfekt vermessen kann. Die KI ist wie ein kreativer Künstler, der weiß, wie ein Stuhl aussieht, aber Schwierigkeiten hat, die Beine auf den Millimeter genau zu vermessen.
Auf schweren Stufen: Wenn Formen übereinander gestapelt waren, geriet der Old-School-Roboter in Verwirrung und sah oft einen großen Fleck statt separater Formen. Die Super-KIs behielten in diesen schwierigeren Szenen mehr der räumlichen Struktur bei – insbesondere gemessen am „foreground IoU" (wie stark die gemalten Bereiche der beiden Bilder übereinstimmen) – und schrieben Code, der das allgemeine Layout des Stapels einfing. Aber keine Seite meisterte schwierige Szenen perfekt: Selbst die Super-KIs hatten immer noch Schwierigkeiten, die exakten Details auf Pixelebene wiederherzustellen.
- Analogie: Der Roboter sieht einen Haufen Wäsche und sagt: „Das ist ein Haufen." Die KI sieht den Haufen und sagt: „Das ist ein Hemd, eine Socke und ein Hut, die alle miteinander verwickelt sind" – sie erkennt die Struktur, hat aber immer noch Mühe, die exakten Grenzen jedes einzelnen Kleidungsstücks zu vermessen.
Das Problem mit der „perfekten Punktzahl": Selbst das beste KI-Modell erreichte selten eine 100%ige perfekte Punktzahl (wo das neu gezeichnete Bild Pixel für Pixel mit dem Original übereinstimmt). Sie bekamen meist die Struktur richtig (die richtigen Formen an den richtigen Stellen), scheiterten aber an der Präzision (die exakten Zahlen für Größe und Position).

6. Was dies bedeutet

Die Arbeit kommt zu dem Schluss, dass wir mit diesem Problem noch nicht „fertig" sind.

Der Test ist nicht gesättigt (er ist nicht zu einfach).
Aktuelle KI-Modelle sind großartig darin, das große Ganze (räumliche Struktur) zu verstehen, haben aber immer noch Schwierigkeiten mit den winzigen Details (exakte Parameter).
Der Test bietet eine klare Möglichkeit, Fortschritte zu messen: Wenn die KI besser wird, sollte sie beginnen, den Old-School-Roboter auf einfachen Stufen zu schlagen, während sie ihre Führung auf schweren Stufen behält.

Kurz gesagt ist ShapeCodeBench ein frischer, erneuerbarer Spielplatz, auf dem wir genau sehen können, wo KI stark ist (das Verstehen komplexer Szenen) und wo sie noch ungeschickt ist (das Vermessen präziser Details).

Technische Zusammenfassung: ShapeCodeBench

Problemstellung

Die Arbeit adressiert die Herausforderung der Rekonstruktion von Wahrnehmung zu Programm: Gegeben ein gerendertes Rasterbild muss ein Modell ein ausführbares Zeichenprogramm ausgeben, das bei erneuter Darstellung durch einen deterministischen Auswerter ein identisches oder nahezu identisches Bild erzeugt. Während moderne multimodale Modelle zunehmend für Aufgaben von Bild zu Code (z. B. Screenshot zu HTML, Strukturerkennung) evaluiert werden, fehlt es bestehenden Benchmarks oft an einer Kombination aus deterministischer Ausführung, renderbasierter Bewertung und Erneuerbarkeit. Die meisten Benchmarks erfüllen nur ein oder zwei dieser Kriterien, und nur wenige ermöglichen die Generierung neuer, unkontaminierter Testsets ohne manuelle Annotation. ShapeCodeBench wurde entwickelt, um diese Lücke zu schließen, indem es einen synthetischen, erneuerbaren Benchmark für inverse Grafik über eine eingeschränkte domänenspezifische Sprache (DSL) bereitstellt.

Methodik

1. Benchmark-Design

ShapeCodeBench besteht aus vier gekoppelten Komponenten:

DSL (Domänenspezifische Sprache): Ein minimales Set von vier Primitiven, die auf einer festen $512 \times 512$ -Leinwand mit schwarzen Formen auf weißem Hintergrund operieren: filled_circle, circle, filled_square und square. Die Sprache unterstützt ganzzahlige Parameter für Koordinaten, Größe/Radius und Strichstärke. Der Parser ist eine strikte Whitelist-Implementierung, die auf dem ast-Modul von Python basiert und Importe, Schleifen sowie nicht-ganzzahlige Literale ablehnt.
Szenengenerator: Ein mit einem Seed initialisierter Zufallszahlengenerator (RNG) erstellt Szenen durch Ablehnungs-Sampling von Kandidatenformen. Er erzwingt spezifische Einschränkungen basierend auf drei Schwierigkeitsstufen (Einfach, Mittel, Schwer) hinsichtlich der Anzahl der Formen, der Ausdehnung (Radius/Größe), der Strichstärke, der Wahrscheinlichkeit für Leinwand-Abschneidungen und der Überlappung von Begrenzungsrahmen.
Renderer: Verwendet die Pillow-Bibliothek, um das DSL-Programm deterministisch in ein 8-Bit-Grayscale-Bild zu rendern. Die Renderreihenfolge wird beibehalten, aber die binäre Palette macht Szenen in Bezug auf das Hinzufügen von Vordergrundpixeln reihenfolgeinvariant (spätere Formen können frühere nicht löschen).
Auswerter: Parsst das vom Modell vorhergesagte Programm, rendert es erneut und vergleicht das resultierende Raster mit dem Ground Truth.

2. Evaluierungsmetriken

Das System berichtet fünf primäre Metriken:

Exakte Übereinstimmung: Pixelgenaue Gleichheit zwischen Zielbild und erneut gerendertem Bild.
Pixelgenauigkeit: Anteil der übereinstimmenden Pixel.
Foreground-IoU: Intersection-over-Union der schwarzen Pixel.
Parse-Erfolg: Ob das Programm syntaktisch gültig ist.
Ausführungserfolg: Ob das Programm ohne Fehler gerendert wird.

3. Experimentelles Setup

Die Autoren evaluierten sechs Systeme auf einem eingefrorenen Split (eval_v1) von 150 Beispielen (50 pro Schwierigkeitsstufe):

Baselines: Eine „Empty-Program"-Untergrenze und eine „Heuristic-CV"-Baseline (klassische Computervision unter Verwendung von zusammenhängenden Komponenten, morphologischer Erosion sowie Flächen-/Umfangsverhältnissen zur Schätzung von Formparametern).
Multimodale Modelle:
- Claude Opus 4.7 (1M Kontext): Getestet mit „high" und „max" reasoning effort.
- GPT-5.5: Getestet mit „medium" und „extra_high" reasoning effort.
Protokoll: Alle Modelle verwendeten Zero-Shot-Prompts mit strikten Formatierungsbeschränkungen. Es wurden keine Chain-of-Thought- oder Few-Shot-Beispiele verwendet.

Hauptbeiträge

Veröffentlichung von ShapeCodeBench: Eine vollständige Benchmark-Suite, die die DSL, einen sicheren eingeschränkten Parser, einen mit Seeds initialisierten Szenengenerator mit drei Schwierigkeitsstufen und einen renderbasierten Auswerter umfasst.
Eingefrorener Evaluierungssplit (eval_v1): Ein deterministisches Set von 150 Beispielen mit veröffentlichten SHA-256-Hashes für exakte Reproduzierbarkeit über Plattformen hinweg.
Erneuerbarer Workflow: Ein Mechanismus zur Generierung neuer, zurückgehaltener Splits aus neuen Seeds und deren automatische Bewertung, der die Kontamination durch exakte Instanzen ohne menschliche Annotation mitigiert.
Anbieterunabhängiger Runner: Ein Tool zur Aufzeichnung von Prompts, Konfigurationen, Rohausgaben und Metriken, um Evaluierungen auditierbar zu machen.
Baseline-Ergebnisse: Umfassende Berichterstattung über vier multimodale Konfigurationen im Vergleich zu Nicht-LLM-Baselines, die unterschiedliche Fehlermodi und Leistungslücken aufzeigt.

Ergebnisse

Gesamtleistung

Exakte Übereinstimmung: Der Benchmark ist bei weitem nicht gesättigt. Die beste von einem multimodalen Modell erreichte exakte Übereinstimmungsrate beträgt 0,027 (GPT-5.5 medium), während die klassische heuristische Baseline 0,087 erreicht.
Foreground-IoU: Multimodale Modelle übertreffen die Heuristik bei dieser Metrik erheblich. GPT-5.5 (extra_high) erreicht eine mittlere Foreground-IoU von 0,87 und behält die meisten räumlichen Strukturen bei.
Parse-Erfolg: LLMs erreichen hohe Parse-Erfolgsraten (0,97–1,00), wobei Fehler hauptsächlich auf Parameter außerhalb des Bereichs oder ungültige Strichstärken zurückzuführen sind.

Stufenabhängiger Kreuzungspunkt

Ein entscheidendes Ergebnis ist der stufenabhängige Kreuzungspunkt zwischen der Heuristik und LLMs:

Einfache Stufe: Die klassische Heuristik führt bei der exakten Übereinstimmung (0,26), da Szenen aus getrennten, nicht überlappenden Formen bestehen, die zusammenhängende Komponenten perfekt individualisieren können. Multimodale Modelle haben hier Schwierigkeiten und verfehlen die exakte Übereinstimmung oft durch kleine Parameterfehler (ein paar Pixel daneben).
Mittlere/Schwere Stufen: Die Heuristik kollabiert, da sich überlappende Formen zu einzelnen zusammenhängenden Komponenten verschmelzen, was eine Individualisierung verhindert. Multimodale Modelle behalten räumliche Strukturen (hohe IoU) bei und können überlappende Formen auflisten, scheitern jedoch weiterhin an pixelgenauen exakten Übereinstimmungen aufgrund von Parametergenauigkeitsproblemen unter Okklusion.

Fehlermodi

LLMs: Fehler werden dominiert von „out_of_range" (Koordinaten/Größe außerhalb gültiger Grenzen) und „invalid_stroke"-Fehlern. Sie haben zudem Schwierigkeiten mit der präzisen Parameterschätzung (z. B. exakter Radius oder Strichstärke) und der Unterscheidung zwischen hohlen und gefüllten Formen, wenn die Striche dünn sind.
Heuristik: Scheitert daran, überlappende oder abgeschnittene Formen zu individualisieren, was zu einem starken Abfall der IoU bei schwierigeren Stufen führt.

Bedeutung und Behauptungen

Die Arbeit positioniert ShapeCodeBench nicht als Ersatz für bestehende Benchmarks wie TurtleBench oder Image2Struct, sondern als ergänzendes Werkzeug, das Kontrolle und Reproduzierbarkeit über Realismus priorisiert.

Diagnostischer Wert: Der Benchmark zeigt erfolgreich unterschiedliche Fehlermodi auf: LLMs haben Schwierigkeiten mit der präzisen Parameterausgabe, selbst wenn sie die Szenenstruktur verstehen, während klassische Computervision bei der Individualisierung in komplexen Szenen versagt.
Erneuerbarkeit: Durch die Möglichkeit, neue Splits zu generieren, bietet der Benchmark einen nachhaltigen Feedback-Loop für die Modellentwicklung und vermeidet die „Kontaminations"-Probleme, die in statischen Datensätzen üblich sind.
Bescheidener Umfang: Die Autoren stellen explizit fest, dass die aktuelle Version eine „v1" mit bewussten Einschränkungen ist (monochrome Palette, vier Primitiven, nur Zero-Shot). Sie behaupten nicht, das Problem der visuellen Programminduktion gelöst zu haben, sondern bieten vielmehr eine strenge, erneuerbare Umgebung, um Fortschritte zu messen und spezifische Lücken zwischen Wahrnehmung und strukturierter Codeausgabe zu identifizieren.

Die Arbeit kommt zu dem Schluss, dass zwar aktuelle Frontier-Modelle vielversprechende räumliche Schlussfolgerungen zeigen (hohe IoU), sie jedoch weit von der für eine exakte Programmwiedergewinnung erforderlichen Präzision entfernt sind, und die Lücke zwischen der Heuristik-Leistung bei einfachen Aufgaben und der LLM-Leistung bei komplexen Aufgaben die Notwendigkeit weiterer Forschung in der Parameterschätzung und im Schlussfolgern unter Okklusion unterstreicht.

ShapeCodeBench: A Renewable Benchmark for Perception-to-Program Reconstruction of Synthetic Shape Scenes