想象你是一名侦探，正在试图解开一个谜团。你被交给一幅完成的画作——白底上由圆形和方形构成的黑白图像。你的任务不仅仅是描述这幅画；你必须写出精确的计算机代码，让机器人能够从零开始绘制出这幅画。

这就是ShapeCodeBench所面临的挑战，这是由研究员 Shivam Kumar 创建的一项新“测试”，旨在评估现代 AI 模型在这项特定任务上的表现。

以下是该测试如何运作、为何特殊以及结果揭示了什么的简要说明，其中使用了简单的类比。

1. 游戏：“逆向工程一幅画作”

将 AI 模型想象成参加一场极其严格的考试的学生。

输入： 学生看到一张图片（即“光栅图”），上面是白色画布上的黑色形状。
任务： 学生必须用一种微小且特定的语言（即“领域特定语言”，DSL）输入一段程序，告诉计算机如何绘制出那些完全相同的形状。
规则： 该语言仅有四种操作：绘制实心圆、空心圆、实心正方形或空心正方形。画布尺寸始终为 512x512 像素。
评分： 计算机并非仅仅阅读学生的代码；它会运行该代码。它根据代码重新绘制图片，并将新绘制的图像与原始图像进行比较。即使只有一个像素位置错误，答案也不算“完美”。

2. 为何这项测试与众不同：“无限的新鲜画纸”

大多数 AI 测试使用固定的一组问题（就像标准的数学考试）。一旦 AI 记住了答案，测试就失去了意义。这被称为“污染”。

ShapeCodeBench 就像一台魔法绘图机。

每次你想要一个新的测试时，只需转动一个曲柄（即“种子”）。
机器会立即生成一套全新的、独特的形状，具有不同的大小、重叠和位置。
因为研究人员可以随时从新种子生成新的保留集（held-out set），这减少了精确实例污染（exact-instance contamination）——即模型在训练期间已经见过特定测试问题的风险。

3. 难度等级

该测试设有三个等级，就像电子游戏一样：

简单： 少量形状，彼此相距较远，互不接触。
中等： 更多形状，部分彼此靠近或轻微重叠。
困难： 大量形状，全部挤在一起，严重重叠，部分甚至被页面边缘截断。

4. 参赛者

该论文测试了两类“学生”：

老式机器人（启发式方法）： 一种传统的计算机程序，它观察图片，寻找黑色墨迹的团块，并猜测：“那是个圆”，“那是个方”。它速度快，擅长处理简单事物，但在形状重叠时会感到困惑。
超级 AI（多模态模型）： 全球最聪明的两个 AI 模型（Claude Opus 4.7 和 GPT-5.5）被要求观察图片并编写代码。它们在不同程度的“思考努力”下接受了测试（例如要求它们“更深入思考”或“花费更多时间”）。

5. 结果：两种优势的故事

结果令人惊讶，表明双方都尚未达到完美。

在简单等级上： 老式机器人实际上赢了！它在获取简单、非重叠形状的精确代码方面表现更好。超级 AI 通常能正确识别形状，但在微小细节上出错（例如半径偏差几个像素）。
- 类比： 机器人就像一位能完美测量单块孤立木板的木匠。AI 则像一位有创造力的艺术家，知道椅子长什么样，但难以将椅腿测量到毫米级精度。
在困难等级上： 当形状层层堆叠时，老式机器人感到困惑，通常将多个形状视为一个巨大的团块。超级 AI 在这些更复杂的场景中保留了更多的空间结构——尤其是以前景 IoU（两张图片中绘制区域的重叠程度）来衡量时——并编写了能够捕捉堆叠整体布局的代码。但双方都未掌握困难场景：即使是超级 AI 也难以重建精确的像素级细节。
- 类比： 机器人看到一堆洗衣物时说：“那是一堆。”AI 看到那堆衣物则说：“那是一件衬衫、一只袜子和一顶帽子，全都纠缠在一起。”（这展示了 AI 能识别结构，但难以精确还原细节）。
“满分”问题： 即使是最好的 AI 模型，也很少获得100% 的满分（即重绘的图片与原始图片像素级完全匹配）。它们通常能正确把握结构（正确的形状在正确的位置），但在精度（尺寸和位置的精确数值）上失败。

6. 这意味着什么

该论文得出结论，我们尚未“解决”这个问题。

该测试并未饱和（它并非过于简单）。
当前的 AI 模型非常擅长理解宏观图景（空间结构），但在微小细节（精确参数）方面仍存在困难。
该测试提供了一种清晰的衡量进步的方式：随着 AI 变得更好，它应该在简单等级上开始击败老式机器人，同时在困难等级上保持其领先优势。

简而言之，ShapeCodeBench 是一个新颖且可再生的游乐场，让我们能够确切地看到 AI 在哪里表现出色（理解复杂场景），以及在哪里仍然笨拙（测量精确细节）。

技术摘要：ShapeCodeBench

问题陈述

本文解决了从感知到程序重建的挑战：给定一张渲染后的光栅图像，模型必须输出一段可执行的绘图程序，当由确定性评估器重新渲染时，能生成相同或近乎相同的图像。尽管现代多模态模型正越来越多地在图像到代码的任务（例如截图转 HTML、结构提取）上接受评估，但现有基准测试往往缺乏确定性执行、基于渲染的评分和可再生性的结合。大多数基准测试仅满足其中一两个标准，且很少有基准测试能够在无需人工标注的情况下重新生成新鲜、未受污染测试集。ShapeCodeBench 旨在填补这一空白，通过提供一个针对受限领域特定语言（DSL）的逆图形合成、可再生基准测试。

方法论

1. 基准测试设计

ShapeCodeBench 由四个耦合组件构成：

DSL（领域特定语言）： 一组最简化的四个原语，在固定的 $512 \times 512$ 白底黑图画布上操作：filled_circle（实心圆）、circle（空心圆）、filled_square（实心正方形）和 square（空心正方形）。该语言支持用于坐标、尺寸/半径和笔划宽度的整数参数。解析器是基于 Python ast 模块的严格白名单实现，拒绝导入、循环和非整数字面量。
场景生成器： 一个带种子的随机数生成器（RNG）通过拒绝采样候选形状来创建场景。它根据三个难度等级（简单、中等、困难）强制执行特定约束，涉及形状数量、范围（半径/尺寸）、笔划宽度、画布裁剪概率以及边界框重叠。
渲染器： 使用 Pillow 库将 DSL 程序确定性渲染为 8 位灰度图像。渲染顺序被保留，但二进制调色板使得场景在前景像素添加方面具有顺序不变性（后续形状无法擦除先前的形状）。
评估器： 解析模型预测的程序，重新渲染它，并将生成的光栅图像与真实值进行比较。

2. 评估指标

系统报告五个主要指标：

精确匹配： 目标图像与重新渲染图像之间的像素级完全相等。
像素准确率： 匹配像素的比例。
前景 IoU： 黑色像素的交并比（Intersection-over-Union）。
解析成功： 程序在语法上是否有效。
执行成功： 程序是否无错误地渲染。

3. 实验设置

作者在冻结的 eval_v1 划分（150 个样本，每个难度等级 50 个）上评估了六个系统：

基线： 一个“空程序”下限和一个“启发式计算机视觉”基线（使用连通分量、形态学腐蚀以及面积/周长比来估计形状参数的经典计算机视觉方法）。
多模态模型：
- Claude Opus 4.7（1M 上下文）： 在“高”和“最大”推理力度下测试。
- GPT-5.5： 在“中等”和“超高”推理力度下测试。
协议： 所有模型均使用零样本提示，并施加严格的格式约束。未使用思维链或少样本示例。

主要贡献

ShapeCodeBench 发布： 一个完整的基准测试套件，包括 DSL、安全受限解析器、具有三个难度等级的带种子场景生成器以及基于渲染的评估器。
冻结评估划分（eval_v1）： 一个包含 150 个样本的确定性集合，附带已发布的 SHA-256 哈希值，以确保跨平台的精确可复现性。
可再生工作流： 一种机制，可从新种子生成新的保留划分并自动评分，从而在无需人工标注的情况下减轻具体实例污染问题。
提供商无关运行器： 一个工具，用于记录提示、配置、原始输出和指标，使评估可审计。
基线结果： 全面报告了四种多模态配置与非 LLM 基线的对比，揭示了不同的失败模式和性能差距。

结果

整体性能

精确匹配： 该基准测试远未饱和。任何多模态模型实现的最高精确匹配率为 0.027（GPT-5.5 中等），而经典启发式基线实现了 0.087。
前景 IoU： 多模态模型在此指标上显著优于启发式方法。GPT-5.5（超高）实现了 0.87 的平均前景 IoU，保留了大部分空间结构。
解析成功： LLM 实现了高解析成功率（0.97–1.00），失败主要是由于参数超出范围或无效的笔划宽度。

依赖等级的交叉现象

一个关键发现是启发式方法与 LLM 之间存在依赖等级的交叉：

简单等级： 经典启发式方法在精确匹配方面领先（0.26），因为场景由分离的、不重叠的形状组成，连通分量可以完美地将其个体化。多模态模型在此处表现挣扎，通常因微小的参数误差（偏差几个像素）而错失精确匹配。
中等/困难等级： 随着重叠形状融合为单个连通分量从而阻碍个体化，启发式方法崩溃。多模态模型保留了空间结构（高 IoU）并能枚举重叠形状，但由于遮挡下的参数精度问题，它们仍无法实现像素级的精确匹配。

失败模式

LLM： 失败主要由“超出范围”（坐标/尺寸超出有效边界）和“无效笔划”错误主导。它们还难以进行精确的参数估计（例如，精确的半径或笔划宽度），并且在笔划较薄时难以区分空心与实心形状。
启发式方法： 无法个体化重叠或被裁剪的形状，导致在较难等级上 IoU 急剧下降。

意义与主张

本文将 ShapeCodeBench 定位为现有基准测试（如 TurtleBench 或 Image2Struct）的补充工具，而非替代品，它优先考虑控制力和可复现性，而非逼真度。

诊断价值： 该基准测试成功揭示了不同的失败模式：即使 LLM 理解了场景结构，它们在精确参数输出方面仍显挣扎；而经典计算机视觉方法在复杂场景中无法进行个体化。
可再生性： 通过允许生成新的划分，该基准测试为模型开发提供了可持续的反馈循环，避免了静态数据集中常见的“污染”问题。
适度范围： 作者明确指出，当前版本是"v1"，具有 deliberate 的局限性（单色调色板、四个原语、仅限零样本）。他们并不声称已解决视觉程序归纳问题，而是提供了一个严谨、可再生的环境来衡量进展并识别感知与结构化代码输出之间的具体差距。

本文结论指出，虽然当前的前沿模型在空间推理（高 IoU）方面显示出希望，但它们距离精确程序重建所需的精度仍有很大差距，且启发式方法在简单任务上的表现与 LLM 在复杂任务上的表现之间的差距，凸显了在参数估计和遮挡推理方面进行进一步研究的必要性。

ShapeCodeBench: A Renewable Benchmark for Perception-to-Program Reconstruction of Synthetic Shape Scenes