마치 미스터리를 해결하려는 형사가 되어보세요. 당신은 완성된 그림—흰색 배경 위에 원과 사각형이 그려진 흑백 이미지—을 건네받습니다. 당신의 임무는 단순히 그림을 설명하는 것이 아닙니다. 로봇이 처음부터 그 그림을 그리기 위해 사용할 정확한 컴퓨터 코드를 작성해야 합니다.

이것이 ShapeCodeBench의 도전 과제입니다. 연구자 Shivam Kumar 가 현대 AI 모델이 이 특정 작업에서 얼마나 뛰어난지 확인하기 위해 만든 새로운 "테스트"입니다.

다음은 간단한 비유를 통해 이 테스트가 어떻게 작동하는지, 왜 특별한지, 그리고 결과가 무엇을 말해주는지 설명한 내용입니다.

1. 게임: "그림의 역공학"

AI 모델을 엄격한 시험을 치르는 학생들로 생각해보세요.

입력: 학생은 흰색 캔버스 위의 검은색 모양이 그려진 이미지 ("래스터") 를 봅니다.
과제: 학생은 컴퓨터에게 그 정확한 모양을 그리는 방법을 알려주는 작고 구체적인 언어 ("DSL") 로 프로그램을 타이핑해야 합니다.
규칙: 그 언어에는 네 가지 동작만 있습니다: 채워진 원 그리기, 윤곽선 원 그리기, 채워진 사각형 그리기, 윤곽선 사각형 그리기. 캔버스는 항상 512x512 픽셀입니다.
채점: 컴퓨터는 학생의 코드를 단순히 읽지 않습니다. 코드를 실행합니다. 코드를 바탕으로 그림을 다시 그리고, 그 새로운 그림을 원본과 비교합니다. 단 한 픽셀이라도 잘못된 위치에 있으면 정답은 "완벽"이 아닙니다.

2. 이 테스트가 다른 이유: "무한한 새 종이"

대부분의 AI 테스트는 고정된 질문 세트를 사용합니다 (표준 수학 시험처럼). AI 가 정답을 외우면 테스트는 무용지물이 됩니다. 이를 "오염"이라고 합니다.

ShapeCodeBench 는 마법 같은 그림 기계와 같습니다.

새로운 테스트를 원할 때마다 손잡이 ("시드") 를 돌립니다.
기계는 즉시 서로 다른 크기, 겹침, 위치를 가진 완전히 새롭고 고유한 모양 세트를 생성합니다.
Because researchers can generate a fresh held-out set from a new seed whenever they want, this reduces exact-instance contamination — the risk that the model has already seen the specific test questions during training.

3. 난이도 수준

이 테스트는 비디오 게임처럼 세 가지 수준으로 나뉩니다.

쉬움: 몇 개의 모양이 서로 멀리 떨어져 있고 닿지 않습니다.
중간: 더 많은 모양이 있으며, 일부는 서로 가까이 있거나 약간 겹칩니다.
어려움: 많은 모양이 모두 빽빽하게 모여 있고, 많이 겹치며, 일부는 페이지 가장자리에 의해 잘립니다.

4. 참가자들

이 논문은 두 가지 유형의 "학생"을 테스트했습니다.

구식 로봇 (휴리스틱): 전통적인 컴퓨터 프로그램으로, 이미지를 보고 검은 잉크 덩어리를 찾아 "저건 원이야", "저건 사각형이야"라고 추측합니다. 빠르고 단순한 작업에는 좋지만 모양이 겹치면 혼란을 겪습니다.
수퍼 AI (멀티모달 모델): 세계에서 가장 똑똑한 두 개의 AI 모델 (Claude Opus 4.7 및 GPT-5.5) 이 이미지를 보고 코드를 작성하도록 요청받았습니다. 서로 다른 수준의 "사고 노력" (예: "더 깊이 생각하라" 또는 "더 많은 시간을 가져라"고 요청하는 것) 으로 테스트되었습니다.

5. 결과: 두 가지 강점의 이야기

결과는 놀라웠으며, 어느 쪽도 아직 완벽하지 않음을 보여주었습니다.

쉬운 수준에서: 구식 로봇이 실제로 승리했습니다! 겹치지 않는 단순한 모양에 대해 정확한 코드를 얻는 데 더 뛰어났습니다. 수퍼 AI 들은 모양은 올바르게 파악했지만, 반지름이 몇 픽셀씩 어긋나는 등 미세한 세부 사항에서 실수를 저질렀습니다.
- 비유: 로봇은 고립된 단일 판자를 완벽하게 측정할 수 있는 목수 같습니다. AI 는 의자가 어떻게 생겼는지 아는 창의적인 예술가이지만, 다리를 밀리미터 단위로 측정하는 데는 어려움을 겪습니다.
어려운 수준에서: 모양이 서로 위에 쌓여 있을 때 구식 로봇은 혼란을 겪고 개별 모양 대신 하나의 큰 덩어리로 보았습니다. 반면 수퍼 AI들은 더 어려운 장면에서 더 많은 공간적 구조를 유지했습니다 (특히 전경 IoU, 즉 두 그림의 칠해진 영역이 겹치는 정도를 기준으로 측정 시) — 복잡한 더미의 일반적인 레이아웃을 포착하는 코드를 생성했습니다. 하지만 어느 쪽도 어려운 장면을 완벽하게 마스터하지는 못했습니다: 수퍼 AI 들조차도 정확한 픽셀 수준의 세부 사항을 재구성하는 데 여전히 어려움을 겪었습니다.
- 비유: 로봇은 세탁물 더미를 보고 "저건 더미야"라고 말합니다. AI 는 더미를 보고 "저건 셔츠, 양말, 모자가 모두 엉켜 있는 거야"라고 구조를 파악하지만, 각 옷의 정확한 위치와 형태를 완벽하게 재현하는 데는 한계가 있습니다.
"완벽한 점수" 문제: 최고의 AI 모델조차도 다시 그린 그림이 원본과 픽셀 단위로 일치하는 100% 완벽한 점수를 거의 받지 못했습니다. 그들은 보통 구조 (올바른 위치에 올바른 모양) 는 올바르게 파악했지만, 정밀도 (크기와 위치의 정확한 수치) 에서 실패했습니다.

6. 이것이 의미하는 바

이 논문은 우리가 이 문제에 대해 "끝났다"고 말할 수 없다고 결론지었습니다.

이 테스트는 포화 상태가 아닙니다 (너무 어렵지 않습니다).
현재 AI 모델은 큰 그림 (공간적 구조) 을 이해하는 데 뛰어나지만, 여전히 미세한 세부 사항 (정확한 매개변수) 에는 어려움을 겪습니다.
이 테스트는 진전을 측정할 수 있는 명확한 방법을 제공합니다: AI 가 발전함에 따라 쉬운 수준에서 구식 로봇을 이기기 시작하면서도 어려운 수준에서의 우위를 유지해야 합니다.

요약하자면, ShapeCodeBench 는 AI 가 어디에 강점 (복잡한 장면 이해) 이 있고 어디에 여전히 서툴러 (정밀한 세부 사항 측정) 있는지를 정확히 볼 수 있는 신선하고 재생 가능한 놀이터입니다.

기술 요약: ShapeCodeBench

문제 정의

본 논문은 지각에서 프로그램으로의 재구성(perception-to-program reconstruction) 과제를 다룹니다. 렌더링된 래스터 이미지가 주어졌을 때, 모델은 결정론적 평가기에 의해 다시 렌더링될 때 원본과 동일하거나 거의 동일한 이미지를 생성하는 실행 가능한 그림 프로그램을 출력해야 합니다. 현대의 멀티모달 모델들이 이미지-코드 작업 (예: 스크린샷-HTML, 구조 추출) 에 점점 더 많이 평가받고 있지만, 기존 벤치마크들은 종종 결정론적 실행, 렌더링 기반 점수 매기기, 그리고 재생 가능성을 동시에 충족시키지 못합니다. 대부분의 벤치마크는 이러한 기준 중 하나 또는 두 가지만 충족하며, 수동 주석이 없이 새로운 오염되지 않은 테스트 세트를 재생성할 수 있는 경우는 거의 없습니다. ShapeCodeBench 는 제한된 도메인 특정 언어 (DSL) 에 대한 역그래픽을 위한 합성적이고 재생 가능한 벤치마크를 제공함으로써 이러한 격차를 메우도록 설계되었습니다.

방법론

1. 벤치마크 설계

ShapeCodeBench 는 네 가지 결합된 구성 요소로 이루어져 있습니다:

DSL(도메인 특정 언어): 고정된 $512 \times 512$ 크기의 흰색 배경에 검은색으로 그려지는 캔버스에서 작동하는 네 가지 원시 연산자 (primitive) 의 최소 집합입니다: filled_circle, circle, filled_square, square. 이 언어는 좌표, 크기/반지름, 그리고 획 두께에 대한 정수 매개변수를 지원합니다. 파서 (parser) 는 Python 의 ast 모듈을 기반으로 한 엄격한 화이트리스트 구현으로, 임포트, 루프, 그리고 정수가 아닌 리터럴을 거부합니다.
장면 생성기: 시드 기반 난수 생성기 (RNG) 가 후보 모양들을 기각 샘플링 (rejection-sampling) 하여 장면을 생성합니다. 이는 모양 개수, 범위 (반지름/크기), 획 두께, 캔버스 잘림 확률, 그리고 바운딩 박스 중첩에 관한 세 가지 난이도 등급 (Easy, Medium, Hard) 에 따라 특정 제약을 강제합니다.
렌더러: Pillow 라이브러리를 사용하여 DSL 프로그램을 8 비트 회색조 이미지로 결정론적으로 렌더링합니다. 렌더링 순서는 유지되지만, 이진 팔레트 때문에 장면은 전경 픽셀 추가에 대해 순서 불변적입니다 (나중에 그려진 모양은 이전에 그려진 모양을 지울 수 없음).
평가기: 모델이 예측한 프로그램을 파싱하고, 이를 다시 렌더링한 후 결과 래스터를 정답 (ground truth) 과 비교합니다.

2. 평가 지표

시스템은 다섯 가지 주요 지표를 보고합니다:

정확 일치 (Exact Match): 목표 이미지와 다시 렌더링된 이미지 간의 픽셀 단위 완전 일치.
픽셀 정확도 (Pixel Accuracy): 일치하는 픽셀의 비율.
전경 IoU: 검은색 픽셀들의 교집합-합집합 비율 (Intersection-over-Union).
파싱 성공 여부: 프로그램이 문법적으로 유효한지 여부.
실행 성공 여부: 프로그램이 오류 없이 렌더링되는지 여부.

3. 실험 설정

저자들은 150 개의 샘플 (난이도 등급당 50 개) 로 구성된 고정된 분할 (eval_v1) 에서 여섯 가지 시스템을 평가했습니다:

베이스라인: "빈 프로그램 (Empty-Program)" 바닥선과 "휴리스틱-CV" 베이스라인 (연결 성분, 형태학적 침식, 그리고 면적/둘레 비율을 사용하여 모양 매개변수를 추정하는 고전적 컴퓨터 비전) 이 있습니다.
멀티모달 모델:
- Claude Opus 4.7(1M 컨텍스트): "높음 (high)" 및 "최대 (max)" 추론 노력으로 테스트됨.
- GPT-5.5: "중간 (medium)" 및 "초고 (extra_high)" 추론 노력으로 테스트됨.
프로토콜: 모든 모델은 엄격한 포맷팅 제약 조건을 가진 제로샷 프롬프팅을 사용했습니다. 체인 오브 씽킹 (chain-of-thought) 이나 퓨샷 (few-shot) 예시는 사용되지 않았습니다.

주요 기여

ShapeCodeBench 출시: DSL, 안전한 제한된 파서, 세 가지 난이도 등급을 가진 시드 기반 장면 생성기, 그리고 렌더링 기반 평가기를 포함한 완전한 벤치마크 스위트.
고정 평가 분할 (eval_v1): 플랫폼 간 정확한 재현을 위한 SHA-256 해시값이 공개된 150 개의 샘플로 구성된 결정론적 세트.
재생 가능한 워크플로우: 새로운 시드에서 새로운 홀드아웃 분할을 생성하고 자동으로 점수를 매길 수 있는 메커니즘으로, 수동 주석 없이 정확한 인스턴스 오염을 완화합니다.
공급자 무관 실행기: 프롬프트, 구성, 원본 출력, 그리고 지표를 기록하여 평가를 감사 가능하게 만드는 도구.
베이스라인 결과: 비-LLM 베이스라인에 대한 네 가지 멀티모달 구성에 대한 포괄적 보고로, 뚜렷한 실패 모드와 성능 격차를 드러냄.

결과

전반적 성능

정확 일치: 벤치마크는 포화 상태가 далеко 아닙니다. 어떤 멀티모달 모델이든 달성한 최고의 정확 일치율은 0.027(GPT-5.5 중간) 이며, 고전적 휴리스틱 베이스라인은 0.087을 달성합니다.
전경 IoU: 멀티모달 모델은 이 지표에서 휴리스틱을 크게 능가합니다. GPT-5.5(초고) 는 평균 전경 IoU 0.87을 달성하여 대부분의 공간 구조를 유지합니다.
파싱 성공: LLM 들은 높은 파싱 성공률 (0.97–1.00) 을 달성하며, 실패는 주로 범위 초과 매개변수나 유효하지 않은 획 두께 때문입니다.

난이도 등급 의존적 교차

휴리스틱과 LLM 간의 난이도 등급 의존적 교차 (tier-dependent crossover) 가 중요한 발견입니다:

Easy 등급: 고전적 휴리스틱이 정확 일치 (0.26) 에서 앞서갑니다. 이는 장면이 연결 성분이 완벽하게 개별화할 수 있는 분리된, 중첩되지 않는 모양들로 구성되기 때문입니다. 멀티모달 모델들은 여기서 어려움을 겪으며, 종종 몇 픽셀의 작은 매개변수 오차로 인해 정확한 일치를 놓칩니다.
Medium/Hard 등급: 중첩된 모양들이 단일 연결 성분으로 융합되어 개별화를 방해함에 따라 휴리스틱은 붕괴됩니다. 멀티모달 모델들은 공간 구조를 유지 (높은 IoU) 하고 중첩된 모양들을 나열할 수 있지만, 가림 (occlusion) 하에서 매개변수 정밀도 문제로 인해 픽셀 단위 완벽한 정확 일치는 달성하지 못합니다.

실패 모드

LLM: 실패는 주로 "out_of_range"(유효한 범위 밖의 좌표/크기) 및 "invalid_stroke" 오류에 의해 지배됩니다. 또한 정확한 매개변수 추정 (예: 정확한 반지름 또는 획 두께) 과 획이 얇을 때 빈 모양과 채워진 모양을 구별하는 데 어려움을 겪습니다.
휴리스틱: 중첩되거나 잘린 모양들을 개별화하지 못하여, 더 어려운 등급에서 IoU 가 급격히 떨어집니다.

중요성 및 주장

본 논문은 ShapeCodeBench 를 TurtleBench 나 Image2Struct 와 같은 기존 벤치마크를 대체하는 것이 아니라, 현실성보다 제어와 재현 가능성을 우선시하는 보조 도구로 위치시킵니다.

진단적 가치: 벤치마크는 뚜렷한 실패 모드를 성공적으로 노출합니다. LLM 들은 장면 구조를 이해할 때조차 정밀한 매개변수 방출에 어려움을 겪는 반면, 고전적 컴퓨터 비전은 복잡한 장면에서 개별화에 실패합니다.
재생 가능성: 새로운 분할을 생성할 수 있게 함으로써, 벤치마크는 정적 데이터셋에서 흔히 발생하는 "오염" 문제를 피하면서 모델 개발을 위한 지속 가능한 피드백 루프를 제공합니다.
소극적 범위: 저자들은 현재 버전이 단색 팔레트, 네 가지 원시 연산자, 제로샷만 지원한다는 의도적 제한을 가진 "v1"이라고 명시적으로 밝힙니다. 그들은 시각적 프로그램 유도 문제를 해결했다고 주장하는 것이 아니라, 지각과 구조화된 코드 방출 간의 특정 격차를 측정하고 식별하기 위한 엄격하고 재생 가능한 환경을 제공하는 것입니다.

본 논문은 현재의 최첨단 모델들이 공간 추론 (높은 IoU) 에서 유망한 모습을 보이지만, 정확한 프로그램 재구성에 필요한 정밀도에는 여전히 멀었으며, 단순 작업에서의 휴리스틱 성능과 복잡한 작업에서의 LLM 성능 간의 격차는 매개변수 추정 및 가림 추론에 대한 추가 연구의 필요성을 강조한다고 결론지었습니다.

ShapeCodeBench: A Renewable Benchmark for Perception-to-Program Reconstruction of Synthetic Shape Scenes