あなたが探偵になり、謎を解こうとしていると想像してください。あなたには完成された図画が渡されます。それは白い背景に黒と白の円と四角形で描かれた画像です。あなたの仕事は単にその画像を記述することではありません。ロボットがゼロからその画像を描くために使用する正確なコンピュータコードを記述しなければならないのです。

これが、現代のAIモデルがこの特定のタスクにおいてどれほど優れているかを見るために、研究者のシヴァム・クマールによって作成された新しい「テスト」、ShapeCodeBenchの挑戦です。

以下では、その仕組み、なぜ特別なのか、そして結果が何を教えてくれるかを、簡単なアナロジーを用いて解説します。

1. ゲーム：「図画の逆エンジニアリング」

AIモデルを、非常に厳格な試験を受ける生徒たちと考えてください。

入力: 生徒は、白いキャンバス上の黒い形状の画像（「ラスター」）を見ます。
課題: 生徒は、コンピュータにそれらの正確な形状を描く方法を指示する、小さく特定の言語（「DSL」）を用いたプログラムをタイプアウトしなければなりません。
ルール: その言語には4つの動きしかありません。塗りつぶされた円、輪郭のみの円、塗りつぶされた四角形、または輪郭のみの四角形を描くことです。キャンバスは常に512x512ピクセルです。
採点: コンピュータは生徒のコードを単に読むだけではありません。実行します。コードに基づいて画像を再度描画し、その新しい描画を元の画像と比較します。たとえ1ピクセルでも位置が間違っていれば、答えは「完璧」ではありません。

2. なぜこのテストは異なるのか：「無限の新しい紙」

ほとんどのAIテストは、固定された問題セット（標準的な数学テストのようなもの）を使用します。一度AIが答えを暗記すれば、そのテストは無用になります。これを「汚染」と呼びます。

ShapeCodeBenchは、魔法の描画機械のようなものです。

新しいテストを欲するたびに、あなたはクランク（「シード」）を回します。
機械は瞬時に、異なるサイズ、重なり、位置を持つ、完全に新しく、ユニークな形状のセットを生成します。
Because researchers can generate a fresh held-out set from a new seed whenever they want, this reduces exact-instance contamination — the risk that the model has already seen the specific test questions during training.

3. 難易度レベル

このテストは、ビデオゲームのように3つのレベルを持っています。

易しい: いくつかの形状が、互いに離れており、触れていません。
中級: より多くの形状が、互いに近づいたり、わずかに重なったりしています。
難しい: 多くの形状がすべて押し詰められ、重なり合い、一部はページの端で切り取られています。

4. 出場者

この論文は、「生徒」の2種類をテストしました。

古き良きロボット（ヒューリスティック）: 画像を見て、黒いインクの塊を見つけ、「あれは円だ」「あれは四角形だ」と推測する従来のコンピュータプログラムです。これは速く、単純なことは得意ですが、形状が重なると混乱します。
スーパーAI（マルチモーダルモデル）: 世界で最も賢いAIモデルの2つ（Claude Opus 4.7 と GPT-5.5）に、画像を見てコードを書くよう求められました。これらは異なるレベルの「思考の努力」（「もっと深く考えろ」や「もっと時間をかけろ」と頼むようなもの）でテストされました。

5. 結果：2つの強さの物語

結果は驚くべきもので、どちらの側もまだ完璧ではないことを示しました。

易しいレベルでは: 古き良きロボットが実際に勝利しました！重なり合わない単純な形状に対して、正確なコードを取得する方が得意でした。スーパーAIは形状を正しく認識することが多かったものの、半径が数ピクセルずれるなど、小さな詳細でミスをしていました。
- アナロジー: ロボットは、単独で孤立した板を完璧に測定できる大工のようです。AIは、椅子がどのようなものかを知っている創造的な芸術家ですが、脚をミリ単位で測定することに苦労します。
難しいレベルでは: 形状が積み重なっている場合、古き良きロボットは混乱し、個別の形状ではなく1つの大きな塊として見てしまいました。スーパーAIは、より難しいシーンにおいて空間的な構造をより多く保持しました（特に、2つの画像の塗られた領域がどの程度重なり合うかを表す「フォアグラウンドIoU」で測定された場合）— 山の一般的な配置を捉えるコードを生み出しました。しかし、どちらの側も難しいシーンを完全に制したわけではありませんでした。スーパーAIさえも、正確なピクセル単位の細部を再構築することに苦労していました。
- アナロジー: ロボットは洗濯物の山を見て、「あれは山だ」と言います。AIは山を見て、「あれはシャツ、靴下、そして帽子がすべて絡み合っている」と言います（構造の理解）。しかし、それぞれのアイテムの正確な輪郭や位置をミリ単位で正確に描き出すこと（精度）については、どちらも完全ではありませんでした。
「満点」の問題: 最良のAIモデルでさえ、描き直された画像が元の画像とピクセル単位で一致する100%の満点を稀にしか取りませんでした。通常、構造（正しい場所に正しい形状）は正しくても、精度（サイズと位置の正確な数値）で失敗しました。

6. これが意味すること

この論文は、私たちがこの問題について「完了」したわけではないと結論付けています。

このテストは飽和していません（簡単すぎません）。
現在のAIモデルは、全体像（空間的構造）の理解には優れていますが、小さな詳細（正確なパラメータ）については依然として苦労しています。
このテストは進歩を測定する明確な方法を提供します。AIが良くなるにつれて、易しいレベルで古き良きロボットを打ち負かし始め、難しいレベルでの優位性を維持するはずです。

要約すれば、ShapeCodeBenchは、AIがどこに強みを持っているのか（複雑なシーンの理解）と、どこでまだ不器用なのか（正確な詳細の測定）を正確に確認できる、新鮮で不正が不可能な遊び場です。

In short, ShapeCodeBench is a fresh, renewable playground where we can see exactly where AI is strong (understanding complex scenes) and where it is still clumsy (measuring precise details).

技術的概要：ShapeCodeBench

問題定義

本論文は、「知覚からプログラムへの再構築」という課題に取り組む。つまり、レンダリングされたラスター画像が与えられたとき、モデルは、決定論的な評価器によって再レンダリングされた際に同一またはほぼ同一の画像を生成する、実行可能な描画プログラムを出力しなければならない。現代のマルチモーダルモデルは、スクリーンショットからHTMLへ、構造抽出など、画像からコードへのタスクにおいて評価される機会が増えているが、既存のベンチマークの多くは、決定論的実行、レンダリングに基づくスコアリング、再生可能性の組み合わせを欠いている。ほとんどのベンチマークはこれらの基準の1つか2つしか満たしておらず、手動注釈なしに新鮮で汚染されていないテストセットを再生成できるものはほとんどない。ShapeCodeBench は、制約されたドメイン固有言語（DSL）に対する逆グラフィックスのための合成かつ再生可能なベンチマークを提供することで、このギャップを埋めるように設計されている。

手法

1. ベンチマーク設計

ShapeCodeBench は、4 つの結合されたコンポーネントで構成される。

DSL（ドメイン固有言語）： 固定された白背景に黒を描画する $512 \times 512$ のキャンバス上で動作する、4 つのプリミティブの最小セット：filled_circle、circle、filled_square、square。この言語は、座標、サイズ/半径、ストローク幅に対する整数パラメータをサポートする。パーサーは Python の ast モジュールに基づく厳格なホワイトリスト実装であり、インポート、ループ、非整数リテラルを拒否する。
シーンジェネレーター： シード付きの乱数発生器（RNG）が、候補となる形状を棄却サンプリングすることでシーンを生成する。形状の数、範囲（半径/サイズ）、ストローク幅、キャンバスのクリッピング確率、およびバウンディングボックスの重なりについて、3 つの難易度レベル（Easy、Medium、Hard）に基づいて特定の制約を強制する。
レンダラー： Pillow ライブラリを使用して、DSL プログラムを 8 ビットグレースケール画像に決定論的にレンダリングする。レンダリング順序は保持されるが、バイナリパレットにより、シーンは前景ピクセルの追加に関して順序不変となる（後続の形状は先行する形状を消去できない）。
評価器： モデルが予測したプログラムを解析し、再レンダリングして、生成されたラスターを正解データと比較する。

2. 評価指標

システムは 5 つの主要な指標を報告する。

完全一致（Exact Match）： 目標画像と再レンダリングされた画像とのピクセルレベルでの完全な等価性。
ピクセル精度（Pixel Accuracy）： 一致するピクセルの割合。
前景 IoU（Foreground IoU）： 黒色ピクセルの交差和（Intersection-over-Union）。
解析成功（Parse Success）： プログラムが構文的に有効かどうか。
実行成功（Execution Success）： プログラムがエラーなくレンダリングされるかどうか。

3. 実験設定

著者は、150 サンプル（難易度レベルごとに 50 サンプル）の固定された分割（eval_v1）において 6 つのシステムを評価した。

ベースライン： 「空のプログラム」のフロアと、「ヒューリスティック-CV」ベースライン（連結成分、形態学的侵食、面積/周囲長比を使用して形状パラメータを推定する古典的コンピュータビジョン）。
マルチモーダルモデル：
- Claude Opus 4.7（1M コンテキスト）： 「high」と「max」の推論レベルでテスト。
- GPT-5.5： 「medium」と「extra_high」の推論レベルでテスト。
プロトコル： すべてのモデルは、厳格なフォーマット制約を用いたゼロショットプロンプティングを使用。チェーン・オブ・ソートやファウショットの例は使用しなかった。

主要な貢献

ShapeCodeBench のリリース： DSL、安全な制限付きパーサー、3 つの難易度レベルを持つシード付きシーンジェネレーター、およびレンダリングに基づく評価器を含む完全なベンチマークスイート。
固定評価分割（eval_v1）： プラットフォーム間での完全な再現性を保証する公開された SHA-256 ハッシュを持つ 150 サンプルの決定論的セット。
再生可能なワークフロー： 新しいシードから保持された分割を再生成し、自動的にスコアリングするメカニズム。人手による注釈を必要とせずに、正確なインスタンスの汚染を軽減する。
プロバイダ非依存ランナー： プロンプト、設定、生出力、および指標を記録するツール。評価の監査可能性を高める。
ベースライン結果： 非 LLM ベースラインに対する 4 つのマルチモーダル構成の包括的な報告。明確な失敗モードと性能ギャップを明らかにする。

結果

全体的な性能

完全一致： ベンチマークは遠く飽和していない。マルチモーダルモデルが達成した最高完全一致率は 0.027（GPT-5.5 medium）であり、古典的ヒューリスティックベースラインは 0.087 を達成する。
前景 IoU： マルチモーダルモデルはこの指標においてヒューリスティックを大幅に上回る。GPT-5.5（extra_high）は平均前景 IoU 0.87 を達成し、大部分の空間構造を保持する。
解析成功： LLM は高い解析成功率（0.97–1.00）を達成し、失敗は主に範囲外のパラメータまたは無効なストローク幅によるものである。

難易度レベル依存の交差

重要な発見として、ヒューリスティックと LLM の間に難易度レベル依存の交差が存在することである。

Easy レベル： 古典的ヒューリスティックが完全一致（0.26）で先行する。これは、シーンが分離された非重なり形状で構成され、連結成分が完全に個別化できるためである。マルチモーダルモデルはここで苦戦し、しばしば小さなパラメータ誤差（数ピクセルのズレ）により完全一致を逃す。
Medium/Hard レベル： 重なり合う形状が単一の連結成分に融合して個別化を妨げるため、ヒューリスティックは崩壊する。マルチモーダルモデルは空間構造を保持し（高い IoU）、重なり合う形状を列挙できるが、被覆下でのパラメータ精度の問題により、ピクセルレベルの完全一致を達成するには至らない。

失敗モード

LLM： 失敗は「out_of_range」（座標/サイズが有効範囲外）および「invalid_stroke」エラーが支配的である。また、正確なパラメータ推定（正確な半径やストローク幅など）や、ストロークが薄い場合の中空と充填された形状の区別において苦戦する。
ヒューリスティック： 重なり合う形状やクリップされた形状を個別化できず、より難しいレベルで IoU が急激に低下する。

意義と主張

本論文は、ShapeCodeBench を TurtleBench や Image2Struct などの既存のベンチマークの代替物ではなく、リアリズムよりも制御と再現性を優先する補完的なツールとして位置づけている。

診断的価値： ベンチマークは明確な失敗モードを露呈させる。LLM はシーンの構造を理解していても正確なパラメータ出力に苦しみ、古典的 CV は複雑なシーンでの個別化に失敗する。
再生可能性： 新鮮な分割を生成することを可能にすることで、静的データセットで一般的な「汚染」の問題を回避し、モデル開発のための持続可能なフィードバックループを提供する。
限定的な範囲： 著者は明示的に、現在のバージョンはモノクロパレット、4 つのプリミティブ、ゼロショットのみの意図的な制限を伴う「v1」であると述べている。視覚的プログラム誘導の問題を解決したと主張するのではなく、進捗を測定し、知覚と構造化されたコード出力の間の特定のギャップを特定するための厳密で再生可能な環境を提供するものである。

論文は、現在の最先端モデルが空間推論（高い IoU）において有望さを示している一方で、正確なプログラム再構築に必要な精度からは遠く離れており、単純なタスクにおけるヒューリスティックの性能と複雑なタスクにおける LLM の性能の間のギャップは、パラメータ推定と被覆推論に関するさらなる研究の必要性を浮き彫りにしていると結論付けている。

ShapeCodeBench: A Renewable Benchmark for Perception-to-Program Reconstruction of Synthetic Shape Scenes