Theory of Code Space: Do Code Agents Understand Software Architecture?

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI プログラマーは、本当に大きなソフトウェアの『設計図（アーキテクチャ）』を理解しているのか？」**という疑問に答えるための新しいテストと、その驚くべき結果について書かれています。

タイトルは**「コード空間の理論（Theory of Code Space）」**です。

以下に、難しい専門用語を使わず、日常の比喩を使ってわかりやすく解説します。

1. 問題の核心：「パズル」は解けても「迷路」は解けない？

今の AI は、小さなコードの断片（パズルの一片）を作るのは得意です。しかし、実際の仕事では、数十個のファイルが複雑に絡み合った巨大な迷路のようなプロジェクトを扱う必要があります。

現状の課題： AI は「ここを直して」と言われれば直せますが、「このプロジェクト全体で、どのファイルが誰とつながっているのか？」という全体像（設計図）を頭の中に描きながら作業するのは苦手で、すぐに混乱してしまいます。

2. 新しいテスト「TOCS」の仕組み：暗闇での探検

研究者たちは、AI が本当に「設計図」を描けるかを見るために、**「TOCS（コード空間の理論）」**という新しいテストを作りました。

シチュエーション： AI は、中身が見えない**「暗い迷路（コードベース）」**に放り込まれます。
ルール：
- 一度に全部見られるわけではありません。
- 「ファイルを開く」というアクションには**「エネルギー（予算）」**が消費されます。
- 定期的に、「今、あなたが迷路のどこにいるか、誰とつながっていると思っているか？」を**「地図（JSON という形式のメモ）」**として書き出すよう求められます。
目的： AI が、限られた情報だけで、正しい「心の地図（設計図）」を構築し、維持できるかを見ます。

3. 驚きの発見 3 選

4 つの基準となる AI と、6 つの最先端 AI をテストしたところ、3 つの面白いことがわかりました。

① 「能動的な探検」と「受け身の閲覧」のギャップ（Active-Passive Gap）

ある AI（GPT-5.3-Codex）： 「自分で一歩一歩歩きながら、必要なファイルを開いていく」方が、「最初から全部のファイルを渡されて見る」よりも、上手に地図を描けました。
- 比喩： 自分で探検しながら地図を描く方が、大量の情報を一度に渡されて混乱するより、理解が深まるタイプです。
別の AI（Gemini 2.5 Flash）： 逆でした。「全部のファイルを一度に見せてもらった」方が、「自分で探検する」よりも上手に地図を描けました。
- 比喩： 一度に全体像を見ないと混乱するタイプで、自分で一歩一歩進むと逆に迷子になってしまいます。
結論： 「自分で探す能力」は、AI によって得意・不得意が全く違います。

② 「メモ帳」の効果（Self-Scaffolding）

AI に、自分が描いた「心の地図」をメモ帳（コンテキスト）に残すようにするとどうなるか？

ある AI： メモ帳に残すことで、**「自分のメモが次の思考の足場（スキャフォールディング）」**になり、性能が劇的に向上しました。
別の AI： メモ帳に残しても、全く効果がありませんでした。
結論： 「自分の思考を外部に書き出して整理する」という能力自体が、AI によって備わっているかどうかが違います。

③ 記憶の崩壊（Belief State Instability）

これが最も衝撃的でした。

小さな AI： 小さなモデルの方が、一度描いた地図を完璧に維持し、新しい情報が入っても古い正しい記憶を忘れることがありませんでした。
大きな AI： 逆に、より賢く見える大きなモデルは、「記憶の崩壊」を起こしました。一度は正しく地図を描いたのに、次の瞬間に「あれ？このファイル、どこだっけ？」と完全に忘れたり、間違った地図に書き換えてしまったりしました。
結論： 「頭が良い（大きい）」からといって、必ずしも「記憶が安定している」わけではありません。

4. 何がわかったのか？（まとめ）

この研究は、AI がコードを書くだけでなく、**「ソフトウェアの構造を理解し、その記憶を維持する」**という、人間に近い高度な能力が、まだ AI にはバラバラにしか備わっていないことを示しました。

AI は「全部見せてもらう」か「自分で探す」か、得意な学習スタイルが違います。
「自分の考えをメモする」ことで賢くなる AI と、ならない AI がいます。
モデルが大きいからといって、記憶が安定しているとは限りません。

5. 今後の展望

このテスト（TOCS）はオープンソースで公開されました。これにより、AI 開発者たちは「どの AI が、どんな条件下で設計図を描けるのか」を客観的に評価できるようになります。

今後は、AI が「探検」するだけでなく、「設計図を修正（Revise）」したり、新しい情報を加えて更新したりする能力もテストしていく予定です。

一言で言うと：
「AI はコードを書くのは上手だけど、**『大きなプロジェクトの全体像を頭の中で描き続ける』**という、人間のような『設計図の維持』はまだ苦手な部分が多い。しかも、AI によって『得意な勉強法』や『記憶の安定性』が全く違うことがわかったよ」という論文です。

Theory of Code Space: Do Code Agents Understand Software Architecture?

1. 問題の核心：「パズル」は解けても「迷路」は解けない？

2. 新しいテスト「TOCS」の仕組み：暗闇での探検

3. 驚きの発見 3 選

① 「能動的な探検」と「受け身の閲覧」のギャップ（Active-Passive Gap）

② 「メモ帳」の効果（Self-Scaffolding）

③ 記憶の崩壊（Belief State Instability）

4. 何がわかったのか？（まとめ）

5. 今後の展望

論文「Theory of Code Space: Do Code Agents Understand Software Architecture?」の技術的サマリー

1. 問題定義と背景

2. 手法：Theory of Code Space (TOCS)

2.1 環境とアクション

2.2 認知マップのプロービング（外部化）

2.3 評価指標

3. 主要な貢献

4. 実験結果と発見

4.1 主要な発見

4.2 詳細な性能

5. 意義と結論

Theory of Code Space: Do Code Agents Understand Software Architecture?

1. 問題の核心：「パズル」は解けても「迷路」は解けない？

2. 新しいテスト「TOCS」の仕組み：暗闇での探検

3. 驚きの発見 3 選

① 「能動的な探検」と「受け身の閲覧」のギャップ（Active-Passive Gap）

② 「メモ帳」の効果（Self-Scaffolding）

③ 記憶の崩壊（Belief State Instability）

4. 何がわかったのか？（まとめ）

5. 今後の展望

論文「Theory of Code Space: Do Code Agents Understand Software Architecture?」の技術的サマリー

1. 問題定義と背景

2. 手法：Theory of Code Space (TOCS)

2.1 環境とアクション

2.2 認知マップのプロービング（外部化）

2.3 評価指標

3. 主要な貢献

4. 実験結果と発見

4.1 主要な発見

4.2 詳細な性能

5. 意義と結論

関連論文

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem