Theory of Code Space: Do Code Agents Understand Software Architecture?

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 코딩 도우미들이 정말로 소프트웨어의 전체적인 구조를 이해하고 있을까?"**라는 아주 중요한 질문을 던집니다.

기존의 AI 테스트들은 "이 문장을 번역해 줘"나 "이 작은 버그를 고쳐 줘" 같은 단순한 미션만 평가했습니다. 하지만 실제 개발자는 수십 개의 파일이 서로 얽혀 있는 복잡한 프로젝트를 다룰 때, AI가 "어디에 뭐가 있는지"를 모르고 엉뚱한 코드를 짜는 경우가 많다고 호소합니다.

저자는 이 문제를 해결하기 위해 **'TOCS (코드 공간 이론)'**라는 새로운 시험을 만들었습니다. 이 시험을 쉽게 비유해서 설명해 드릴게요.

🗺️ 비유: "어둠 속에서 지도 그리기"

상상해 보세요. 여러분이 완전히 어두운 방에 갇혔습니다. 이 방은 거대한 도서관처럼 수많은 책장 (파일) 이 있고, 책장 사이에는 보이지 않는 연결고리 (의존성) 가 있습니다.

과제: 여러분은 이 방의 정확한 지도를 그려야 합니다.
제한 조건:
- 한 번에 모든 책장을 볼 수 없습니다. (부분 관측성)
- 책장을 하나씩 열어볼 수 있지만, 한정된 횟수만 허용됩니다. (예산)
- 책장을 열 때마다, AI 는 **"지금까지 본 것을 바탕으로 방의 구조를 어떻게 이해했는지"**를 종이에 적어내야 합니다. (신념 상태 외부화)
목표: 방을 다 돌아다닌 후, 그리는 지도가 실제 방의 구조와 얼마나 일치하는지 확인합니다.

이 논문은 바로 이 과정을 통해 AI 가 '지도'를 그리는 능력을 평가합니다.

🔍 놀라운 발견 3 가지

이 시험을 4 가지 기본 전략과 6 가지 최신 AI 모델 (GPT, Claude, Gemini 등) 에게 시켰더니, 예상치 못한 세 가지 결과가 나왔습니다.

1. "혼자서 탐험하는 것 vs 모두 보여주기" (Active-Passive Gap)

상황: 어떤 AI 는 혼자서 하나씩 책장을 찾아다니며 (Active) 지도를 그리는 게 더 잘하고, 어떤 AI 는 처음부터 모든 책장을 한눈에 보여줘서 (Passive) 지도를 그리는 게 더 잘했습니다.
비유: 어떤 학생은 혼자서 미로 속을 헤매며 길을 찾는 게 더 잘하고, 어떤 학생은 미로 지도를 처음부터 다 보여주고 길을 찾는 게 더 잘하는 것과 같습니다.
의미: "혼자서 탐험하는 능력" 자체가 AI 모델마다 천차만별이라는 뜻입니다. 모든 AI 가 똑같이 잘하는 게 아닙니다.

2. "메모지를 계속 보는 것의 효과" (Self-Scaffolding)

상황: AI 가 그리는 지도 (메모) 를 계속 기억하게 해주는지, 아니면 지우고 새로 쓰게 하는지에 따라 결과가 달랐습니다.
비유: 어떤 AI 는 이전 메모를 계속 보고 다음 단계를 계획하면 훨씬 똑똑해지지만 (GPT), 어떤 AI 는 메모를 계속 보여줘도 전혀 도움이 안 되거나 오히려 혼란스러워합니다 (Gemini).
의미: AI 가 자신의 이전 생각을 "스스로 가르치는 도구"로 쓸 수 있는지는 모델마다 다릅니다.

3. "작은 AI 가 더 기억력이 좋다?" (Belief State Instability)

상황: 가장 놀라운 점은 작은 모델이 중간중간 그리는 지도를 완벽하게 기억하는 반면, 더 크고 강력한 모델은 중간에 갑자기 "아까 본 건 뭐였지?" 하며 이전 정보를 다 잊어버리는 (붕괴) 현상이 발생했습니다.
비유: 작은 아이는 "어제 본 빨간 문, 오늘 본 파란 창문"을 정확히 기억하는데, 똑똑한 대학생은 "어제 뭐 봤더라?" 하며 기억을 잃어버리는 기이한 일이 일어났습니다.
의미: 모델이 크다고 해서 무조건 기억력이나 구조 이해력이 좋은 건 아닙니다.

💡 이 연구가 우리에게 주는 메시지

AI 는 코드를 '읽을' 수는 있지만, '이해'는 못 할 수도 있습니다.
AI 가 파일 내용을 다 읽었다고 해서, 그 파일들이 어떻게 연결되어 있는지 (아키텍처) 를 제대로 이해하는 건 별개의 문제입니다.
단순한 테스트로는 부족합니다.
기존 테스트는 AI 가 "정답을 맞췄는지"만 봤지만, 이 연구는 AI 가 **어떻게 생각했는지 (과정)**를 계속 추적해서 봅니다.
향후 개선 방향:
- AI 가 구조를 그리는 능력을 훈련시켜야 합니다.
- AI 가 자신의 이전 생각을 참고하도록 도와주는 시스템이 필요합니다.
- 어떤 AI 는 "혼자서 찾아다니는 것"이 좋고, 어떤 AI 는 "한눈에 보여주는 것"이 좋으니, 모델에 맞는 방법을 골라야 합니다.

🎯 결론

이 논문은 **"AI 가 코딩을 잘하려면, 단순히 문법을 아는 게 아니라 건물의 설계도 (아키텍처) 를 머릿속에 그리고 유지할 줄 알아야 한다"**고 말합니다. 그리고 지금의 AI 들은 그 '설계도 그리기' 능력에서 아직 많이 부족하고, 모델마다 그 실력이 매우 다르다는 것을 증명했습니다.

이 연구는 앞으로 더 똑똑한 코딩 AI 를 만들기 위한 중요한 나침반이 될 것입니다.

Theory of Code Space: Do Code Agents Understand Software Architecture?

🗺️ 비유: "어둠 속에서 지도 그리기"

🔍 놀라운 발견 3 가지

1. "혼자서 탐험하는 것 vs 모두 보여주기" (Active-Passive Gap)

2. "메모지를 계속 보는 것의 효과" (Self-Scaffolding)

3. "작은 AI 가 더 기억력이 좋다?" (Belief State Instability)

💡 이 연구가 우리에게 주는 메시지

🎯 결론

1. 연구 배경 및 문제 정의 (Problem)

2. 제안된 방법론: TOCS (Theory of Code Space)

2.1 환경 및 작업 공간

2.2 평가 지표

3. 주요 실험 및 결과 (Key Results)

3.1 주요 발견 1: 모델 의존적인 Active-Passive Gap

3.2 주요 발견 2: 자기 발판 (Self-Scaffolding) 의 모델 의존성

3.3 주요 발견 3: 믿음 상태의 불안정성 (Belief State Instability)

3.4 아키텍처 제약 발견 능력

4. 기여 및 의의 (Contributions & Significance)

5. 결론

Theory of Code Space: Do Code Agents Understand Software Architecture?

🗺️ 비유: "어둠 속에서 지도 그리기"

🔍 놀라운 발견 3 가지

1. "혼자서 탐험하는 것 vs 모두 보여주기" (Active-Passive Gap)

2. "메모지를 계속 보는 것의 효과" (Self-Scaffolding)

3. "작은 AI 가 더 기억력이 좋다?" (Belief State Instability)

💡 이 연구가 우리에게 주는 메시지

🎯 결론

1. 연구 배경 및 문제 정의 (Problem)

2. 제안된 방법론: TOCS (Theory of Code Space)

2.1 환경 및 작업 공간

2.2 평가 지표

3. 주요 실험 및 결과 (Key Results)

3.1 주요 발견 1: 모델 의존적인 Active-Passive Gap

3.2 주요 발견 2: 자기 발판 (Self-Scaffolding) 의 모델 의존성

3.3 주요 발견 3: 믿음 상태의 불안정성 (Belief State Instability)

3.4 아키텍처 제약 발견 능력

4. 기여 및 의의 (Contributions & Significance)

5. 결론

유사한 논문

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem