Each language version is independently generated for its own context, not a direct translation.

🧱 "완성된 집"이 아니라 "건축 과정"을 배우다: LLM 의 새로운 학습법

이 논문은 인공지능 (LLM) 이 코드를 작성할 때 왜 종종 "왜 이렇게 만들었는지"를 모르고, 복잡한 소프트웨어를 만드는 데 어려움을 겪는지 그 이유를 파헤치고 새로운 해결책을 제시합니다.

핵심 아이디어는 **"이해는 재구성을 통해 이루어진다 (Understanding by Reconstruction)"**는 것입니다.

1. 문제: "완성된 케이크"만 보고 요리법을 배우는 것

지금까지 AI 는 방대한 양의 **기존 코드 (저장소)**를 읽으며 학습했습니다. 하지만 이는 마치 이미 완성된 케이크만 보고 요리책을 외우는 것과 같습니다.

현재의 방식: AI 는 "케이크가 이렇게 생겼구나"라고 외웁니다. 하지만 "왜 계란을 먼저 깨뜨렸는지", "왜 오븐 온도를 180 도로 맞췄는지", "실수했을 때 어떻게 고쳤는지"는 알 수 없습니다.
결과: AI 는 짧은 문장이나 간단한 코드는 잘 만들지만, 복잡한 시스템을 설계하거나 장기적인 계획을 세우는 데는 실패합니다. 마치 "목적지"만 보고 "지도"를 보지 않은 것과 같죠.

2. 해결책: "건축 현장"을 다시 재현해 보기

저자들은 AI 에게 완성된 코드를 보여주는 대신, 그 코드가 만들어지기까지의 '과정'을 다시 만들어서 보여줍니다. 이를 **'재구성을 통한 이해 (Understanding by Reconstruction)'**라고 부릅니다.

마치 건축 현장의 CCTV 영상을 다시 편집해서 보여주고, "왜 이 벽을 먼저 세웠는지, 배관을 어떻게 깔았는지"를 설명하는 것과 같습니다.

🛠️ 어떻게 만들었나요? (3 단계 과정)

1 단계: 가상 건축가 팀 시뮬레이션 (Multi-Agent Simulation)

실제 GitHub 에 있는 완성된 코드 (예: 계산기 앱) 를 가져옵니다.
AI 가 **수석 건축가 (Main Agent)**와 현장 기술자 (Sub-Agent) 역할을 맡게 합니다.
수석 건축가: "우선 기초를 다지고, 그다음 전선을 깔고, 마지막으로 벽을 치자"라는 계획을 세웁니다.
기술자: 각 파일 (벽돌) 을 하나씩 만들며, "이 벽돌을 쌓으려면 저기 있는 기둥을 먼저 확인해야 해"라고 다른 파일을 읽어보고 (Read Tool) 코드를 작성합니다 (Write Tool).
핵심: AI 가 엉뚱한 소리를 하지 않도록, 실제 코드의 구조 (파일 관계, 의존성) 를 진실한 나침반처럼 사용하여 시뮬레이션을 유도합니다.

2 단계: 사고 과정 다듬기 (Search-based Optimization)

처음에 AI 가 만든 "건축 계획서 (사고 과정)"는 다소 어설프거나 비효율적일 수 있습니다.
저자들은 **"이 계획으로 실제 건물을 지을 확률이 얼마나 높은가?"**를 계산하며, 더 논리적이고 정확한 사고 과정을 찾아냅니다.
마치 건축 설계도를 여러 번 수정하며, "이렇게 하면 더 튼튼하겠다"는 최적의 안을 고르는 과정과 같습니다.

3 단계: 학습 데이터로 활용

이렇게 만들어진 "계획 → 실행 → 수정 → 완성"의 긴 과정을 AI 가 학습합니다.
AI 는 단순히 코드를 외우는 것이 아니라, **"왜 이 코드가 필요한지, 어떤 순서로 만들어야 하는지"**를 깊이 있게 이해하게 됩니다.

3. 결과: 무엇이 달라졌나요?

이 새로운 방식으로 학습한 AI (Llama-3-8B) 는 놀라운 변화를 보였습니다.

긴 문맥 이해 (Long-Context): 아주 긴 문서나 복잡한 프로젝트 전체를 읽어도, 앞부분과 뒷부분의 연결고리를 놓치지 않습니다. (마치 긴 소설을 읽을 때 등장인물의 관계를 잊지 않는 것)
코딩 능력: 단순히 코드를 짜는 것을 넘어, 시스템 전체를 설계하는 능력이 향상되었습니다.
논리적 추론: 코드를 작성할 때의 논리가 일반적인 문제 해결 능력 (수학, 논리 퀴즈 등) 으로도 확장되었습니다.

🌟 한 줄 요약

"완성된 결과물 (케이크) 만 보여주고 요리법을 가르치는 대신, 요리사가 재료를 고르고, 실패하고, 다시 시도하는 '생생한 요리 과정'을 보여줌으로써 AI 가 진짜 요리사 (소프트웨어 엔지니어) 가 되게 만들었습니다."

이 연구는 AI 가 단순히 "지식"을 암기하는 것을 넘어, "생각하는 과정"을 배우게 함으로써 더 똑똑하고 유연한 인공지능을 만드는 길을 열었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대규모 언어 모델 (LLM) 은 코드 생성 분야에서 뛰어난 성과를 거두었으나, 복잡한 소프트웨어 공학에 필요한 깊은 추론 (deep reasoning) 과 장기적 계획 (long-horizon planning) 능력에서는 한계를 보입니다.

기존 데이터의 한계: 표준 사전 학습 (Pre-training) 데이터는 정적 (static) 인 소프트웨어 저장소 (Repository) 로 구성되어 있습니다. 이는 복잡한 지적 과정 (요구사항 분석, 아키텍처 설계, 디버깅, 반복적 개선 등) 의 최종 결과물 (Terminal State) 만을 담고 있을 뿐, 그 과정에 대한 정보는 생략되어 있습니다.
학습의 부재: 모델이 정적 코드만으로 학습할 경우, 결과물의 표면적 구조를 암기하는 수준에 그치게 되어, 코드가 왜 그리고 어떻게 작성되었는지에 대한 인과적 논리 (Causal Logic) 를 이해하지 못합니다. 이는 마치 목적지만 보여주고 지도를 주지 않는 것과 같습니다.

2. 방법론 (Methodology)

저자들은 "재구성을 통한 이해 (Understanding via Reconstruction)" 라는 새로운 패러다임을 제안합니다. 정적 저장소 뒤에 숨겨진 잠재적인 에이전트 궤적 (Agentic Trajectories) 을 역추적하여, 계획, 추론, 디버깅 단계를 명시적으로 복원하는 것입니다.

2.1 다중 에이전트 시뮬레이션 (Multi-Agent Simulation)

기존 저장소를 '정답 (Ground Truth)'으로 간주하고, 이를 달성하기 위해 필요한 문제 해결 단계를 시뮬레이션하여 데이터를 생성합니다.

메인 에이전트 (Main Agent): 프로젝트의 전반적인 요구사항을 생성하고, 파일별 구현 순서와 의존성을 고려한 실행 계획을 수립합니다.
서브 에이전트 (Sub-Agent): 메인 에이전트의 지시를 받아 개별 파일을 구현합니다. Read 도구를 통해 다른 파일의 컨텍스트를 파악하고, Write 도구를 통해 코드를 생성합니다.
현실 기반 grounding (Grounding): 시뮬레이션의 환각 (Hallucination) 을 방지하고 정확도를 높이기 위해, 원본 저장소에서 추출한 실제 파일 계층 구조, 의존성 그래프, 실제 코드 내용을 시뮬레이션 과정에 주입합니다. 즉, 에이전트의 사고 과정은 LLM 이 생성하지만, 도구 호출의 결과 (Tool Response) 는 실제 저장소의 내용으로 대체됩니다.

2.2 CoT 최적화를 위한 검색 기반 기법 (Search-based CoT Optimization)

초기 시뮬레이션에서 생성된 사고 과정 (Chain-of-Thought, CoT) 은 최적이지 않을 수 있습니다. 이를 개선하기 위해 검색 기반 최적화를 적용합니다.

목표: 주어진 코드 (Ground Truth, $x$ ) 에 대한 조건부 확률을 최대화하는 사고 경로 ( $z$ ) 를 찾는 것 ( $\max \log p(x|z)$ ).
과정:
1. 샘플링: 특정 사고 단계 ( $z_i$ ) 에 대해 LLM 을 통해 여러 가지 개선안 (Refinements) 을 생성합니다.
2. 평가: 각 후보 사고 경로에 대해 목표 코드의 Perplexity (PPL) 를 계산합니다.
3. 업데이트: PPL 이 낮아지는 (즉, 코드를 더 잘 예측하는) 사고 단계로만 원본 CoT 를 교체합니다.
  이 과정을 반복하여 논리적 엄밀성이 보장된 고품질 데이터를 확보합니다.

2.3 지속적 사전 학습 (Continual Pre-training)

생성된 에이전트 궤적 데이터를 사용하여 Llama-3-8B 모델을 지속적 사전 학습 (Continual Pre-training) 시킵니다.

데이터 구조화: 계층적인 에이전트 상호작용을 단일 시퀀스로 변환 (Flattening) 합니다.
손실 마스킹 (Loss Masking): 모델이 피드백 (Observation/Tool Response) 을 암기하는 것을 방지하고, 사고 (Think) 와 행동 (Action) 간의 인과 관계를 학습하도록 Observation 토큰에 대한 손실 계산을 마스킹합니다.

3. 주요 기여 (Key Contributions)

새로운 학습 패러다임 제안: 정적 저장소의 한계를 극복하기 위해, 소프트웨어 개발의 역동적인 과정 (계획, 추론, 실행) 을 역추적하여 복원하는 '재구성을 통한 이해' 방식을 제안했습니다.
다중 에이전트 시뮬레이션 프레임워크 개발: 원본 저장소의 구조적 사실 (파일 계층, 의존성 등) 을 기반으로 에이전트 궤적을 합성하여, 정적 데이터를 동적인 사고 및 행동 데이터로 변환하는 방법을 고안했습니다.
검색 기반 CoT 최적화: 생성된 사고 과정의 논리적 엄밀성을 높이기 위해 Perplexity 기반의 검색 최적화 기법을 도입하여 데이터 품질을 극대화했습니다.
실험적 검증: 재구성된 데이터로 사전 학습한 Llama-3-8B 가 장기 컨텍스트 이해, 코딩 능력, 추론 능력, 에이전트 기능 등 다양한 벤치마크에서 기존 코드 기반 학습 모델보다 우수한 성능을 입증했습니다.

4. 실험 결과 (Results)

Llama-3-8B 를 기반으로 한 실험에서 다음과 같은 성과를 확인했습니다.

장기 컨텍스트 이해 (Long-Context Understanding): Ruler 및 Helmet 벤치마크에서, 특히 64k 토큰과 같은 긴 컨텍스트 환경에서 정적 코드 학습 (Raw-Repos) 보다 Repo2Agent-Search(최적화된 버전) 모델이 훨씬 뛰어난 성능을 보였습니다. 이는 단계별 구축 과정을 학습한 모델이 긴 문맥 내 정보 무결성을 유지하는 데 유리함을 시사합니다.
코딩 및 추론 능력 (Coding & Reasoning): HumanEval 및 LongCodeBench 에서 코딩 점수가 상승했으며, MATH, GSM-8k 등 일반 추론 벤치마크에서도 긍정적인 전이 (Positive Transfer) 가 관찰되었습니다. 이는 구조화된 논리 학습이 특정 도메인 (코드) 을 넘어 일반 지능 향상에도 기여함을 의미합니다.
소프트웨어 공학 능력 (Agentic Capabilities): APTBench 평가에서 Issue-Fix(문제 수정) 및 Env-Setup(환경 설정) 과 같은 에이전트 태스크에서 뛰어난 성능을 보여주었습니다. 특히 검색 최적화 (Search) 를 적용한 모델은 디버깅 로직과 정밀한 구현 능력에서 우위를 보였습니다.

5. 의의 및 결론 (Significance)

이 연구는 LLM 이 단순히 코드를 "생성"하는 것을 넘어, 소프트웨어 개발의 복잡한 인지적 과정 (Planning, Debugging, Refinement) 을 "이해"하도록 만드는 새로운 데이터 중심 접근법을 제시했습니다.

데이터의 질적 전환: 정적 코드 덩어리를 인간 개발자의 사고 과정이 담긴 동적 궤적으로 변환함으로써, 모델에게 더 풍부하고 인과적인 학습 신호를 제공합니다.
효율성: RL(강화 학습) 과 같은 복잡한 최적화 없이도, 추론 시 검색 (Inference-time Search) 을 통해 고품질 CoT 를 확보할 수 있음을 보여주었습니다.
미래 방향: 이 방법은 소프트웨어 엔지니어링뿐만 아니라, 복잡한 장기 계획이 필요한 다양한 에이전트 작업 (Agent Tasks) 에 대한 LLM 의 능력을 확장하는 데 중요한 기초가 될 것입니다.

요약하자면, "코드를 만드는 과정을 역으로 재구성하여 학습시킴으로써, LLM 이 정적 코드의 표면적 패턴을 넘어 소프트웨어 공학의 깊은 논리를 이해하게 한다" 는 것이 이 논문의 핵심 메시지입니다.

Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining