Self-Execution Simulation Improves Coding Models

Each language version is independently generated for its own context, not a direct translation.

🎒 비유: "머릿속 시뮬레이터"를 가진 코딩 신동

상상해 보세요. 여러분이 코딩을 배우는 학생이라고 칩시다.
지금까지의 AI 들은 **책을 많이 읽은 '이론가'**였습니다. 책 (데이터) 을 많이 읽어서 문법과 예시를 외웠지만, 실제로 코드를 실행해 보지 않고는 "이 코드가 정말 작동할까?"를 정확히 알지 못했습니다. 그래서 자신이 쓴 코드가 틀렸는데도 "아, 잘 썼네!"라고 착각하는 경우가 많았죠.

이 논문은 이 AI 들에게 새로운 능력을 가르쳤습니다. 바로 **"머릿속 시뮬레이터 (Self-Execution Simulation)"**입니다.

1. 새로운 훈련 방법: "실행 과정을 말로 설명하기"

연구진은 AI 에게 코드를 직접 실행하는 대신, **"이 코드가 실행되면 변수가 어떻게 변하고, 최종 결과가 어떻게 나올지 단계별로 말로 설명하는 훈련"**을 시켰습니다.

비유: 요리사에게 "요리책만 보고 레시피를 외우는 것"이 아니라, "냄비 속에서 재료가 어떻게 변하는지, 불 조절을 어떻게 해야 하는지 상상해서 설명하는 훈련"을 시킨 것과 같습니다.
이 훈련을 통해 AI 는 코드를 실행하지 않아도, 머릿속으로 코드가 어떻게 돌아갈지 예측할 수 있게 되었습니다.

2. 첫 번째 활용: "스스로 검증하기 (Best@k)"

AI 가 문제를 풀 때, 한 번에 정답을 내기보다 10 가지의 다른 해결책을 먼저 만들어 봅니다.

과거의 방식: 10 개 중 가장 짧거나 예쁜 코드를 고릅니다. (실제 실행 안 해봄)
이 논문의 방식: AI 가 만든 10 개 코드를 머릿속 시뮬레이터로 하나씩 돌려봅니다. "이건 10 번 반복하면 에러가 나겠네", "저건 정답이 5 가 나오겠네"라고 예측합니다.
그중에서 예상 결과가 가장 정확한 코드를 선택해 제출합니다.
결과: 실제로 코드를 실행해 볼 필요 없이, 머릿속으로만 검증해서 정답률을 획기적으로 높였습니다. (경쟁 코딩 대회에서 39% 까지 점수 향상!)

3. 두 번째 활용: "스스로 고치기 (Self-RLEF)"

만약 AI 가 코드를 작성했는데, 시뮬레이터가 "아, 여기서 0 으로 나누는 에러가 발생하겠네"라고 예측하면?

AI 는 실제 실행 환경 (컴퓨터) 을 켜지 않고도, "아, 내가 실수했구나. 고쳐야겠다"라고 생각하며 코드를 수정합니다.
이 과정을 여러 번 반복하면 (Iterative Self-Fixing), 점점 더 완벽한 코드가 만들어집니다.
비유: 그림을 그릴 때, 물감을 칠하기 전에 "이 선이 삐뚤어지면 안 되겠네"라고 머릿속으로 그려보고 수정하는 화가와 같습니다.

🌟 왜 이것이 중요한가요?

시간과 비용 절감: 코드를 실제로 실행하려면 컴퓨터 환경을 설정하고, 의존성을 해결하고, 시간이 걸립니다. (심지어는 9 시간까지 걸리기도 합니다!) 하지만 머릿속 시뮬레이션은 순식간에 가능합니다.
더 정확한 AI: AI 가 자신이 만든 코드의 결함을 스스로 찾아내고 고칠 수 있게 되어, 인간 개발자처럼 "디버깅 (오류 수정)"을 할 수 있게 되었습니다.
현실적인 적용: 실제 실행이 불가능하거나 위험한 상황에서도 AI 가 안전하게 코드를 설계하고 검증할 수 있는 길을 열었습니다.

📝 한 줄 요약

이 연구는 AI 에게 **"코드를 실행해 보지 않아도, 머릿속으로 실행 과정을 완벽하게 상상하고 검증하는 능력"**을 가르쳤고, 그 결과 AI 가 코딩 대회에서 훨씬 더 뛰어난 성적을 거두게 되었다는 것을 증명했습니다.

마치 코딩을 잘하는 천재가 "실제 실행"이라는 무거운 짐을 지지 않고도, "머릿속 시뮬레이션"이라는 초능력으로 문제를 해결하는 모습이라고 생각하시면 됩니다! 🚀

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

대형 언어 모델 (LLM) 이 코드를 생성할 때 일관되게 정확한 결과를 내기 위해서는, 생성된 코드가 실제로 어떻게 실행될지 (Program Execution) 를 정확히 예측하고 이해하는 능력이 필수적입니다. 그러나 기존 연구들은 LLM 이 자신이 생성한 코드의 런타임 행동을 충실히 시뮬레이션하거나 오류를 식별하는 데 어려움을 겪고 있음을 지적했습니다.

주요 문제점은 다음과 같습니다:

실행 예측의 부재: 모델이 생성한 코드의 실행 결과를 정확히 예측하지 못해, 잘못된 코드를 생성하더라도 이를 스스로 검증하지 못함.
실제 실행의 한계: 대규모 훈련이나 추론 과정에서 실제 코드를 실행 (Sandboxing, 환경 설정, 의존성 관리 등) 하는 것은 비용이 많이 들고 시간이 오래 걸리며 (예: MLE-Bench 는 최대 9 시간 소요), 보안상 제약이 있을 수 있음.
현재 모델의 한계: 기존 모델들은 생성된 코드의 오류를 발견하고 설명하는 데 실패하는 경우가 많음.

2. 제안된 방법론 (Methodology)

이 논문은 LLM 이 코드 실행을 단계별로 시뮬레이션 (Self-Execution Simulation) 할 수 있도록 훈련하고, 이를 통해 코딩 성능을 향상시키는 새로운 프레임워크를 제안합니다. 핵심 접근법은 다음과 같습니다.

A. 자연어 실행 추적 (Natural Language Execution Tracing, NLEX)

데이터 생성: 실행 가능한 Python 프로그램과 입력 - 출력 쌍을 수집하여, 각 줄의 실행 상태를 기록합니다.
자연어 변환: 구조화된 실행 로그 (JSON 등) 를 Qwen3-32B 와 같은 모델에게 자연어 설명으로 변환하도록 프롬프팅합니다. 이는 변수 상태의 변화, 로직 흐름 등을 인간이 이해하기 쉬운 형태로 서술합니다.
지도 학습 (SFT): 생성된 약 8 천만 개의 자연어 실행 설명 데이터를 사용하여 모델을 미세 조정 (Supervised Fine-Tuning) 합니다.

B. 검증 가능한 보상을 통한 강화 학습 (RLVR)

출력 예측 환경: 모델이 주어진 (코드, 입력) 쌍에 대해 예상되는 표준 출력 (stdout) 을 예측하는 태스크를 정의합니다.
보상 신호: 예측된 출력이 실제 정답과 일치하면 +1, 일치하지 않으면 -1 의 이진 보상을 부여합니다.
다중 태스크 학습: 경쟁 프로그래밍 문제 해결 (Solving) 과 코드 실행 예측 (Output Prediction) 을 동시에 학습하도록 최적화합니다.

C. 자가 실행을 활용한 두 가지 전략

자가 검증 (Self-Verification, Best@k):
- 모델이 $k$ 개의 후보 솔루션을 생성합니다.
- 생성된 각 솔루션에 대해 모델이 직접 실행을 시뮬레이션하여 예상 출력을 도출합니다.
- 공개 테스트 케이스에서 예상 출력이 일치하는 가장 많은 솔루션을 선택하여 제출합니다.
자가 수정 (Self-RLEF, Iterative Self-Fixing):
- 멀티턴 (Multi-turn) 프로세스:
  1. Solve: 문제 해결을 위한 초기 코드 생성.
  2. Simulate: 생성된 코드와 테스트 입력에 대해 실행을 시뮬레이션하고 예상 출력을 예측.
  3. Submit/Fix: 예상 결과가 기대값과 다르면 코드를 수정하고, 일치하면 제출.
- 이 과정은 최대 10 턴까지 반복되며, 실제 실행 환경 없이 모델의 시뮬레이션 피드백만으로 코드를 개선합니다.

3. 주요 기여 (Key Contributions)

코드 실행 시뮬레이션 능력 증명: LLM 이 외부 코드뿐만 아니라 자가 생성한 코드의 실행 결과를 단계별로 시뮬레이션하고 예측할 수 있음을 입증했습니다.
실용적인 훈련 레시피 제안: 자연어 실행 추적 (NLEX) 데이터와 검증 가능한 보상을 통한 강화 학습 (RLVR) 을 결합하여, 실행 예측 능력을 갖춘 코딩 모델을 만드는 구체적인 파이프라인을 제시했습니다.
자가 검증 및 자가 수정 프레임워크: 외부 실행 환경 없이 모델의 시뮬레이션 능력을 활용하여 후보 솔루션을 필터링하거나 (Best@k), 코드를 반복적으로 수정하는 (Self-RLEF) 새로운 추론 전략을 도입했습니다.
성능 향상 및 일반화: 다양한 벤치마크에서 기존 베이스라인 대비 일관된 성능 향상을 보였으며, 타 모델이 생성한 코드를 검증하는 도구로도 활용 가능함을 입증했습니다.

4. 실험 결과 (Results)

CruxEval-O (출력 예측): NLEX 데이터를 포함한 훈련은 모델의 출력 예측 정확도를 크게 향상시켰습니다. Qwen2.5-3B 모델은 Pass@1 점수가 37.5% 에서 68.0% 로, 7B 모델은 48.5% 에서 75.5% 로 상승했습니다.
경쟁 프로그래밍 (Competitive Programming):
- Best@k (자가 검증): 모델이 생성한 여러 솔루션 중 시뮬레이션을 통해 가장 통과 가능성이 높은 것을 선택하는 방식은 기존 단일 솔루션 제출보다 **최대 39%**까지 성능을 향상시켰습니다.
- Self-RLEF (자가 수정): 멀티턴 피드백을 통한 반복 수정은 실제 실행 (Oracle) 을 사용할 때와 비교해 성능 격차 (Simulation Gap) 가 매우 작았으며, 공개/비공개 테스트 모두에서 기존 모델 (CWM 등) 보다 우수한 결과를 보였습니다.
- 정확도 향상: Best@k 설정에서 모델의 출력 예측을 이용해 후보를 검증함으로써 코딩 태스크의 정답률을 최대 5.5%p 향상시켰습니다.
모델 일반화: 훈련된 모델이 다른 모델 (예: Qwen3-32B) 이 생성한 솔루션을 검증하는 도구로 사용될 때도 높은 정확도를 보였습니다.

5. 의의 및 결론 (Significance)

이 연구는 코딩 LLM 의 발전에 있어 **"코드 실행 예측 능력"**이 핵심 요소임을 강조합니다.

비용 효율성: 실제 코드 실행 (Sandboxing) 의 높은 비용과 복잡성을 줄이면서도, 모델이 스스로 코드를 디버깅하고 검증할 수 있는 능력을 부여합니다.
신뢰성 향상: 생성된 코드가 실행될 때 어떤 결과가 나올지 예측하고 오류를 수정하는 능력은 더 신뢰할 수 있는 프로그래밍 에이전트 (Programming Agents) 를 구축하는 데 필수적입니다.
미래 방향: 단순한 최종 출력 예측을 넘어, 실행 과정의 상세한 논리와 오류 원인을 설명하는 풍부한 피드백 (Rich Feedback) 을 활용한 연구로 확장될 가능성을 제시합니다.

요약하자면, 이 논문은 LLM 이 "코드를 실행해 볼 수 있는 능력"을 학습하게 함으로써, 외부 도구에 의존하지 않고도 스스로 코드를 검증하고 개선하여 경쟁 프로그래밍 및 코드 생성 성능을 획기적으로 높일 수 있음을 증명했습니다.