daVinci-Env: Open SWE Environment Synthesis at Scale

이 논문은 45,320 개의 실행 가능한 Docker 환경과 13,000 개의 정제된 학습 궤적을 포함하는 대규모 오픈 소스 SWE 에이전트 훈련 프레임워크인 'daVinci-Env (OpenSWE)'를 제안하여, SWE-bench Verified 에서 최첨단 성능을 달성하고 수학 및 과학 분야에서도 뛰어난 일반화 능력을 입증했습니다.

Dayuan Fu, Shenyu Wu, Yunze Wu, Zerui Peng, Yaxing Huang, Jie Sun, Ji Zeng, Mohan Jiang, Lin Zhang, Yukun Li, Jiarui Hu, Liming Liu, Jinlong Hou, Pengfei Liu

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 왜 새로운 학교가 필요했을까?

지금까지 AI(인공지능) 에게 코딩을 가르치려고 할 때, 두 가지 큰 문제가 있었습니다.

  • 규모가 너무 작아요: 기존에 공개된 코딩 문제들은 마치 "초등학교 1 학년용 교재"처럼 양이 적고 종류도 한정되어 있었습니다.
  • 비밀스러운 공장: 대기업들은 엄청난 양의 데이터를 가지고 있지만, 그 내부가 어떻게 돌아가는지 아무도 모릅니다. 마치 "요리 실력을 가르치는 비밀 식당"이 있는데, 레시피와 주방은 다들 볼 수 없으니 일반인들은 배울 수 없는 상황이었죠.

2. 해결책: OpenSWE (오픈스위)

연구팀은 이 문제를 해결하기 위해 전 세계 어디서나 볼 수 있고, 누구나 사용할 수 있는 거대한 '가상 코딩 공장'을 만들었습니다.

  • 거대한 도서관과 실험실: 이 프로젝트는 **12,800 개 이상의 실제 소프트웨어 프로젝트 (저장고)**에서 가져온 45,000 개 이상의 코딩 문제를 담고 있습니다.
  • 완벽한 투명성: 단순히 문제만 주는 게 아니라, 문제를 해결하는 데 필요한 모든 도구 (Docker 컨테이너), 평가 방법, 심지어 이 공장을 지은 설계도까지 모두 공개했습니다. 마치 "요리 레시피뿐만 아니라, 그 요리를 만드는 데 필요한 모든 재고와 주방 장비까지 공개한 것"과 같습니다.
  • 비용: 이 거대한 학교를 짓는 데 약 **147 만 달러 (약 20 억 원)**가 들었습니다. (건물 공사비 89 만 달러 + 학생들의 연습 과정 수집 및 관리비 57 만 달러)

3. 핵심 기술: 어떻게 '질 좋은' 문제를 찾았나?

단순히 문제를 많이 모은다고 좋은 게 아닙니다. 연구팀은 '질 관리'에 집중했습니다.

  • 나쁜 문제 걸러내기:
    • 해결 불가능한 문제: "이 문제는 AI 가 아무리 노력해도 못 푼다"는 문제들은 제외했습니다. (예: 문제 설명이 애매하거나, 정답이 없는 경우)
    • 너무 쉬운 문제: "문제를 읽으면 바로 답이 나오는" 문제들은 제외했습니다. (예: 오타 하나만 고르면 되는 아주 쉬운 문제)
  • AI 로봇 군단: 이 작업을 위해 64 대의 컴퓨터로 이루어진 거대한 로봇 군단을 투입했습니다. 이 로봇들이 자동으로 코드를 분석하고, 실행 환경을 만들고, 문제를 검증하는 과정을 반복했습니다.

4. 결과: 얼마나 잘 가르쳤나?

이 'OpenSWE'로 훈련된 AI 는 놀라운 성과를 냈습니다.

  • 최고의 성적: 세계적인 코딩 실력 평가인 'SWE-bench'에서 66.0% 의 정답률을 기록하며, 기존에 있던 어떤 AI 보다도 뛰어난 성적을 냈습니다. (기존 32B 모델 기준 62.4% → 72B 모델 기준 66.0%)
  • 데이터의 힘: 데이터를 더 많이 학습할수록 AI 의 실력이 계속 좋아졌습니다. "더 이상 배울 게 없다"는 지점 (포화 상태) 에 도달하지 않았다는 뜻입니다.
  • 부수적인 효과: 코딩만 잘하는 게 아니라, 수학 문제나 과학 문제 해결 능력도 함께 향상되었습니다. (코딩을 통해 논리력을 기르니, 다른 분야도 잘하게 된 것) 하지만, 단순히 사실을 외우는 능력 (기억력) 은 변하지 않았습니다.

5. 요약: 이 연구가 우리에게 주는 의미

이 논문은 **"AI 가 코딩을 잘하려면, 양이 많고 질이 좋은 '실전 훈련장'이 필요하다"**는 것을 증명했습니다.

기존에는 대기업만 가진 비밀스러운 훈련장을 사용해야 했지만, 이제 **누구나 무료로 접근할 수 있는 최고의 훈련장 (OpenSWE)**을 공개했습니다. 이는 앞으로 더 똑똑한 AI 개발자 (에이전트) 를 키우는 데 큰 발판이 될 것입니다.

한 줄 요약:

"코딩 실력을 기르기 위해, 전 세계 최고의 '가상 코딩 공장'을 무료로 공개하고, 그 안에서 훈련된 AI 가 세계 최고의 코딩 실력을 보여주었습니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →