SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale

Each language version is independently generated for its own context, not a direct translation.

🚀 핵심 비유: "AI 코딩 로봇을 위한 '실전 사격 훈련장'"

지금까지 AI(로봇) 가 코딩을 잘하려면, 사람이 직접 문제를 내고 정답을 확인해 주는 **'가상 시뮬레이션'**에서 훈련받았습니다. 하지만 실제 세상은 훨씬 복잡하죠.

이 논문은 **"AI 가 진짜 현업에서 일할 수 있도록, 전 세계의 다양한 언어 (Python, Go, Java 등 20 개) 로 된 '실제 회사 프로젝트'들을 자동으로 모아놓은 거대한 훈련장"**을 만들었다고 말합니다.

이 훈련장의 이름은 SWE-rebench V2입니다.

🛠️ 왜 이걸 만들었나요? (문제점)

훈련할 '문제'가 너무 적어요: AI 를 가르치려면 수많은 '문제 (버그 수정)'와 '정답 확인 도구 (테스트)'가 필요합니다. 그런데 기존에는 이런 데이터가 너무 적거나, 파이썬 같은 인기 언어에만 집중되어 있었습니다.
환경 설정이 너무 어려워요: "이 코드를 실행하려면 이 라이브러리를 설치하고, 저 서버를 연결해야 해!" 같은 복잡한 환경 설정을 사람이 일일이 해주는 건 불가능합니다.
다른 언어는 무시당해요: 파이썬은 잘 되는데, C++ 나 Rust 같은 다른 언어는 훈련장이 아예 없거나 엉망인 경우가 많았습니다.

🤖 SWE-rebench V2 가 해결한 방법 (해법)

이 연구팀은 **"로봇이 스스로 환경을 설정하고 문제를 찾아내는 자동화 공장"**을 지었습니다.

1. 자동 환경 설정 공장 (Setup Synthesis)

비유: 새로운 도시 (프로젝트) 에 도착한 로봇이, 지도도 없고 언어도 모를 때 **"스스로 길을 찾아 식당 (의존성) 을 열고, 요리 (코드 실행) 를 해보는 것"**입니다.
작동 방식: AI 에이전트가 GitHub 의 실제 프로젝트에 들어가, "어떻게 설치하고 실행하지?"를 스스로 추측하고 시도하다가, 실패하면 다시 시도하며 **최종적으로 작동하는 환경 (Docker 이미지)**을 만들어냅니다.
결과: 20 개 언어, 3,600 개 이상의 프로젝트에서 자동으로 실행 가능한 환경을 구축했습니다.

2. 문제 수집 및 필터링 (Quality Control)

비유: 공장에서는 **"진짜 쓸 만한 문제"**만 골라냅니다.
- "문제가 너무 모호해서 뭘 고쳐야 할지 모르는 경우" → 버림
- "테스트가 엉뚱한 걸 검사하는 경우" → 버림
- "실제 회사에서 일어난 진짜 버그 (Pull Request)" → 채용
특이점: 단순히 '이슈'만 모은 게 아니라, PR(코드 변경 요청) 설명을 바탕으로 AI 가 새로운 문제 설명을 만들어내는 방식도 도입했습니다. 이렇게 하면 기존에 이슈가 없었던 프로젝트에서도 훈련 데이터를 12 만 개나 더 확보할 수 있었습니다.

3. 치밀한 진단 보고서 (Metadata)

비유: 훈련장에 들어가는 각 문제마다 **"주의사항 라벨"**을 붙여줍니다.
- "이 문제는 테스트가 너무 까다로워요 (B1)"
- "이 문제는 외부 링크가 필요해서 AI 가 못 볼 수도 있어요 (B3)"
- "이 문제는 이름만 바꾸면 되는 쉬운 문제예요 (Easy)"
효과: 연구자들은 이 라벨을 보고 "초보 AI 에게는 쉬운 문제만 주고, 고급 AI 에게는 까다로운 문제를 줘야지"라고 학습 커리큘럼을 설계할 수 있게 되었습니다.

📊 이 훈련장의 규모는 어때요?

언어: 20 개 (파이썬, 자바, 자바스크립트, 루스트, 스칼라 등)
프로젝트: 3,600 개 이상의 실제 오픈소스 저장소
문제 개수:
- 32,000 개: 실행 가능한 환경이 이미 준비된 '완성형' 문제들.
- 120,000 개: 설치 방법과 테스트만 있는 '확장형' 문제들 (더 많은 학습용).

💡 왜 이게 중요한가요?

이전까지 AI 코딩 연구는 **"파이썬 한 나라에서만 하는 훈련"**이었다면, SWE-rebench V2 는 **"전 세계 20 개 언어로 된 국제 훈련장"**을 열었습니다.

이제 AI 는 다양한 언어와 복잡한 환경에서도 스스로 문제를 해결하는 법을 배울 수 있게 되었고, 연구자들은 어떤 환경에서 AI 가 실패하는지 (예: 외부 링크 문제, 테스트의 모호함 등) 를 정확히 진단하여 더 똑똑한 소프트웨어 엔지니어 AI 를 만들 수 있게 되었습니다.

🏁 결론

"SWE-rebench V2 는 AI 가 실제 세상에서 코딩을 잘할 수 있도록, 전 세계의 다양한 언어와 프로젝트로 구성된 '자동화된 실전 훈련장'을 무료로 공개한 것입니다."

이제 AI 는 더 이상 가상의 시뮬레이션이 아닌, 진짜 복잡한 현실 세계의 코딩 문제를 해결하는 법을 배울 준비가 되었습니다.

SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale

🚀 핵심 비유: "AI 코딩 로봇을 위한 '실전 사격 훈련장'"

🛠️ 왜 이걸 만들었나요? (문제점)

🤖 SWE-rebench V2 가 해결한 방법 (해법)

1. 자동 환경 설정 공장 (Setup Synthesis)

2. 문제 수집 및 필터링 (Quality Control)

3. 치밀한 진단 보고서 (Metadata)

📊 이 훈련장의 규모는 어때요?

💡 왜 이게 중요한가요?

🏁 결론

SWE-rebench V2: 대규모 언어 중립적 소프트웨어 엔지니어링 (SWE) 태스크 수집 기술 요약

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1. 언어 중립적 파이프라인 구조

2.2. PR 기반 태스크 확장

3. 주요 기여 (Key Contributions)

4. 결과 (Results)

5. 의의 및 의의 (Significance)

SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale

🚀 핵심 비유: "AI 코딩 로봇을 위한 '실전 사격 훈련장'"

🛠️ 왜 이걸 만들었나요? (문제점)

🤖 SWE-rebench V2 가 해결한 방법 (해법)

1. 자동 환경 설정 공장 (Setup Synthesis)

2. 문제 수집 및 필터링 (Quality Control)

3. 치밀한 진단 보고서 (Metadata)

📊 이 훈련장의 규모는 어때요?

💡 왜 이게 중요한가요?

🏁 결론

SWE-rebench V2: 대규모 언어 중립적 소프트웨어 엔지니어링 (SWE) 태스크 수집 기술 요약

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1. 언어 중립적 파이프라인 구조

2.2. PR 기반 태스크 확장

3. 주요 기여 (Key Contributions)

4. 결과 (Results)

5. 의의 및 의의 (Significance)

유사한 논문

Evaluating Prompting Strategies for Chart Question Answering with Large Language Models

MERIT: Memory-Enhanced Retrieval for Interpretable Knowledge Tracing

Less is More: Adapting Text Embeddings for Low-Resource Languages with Small Scale Noisy Synthetic Data

Evaluating Large Language Models' Responses to Sexual and Reproductive Health Queries in Nepali

TIPS: Turn-Level Information-Potential Reward Shaping for Search-Augmented LLMs