BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"현재의 AI 프로그래머 (코드 에이전트) 가 혼자서 복잡한 소프트웨어 문제를 해결할 수 있을까?"**라는 질문에서 시작합니다.

기존의 AI 평가 방식은 마치 **"한 방 (단일 저장소) 안에서만 일어나는 작은 고장 수리"**만 테스트했습니다. 하지만 현실의 개발자는 여러 개의 다른 프로젝트 (다른 방) 를 오가며, 전문적인 지식을 찾고, 의존성 문제를 해결하고, 아예 처음부터 새 건물을 짓기도 합니다.

이 논문은 **"BeyondSWE"**라는 새로운 시험지를 만들고, AI 가 이 새로운 시험에서 얼마나 잘하는지, 그리고 '검색 (Search)' 기능을 붙여주면 도움이 되는지 실험했습니다.

핵심 내용을 일상적인 비유로 설명해 드릴겠습니다.

1. 기존 시험지 vs 새로운 시험지 (BeyondSWE)

기존 시험지 (SWE-bench):

비유: "이 아파트 (단일 프로젝트) 의 302 호 변기만 고쳐보세요."

상황: 모든 도구와 부품이 변기 옆에 다 있습니다.

결과: 최신 AI 는 이 정도는 80% 이상 잘 고칩니다.

새로운 시험지 (BeyondSWE):

비유: "이 아파트의 변기 고장, 이웃 아파트의 설계도 참고, 원자력 발전소 지식 활용, 그리고 전체 배관 시스템 교체까지 해보세요."

상황 1 (CrossRepo): 변기 고장 원인이 이웃 아파트 (다른 프로젝트) 의 부품 문제라, 그쪽 설계도를 찾아와야 함.

상황 2 (DomainFix): 변기 물이 안 나오는 게 일반 고장이 아니라, '양자 물리학'이나 '생물학' 같은 특수한 지식과 관련된 문제.

상황 3 (DepMigrate): 아파트 전체의 배관 규격 (의존성) 이 바뀌어서, 100 개 이상의 방을 일일이 개조해야 함.

상황 4 (Doc2Repo): 설계도 (문서) 만 주어졌을 때, 아예 아파트를 처음부터 지어야 함.

결과:
AI 는 이 새로운 시험에서 45% 미만의 점수만 받았습니다. 즉, **"단순한 고치는 잘하지만, 복잡한 현실 세계의 문제는 여전히 무능하다"**는 결론이 나왔습니다.

2. 검색 기능을 붙여주면 어떨까? (SearchSWE)

연구진은 "AI 가 구글 검색을 할 수 있게 해주면 더 잘할까?"라고 생각했습니다. 그래서 **'검색 기능'이 달린 AI (SearchSWE)**를 만들었습니다.

예상: 검색을 하면 답을 찾아오니까 점수가 오를 거야!
현실: 점수가 오를 때도 있고, 오히려 떨어질 때도 있습니다.

왜 그럴까요? (3 가지 실패 사례)

정보의 질이 안 맞음 (Information Landscape Gap):
- 비유: AI 가 "이 기계의 수리 매뉴얼 (소스 코드)"을 찾고 싶은데, 검색 엔진은 "이 기계의 홍보 문구 (일반적인 설명)"만 찾아옵니다.
- 결과: AI 는 홍보 문구를 보고 수리를 시도하다가 실패합니다.
버전 충돌 (Temporal Misalignment):
- 비유: AI 가 "2025 년 최신 자동차 수리법"을 검색해서 가져오는데, 실제로 수리해야 할 차는 1990 년식입니다.
- 결과: 최신 부품으로 90 년식 차를 고치려다 차가 더 망가집니다. (과거의 환경과 최신 검색 결과가 안 맞음)
오해의 소지가 있는 검색 (Semantic Drift):
- 비유: "Family(가족)"라는 단어를 검색했는데, '가족'이라는 단어가 들어간 건축 설계도나 법률 문서가 먼저 뜨고, 진짜 필요한 '소프트웨어 가족 (모듈)' 정보는 뒤로 밀립니다.
- 결과: AI 는 건축 설계도를 보고 코드를 짜다가 엉뚱한 짓을 합니다.

3. 핵심 교훈: "검색을 잘하는 것과 코딩을 잘하는 것은 별개다"

이 연구의 가장 큰 발견은 다음과 같습니다.

"AI 가 검색을 많이 한다고 해서 코딩 실력이 좋아지는 건 아닙니다. 오히려 검색을 잘못하면 코딩 실력이 더 나빠질 수도 있습니다."

현실의 개발자: "아, 이 오류는 저기서 봤어. 검색해 볼까? 아, 이 정보는 내 환경 (버전) 에 안 맞네. 무시하고 내 코드만 고치자." (검색과 코딩을 유연하게 오가며 판단)
현재의 AI: "검색 결과에 '이렇게 하세요'라고 나와있네? 무조건 따라해!" (검색 결과에 너무 의존하거나, 반대로 검색을 안 해서 막힘)

4. 결론: 앞으로의 방향

이 논문은 **"AI 프로그래머가 진짜 개발자가 되려면, 단순히 코드를 잘 짜는 것뿐만 아니라, 검색을 할 때 '언제 검색해야 하고, 무엇을 믿어야 하며, 내 환경에 맞게 어떻게 변형해야 하는지'를 판단하는 능력"**이 필요하다고 말합니다.

한 줄 요약:

"지금의 AI 프로그래머는 **'단순한 수리공'**은 될 수 있지만, **'복잡한 현실 문제를 해결하는 엔지니어'**가 되려면 **'검색과 코딩을 자연스럽게 섞는 지혜'**가 더 필요합니다."

이 논문은 바로 그 '지혜'를 기르기 위한 새로운 시험지 (BeyondSWE) 와 실험 도구 (SearchSWE) 를 세상에 내놓은 것입니다.

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

1. 기존 시험지 vs 새로운 시험지 (BeyondSWE)

2. 검색 기능을 붙여주면 어떨까? (SearchSWE)

3. 핵심 교훈: "검색을 잘하는 것과 코딩을 잘하는 것은 별개다"

4. 결론: 앞으로의 방향

BeyondSWE: 단일 저장소 버그 수정을 넘어선 현재 코드 에이전트의 생존 가능성에 대한 기술적 요약

1. 연구 배경 및 문제 제기

2. 제안된 방법론

2.1 BeyondSWE 벤치마크

2.2 SearchSWE 프레임워크

3. 주요 실험 결과

3.1 성능 한계 (BeyondSWE 결과)

3.2 검색 증강의 효과 (SearchSWE 결과)

4. 주요 기여 및 의의

5. 결론

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

1. 기존 시험지 vs 새로운 시험지 (BeyondSWE)

2. 검색 기능을 붙여주면 어떨까? (SearchSWE)

3. 핵심 교훈: "검색을 잘하는 것과 코딩을 잘하는 것은 별개다"

4. 결론: 앞으로의 방향

BeyondSWE: 단일 저장소 버그 수정을 넘어선 현재 코드 에이전트의 생존 가능성에 대한 기술적 요약

1. 연구 배경 및 문제 제기

2. 제안된 방법론

2.1 BeyondSWE 벤치마크

2.2 SearchSWE 프레임워크

3. 주요 실험 결과

3.1 성능 한계 (BeyondSWE 결과)

3.2 검색 증강의 효과 (SearchSWE 결과)

4. 주요 기여 및 의의

5. 결론

유사한 논문

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics