BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

이 논문은 기존 코드 에이전트 평가의 한계를 지적하고 교차 저장소 및 도메인 전문성 등 더 넓은 범위를 다루는 새로운 벤치마크 'BeyondSWE' 와 검색 기반 프레임워크 'SearchSWE' 를 제안하여, 현재 최첨단 모델조차 복잡한 실세계 작업에서 성능이 제한적이며 검색 증강이 일관된 개선을 보장하지 않음을 밝혔습니다.

Guoxin Chen, Fanzhe Meng, Jiale Zhao, Minghao Li, Daixuan Cheng, Huatong Song, Jie Chen, Yuzhi Lin, Hui Chen, Xin Zhao, Ruihua Song, Chang Liu, Cheng Chen, Kai Jia, Ji-Rong Wen

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"현재의 AI 프로그래머 (코드 에이전트) 가 혼자서 복잡한 소프트웨어 문제를 해결할 수 있을까?"**라는 질문에서 시작합니다.

기존의 AI 평가 방식은 마치 **"한 방 (단일 저장소) 안에서만 일어나는 작은 고장 수리"**만 테스트했습니다. 하지만 현실의 개발자는 여러 개의 다른 프로젝트 (다른 방) 를 오가며, 전문적인 지식을 찾고, 의존성 문제를 해결하고, 아예 처음부터 새 건물을 짓기도 합니다.

이 논문은 **"BeyondSWE"**라는 새로운 시험지를 만들고, AI 가 이 새로운 시험에서 얼마나 잘하는지, 그리고 '검색 (Search)' 기능을 붙여주면 도움이 되는지 실험했습니다.

핵심 내용을 일상적인 비유로 설명해 드릴겠습니다.


1. 기존 시험지 vs 새로운 시험지 (BeyondSWE)

기존 시험지 (SWE-bench):

비유: "이 아파트 (단일 프로젝트) 의 302 호 변기만 고쳐보세요."

  • 상황: 모든 도구와 부품이 변기 옆에 다 있습니다.
  • 결과: 최신 AI 는 이 정도는 80% 이상 잘 고칩니다.

새로운 시험지 (BeyondSWE):

비유: "이 아파트의 변기 고장, 이웃 아파트의 설계도 참고, 원자력 발전소 지식 활용, 그리고 전체 배관 시스템 교체까지 해보세요."

  • 상황 1 (CrossRepo): 변기 고장 원인이 이웃 아파트 (다른 프로젝트) 의 부품 문제라, 그쪽 설계도를 찾아와야 함.
  • 상황 2 (DomainFix): 변기 물이 안 나오는 게 일반 고장이 아니라, '양자 물리학'이나 '생물학' 같은 특수한 지식과 관련된 문제.
  • 상황 3 (DepMigrate): 아파트 전체의 배관 규격 (의존성) 이 바뀌어서, 100 개 이상의 방을 일일이 개조해야 함.
  • 상황 4 (Doc2Repo): 설계도 (문서) 만 주어졌을 때, 아예 아파트를 처음부터 지어야 함.

결과:
AI 는 이 새로운 시험에서 45% 미만의 점수만 받았습니다. 즉, **"단순한 고치는 잘하지만, 복잡한 현실 세계의 문제는 여전히 무능하다"**는 결론이 나왔습니다.


2. 검색 기능을 붙여주면 어떨까? (SearchSWE)

연구진은 "AI 가 구글 검색을 할 수 있게 해주면 더 잘할까?"라고 생각했습니다. 그래서 **'검색 기능'이 달린 AI (SearchSWE)**를 만들었습니다.

예상: 검색을 하면 답을 찾아오니까 점수가 오를 거야!
현실: 점수가 오를 때도 있고, 오히려 떨어질 때도 있습니다.

왜 그럴까요? (3 가지 실패 사례)

  1. 정보의 질이 안 맞음 (Information Landscape Gap):

    • 비유: AI 가 "이 기계의 수리 매뉴얼 (소스 코드)"을 찾고 싶은데, 검색 엔진은 "이 기계의 홍보 문구 (일반적인 설명)"만 찾아옵니다.
    • 결과: AI 는 홍보 문구를 보고 수리를 시도하다가 실패합니다.
  2. 버전 충돌 (Temporal Misalignment):

    • 비유: AI 가 "2025 년 최신 자동차 수리법"을 검색해서 가져오는데, 실제로 수리해야 할 차는 1990 년식입니다.
    • 결과: 최신 부품으로 90 년식 차를 고치려다 차가 더 망가집니다. (과거의 환경과 최신 검색 결과가 안 맞음)
  3. 오해의 소지가 있는 검색 (Semantic Drift):

    • 비유: "Family(가족)"라는 단어를 검색했는데, '가족'이라는 단어가 들어간 건축 설계도법률 문서가 먼저 뜨고, 진짜 필요한 '소프트웨어 가족 (모듈)' 정보는 뒤로 밀립니다.
    • 결과: AI 는 건축 설계도를 보고 코드를 짜다가 엉뚱한 짓을 합니다.

3. 핵심 교훈: "검색을 잘하는 것과 코딩을 잘하는 것은 별개다"

이 연구의 가장 큰 발견은 다음과 같습니다.

"AI 가 검색을 많이 한다고 해서 코딩 실력이 좋아지는 건 아닙니다. 오히려 검색을 잘못하면 코딩 실력이 더 나빠질 수도 있습니다."

  • 현실의 개발자: "아, 이 오류는 저기서 봤어. 검색해 볼까? 아, 이 정보는 내 환경 (버전) 에 안 맞네. 무시하고 내 코드만 고치자." (검색과 코딩을 유연하게 오가며 판단)
  • 현재의 AI: "검색 결과에 '이렇게 하세요'라고 나와있네? 무조건 따라해!" (검색 결과에 너무 의존하거나, 반대로 검색을 안 해서 막힘)

4. 결론: 앞으로의 방향

이 논문은 **"AI 프로그래머가 진짜 개발자가 되려면, 단순히 코드를 잘 짜는 것뿐만 아니라, 검색을 할 때 '언제 검색해야 하고, 무엇을 믿어야 하며, 내 환경에 맞게 어떻게 변형해야 하는지'를 판단하는 능력"**이 필요하다고 말합니다.

한 줄 요약:

"지금의 AI 프로그래머는 **'단순한 수리공'**은 될 수 있지만, **'복잡한 현실 문제를 해결하는 엔지니어'**가 되려면 **'검색과 코딩을 자연스럽게 섞는 지혜'**가 더 필요합니다."

이 논문은 바로 그 '지혜'를 기르기 위한 새로운 시험지 (BeyondSWE) 와 실험 도구 (SearchSWE) 를 세상에 내놓은 것입니다.