BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?
이 논문은 기존 코드 에이전트 평가의 한계를 지적하고 교차 저장소 및 도메인 전문성 등 더 넓은 범위를 다루는 새로운 벤치마크 'BeyondSWE' 와 검색 기반 프레임워크 'SearchSWE' 를 제안하여, 현재 최첨단 모델조차 복잡한 실세계 작업에서 성능이 제한적이며 검색 증강이 일관된 개선을 보장하지 않음을 밝혔습니다.