원저자: Heleno de Souza Campos Junior, Leonardo Gresta Paulino Murta

게시일 2026-05-19✓ Author reviewed ⓘ

📖 4 분 읽기☕ 가벼운 읽기

원저자: Heleno de Souza Campos Junior, Leonardo Gresta Paulino Murta

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신과 친구가 동시에 같은 문서를 편집한다고 상상해 보세요. 두 사람 모두 같은 단락에 변경 사항을 적용하고 작업을 병합하려 할 때, 컴퓨터는 양손을 들어 올리며 "어떤 버전을 유지해야 할지 모르겠다!"라고 말합니다. 이를 **병합 충돌 (merge conflict)**이라고 합니다.

수십 년 동안 개발자들은 이러한 충돌을 수동으로 해결해 왔는데, 이는 지루하고 실수하기 쉬운 작업이었습니다. 최근 이 문제를 자동으로 해결하기 위해 두 가지 새로운 "스마트 도우미"가 등장했습니다. 이 논문은 두 도우미 중 어느 것이 더 나은지 비교하는 정면 대결입니다.

두 명의 경쟁자

두 도우미는 매우 다른 성격과 기술 세트를 가지고 있다고 생각하세요:

1. "수퍼 리더" (MergeGen 으로 대표되는 LLM 기반 접근법)

작동 원리: 이 도우미는 수백만 권의 책과 코드 문서를 읽은 천재 학생과 같습니다. 이 도우미는 정답을 "계산"하지 않습니다. 대신, 사물이 보통 어떻게 보이는지에 대한 기억을 바탕으로 최선의 해결책을 추측합니다. 학습한 패턴을 바탕으로 다음 단어나 줄을 예측합니다.
비유: 수천 가지 국물을 맛본 셰프와 같습니다. 재료가 빠진 레시피를 주면, 이 도우미는 향신료를 재는 것이 아니라 경험에 기반하여 국물이 어떻게 맛나야 하는지 "알고" 있어 적절한 양을 추가합니다.

2. "퍼즐 해결사" (SBCR 으로 대표되는 검색 기반 접근법)

작동 원리: 이 도우미는 체계적인 엔지니어입니다. 이 도우미는 코드가 무엇을 의미하는지 알지 못하며, 단순히 텍스트 줄을 볼 뿐입니다. 이 도우미는 충돌을 거대한 퍼즐로 취급합니다. 기존 줄들의 수백만 가지 다른 조합을 시도하며, 각 조합이 원래 버전들과 얼마나 닮아 있는지 확인합니다. 이 도우미는 간단한 규칙을 사용합니다. "최선의 해결책은 보통 두 부모 버전과 어느 정도 닮은 혼합물이다."
비유: 용의자가 누구인지 전혀 모르는 형사와 같습니다. 이 도우미는 사실과 완벽하게 일치하는 하나를 찾을 때까지 모든 가능한 범인 및 단서 조합을 시도합니다. 이 도우미는 추측하지 않고 테스트합니다.

레이스: 무슨 일이 일어났나요?

연구자들은 이 두 도우미를 오픈소스 프로젝트 (Java, C#, JavaScript 코드 등) 의 수천 가지 실제 충돌 사례에 대결시켰습니다. 그들이 발견한 내용은 다음과 같습니다:

1. "수퍼 리더"는 상황이 엉망일 때 이깁니다.
코드 두 버전의 크기가 매우 다를 때 (예: 한 버전은 거대한 단락을 추가하고 다른 버전은 단일 줄을 삭제한 경우), 수퍼 리더는 놀라웠습니다. 방대한 데이터를 학습했기 때문에 맥락을 이해하고 균형이 이상하더라도 올바른 줄을 선택할 수 있었습니다. 또한 훨씬 빨라 눈 깜짝할 사이에 충돌을 해결했습니다.

2. "퍼즐 해결사"는 상황이 균형 잡혔을 때 이깁니다.
두 버전의 크기와 구조가 유사할 때 퍼즐 해결사가 챔피언이었습니다. 수퍼 리더보다 줄들의 완벽한 혼합을 더 자주 찾았습니다. 또한 코드가 이상한 기호를 포함하거나, 비영어권 텍스트이거나, 매우 길 때 더 신뢰할 수 있었습니다.

3. "수퍼 리더"는 몇 가지 나쁜 버릇이 있습니다.

메모리 누수: 때때로 수퍼 리더는 학습 과정에서 본 특정 예시에 "얽매여" 버립니다. 현재 상황에 맞지 않더라도 그 답을 반복합니다. 이를 **과적합 (overfitting)**이라고 합니다. 이 도우미는 교훈을 배우는 대신 시험 문제를 외운 것입니다.
짧은 주의력: 코드 덩어리가 너무 크면 수퍼 리더는 압도되어 중간에 작동을 멈추고 충돌을 반만 해결한 채 둡니다.
언어 장벽: 코드가 모델이 학습하지 않은 언어로 된 주석을 포함하면 혼란을 겪습니다.

4. "퍼즐 해결사"는 조금 느리지만 꾸준합니다.
많은 조합을 테스트해야 하므로 퍼즐을 푸는 데 시간이 더 걸립니다. 그러나 모든 것을 단순한 텍스트로 취급하기 때문에 긴 텍스트나 이상한 언어에 혼란을 겪지 않습니다. 아무것도 "기억"하지 않으므로 과적합되지 않습니다.

큰 결론: "은탄"은 없다

이 논문은 어떤 도우미도 단독으로는 완벽하지 않다고 결론 내립니다.

작고 엉망인 충돌을 수퍼 리더에게 주면, 그것은 천재입니다.
크고 균형 잡히거나 형식이 이상한 충돌을 퍼즐 해결사에게 주면, 그것은 신뢰할 수 있는 일꾼입니다.

해결책은 무엇일까요?
저자들은 충돌을 먼저 살펴보는 "교통 경찰" 역할을 하는 하이브리드 시스템을 구축할 것을 제안합니다.

충돌이 작고 엉망이면, 교통 경찰은 그것을 수퍼 리더에게 보냅니다.
충돌이 크고 균형 잡히거나 이상한 문자를 포함하면, 교통 경찰은 그것을 퍼즐 해결사에게 보냅니다.

올바른 도구가 올바른 일을 하도록 함으로써, 우리는 빠르고 정확한 시스템을 만들어 개발자들을 수동 병합의 두통에서 구할 수 있습니다.

한 문장으로 요약

이 논문은 AI 의 "추측자"는 빠르고 엉망인 문제에 뛰어나지만, "검색자"는 복잡하거나 이상한 문제에 더 신뢰할 수 있으며, 최선의 미래 도구는 둘의 스마트한 결합이 될 것이라고 증명합니다.

기술 요약: LLM 기반 대 검색 기반 병합 충돌 해결

문제 정의

현대 협업 소프트웨어 개발에서 병합 충돌은 코드 영역에서 동시 수정이 겹칠 때 발생합니다. 이러한 충돌의 대부분 (약 87%) 은 새로운 코드를 작성하지 않고 충돌하는 버전의 기존 행을 결합하여 해결되지만, 이 과정은 여전히 시간 소모가 크고 오류가 발생하기 쉽습니다. 연구 커뮤니티는 최근 이 해결을 자동화하기 위한 두 가지 경쟁 패러다임을 제시했습니다. 하나는 대규모 언어 모델 (LLM) 기반의 생성형 AI(GenAI) 이고, 다른 하나는 휴리스틱 최적화에 기반한 검색 기반 소프트웨어 공학 (SBSE) 입니다. 두 패러다임의 도구 모두 유망한 결과를 보이지만, 실제 시나리오에서의 상대적 강점, 약점 및 근본적인 트레이드오프는 이전까지 탐구되지 않았습니다.

방법론

본 연구는 두 패러다임 간의 첫 번째 심층 경험적 비교를 제시하며, 최첨단 LLM 기반 도구인 MergeGen 과 무작위 재시작 힐 클라임빙 알고리즘을 사용하는 새로운 SBSE 접근법인 SBCR 을 평가합니다.

범위: 평가는 새로운 코드를 생성하지 않고 두 버전의 기존 행을 교차시키는 "결합 기반" 충돌에 집중했습니다. SBCR 은 새로운 코드를 생성할 수 없는 반면 MergeGen 은 가능하기 때문에 공정한 비교를 보장하기 위해 이 범위가 선택되었습니다.
데이터셋: 본 연구는 Java, C#, JavaScript, TypeScript 네 가지 언어의 오픈소스 프로젝트에서 가져온 수천 개의 실제 충돌을 활용했습니다. 두 가지 주요 데이터셋이 사용되었습니다.
- 데이터셋 1: 6,269 개의 Java 충돌.
- 데이터셋 2: 네 가지 언어에 걸친 47,363 개의 충돌 (결합 기반 해결로 필터링됨).
실험 설계:
- MergeGen: 언어별 데이터로 훈련된 CodeT5 인코더 - 디코더 모델로 구성되었습니다. 계산상의 제약으로 인해 입력 및 출력 토큰 제한은 각각 300 및 100 으로 설정되었습니다.
- SBCR: 솔루션 품질과 실행 시간 간의 균형을 최적화하기 위해 (반복당 이웃 수, 실행 시간, 정체 한도 등) 체계적인 매개변수 튜닝을 통해 구성되었습니다.
- 지표: 주요 지표는 개발자의 실제 해결책에 대한 Gestalt 패턴 매칭/LCS 를 통해 측정한 유사도와 실행 시간을 포함했습니다. 통계적 유의성은 Wilcoxon 부호 순위 검정과 공통 언어 효과 크기 (CLES) 를 사용하여 평가되었습니다.
- 일반화: 모델이 한 데이터셋에서 훈련/튜닝되고 다른 데이터셋에서 테스트될 때의 성능을 평가하여 적응성을 측정했습니다.
- 정성적 분석: 성능 차이를 설명하는 패턴을 식별하기 위해 100 개의 극단적인 사례 (SBCR 이 승리한 50 건, MergeGen 이 승리한 50 건) 에 대한 수동 검사가 수행되었습니다.

주요 기여 및 발견

1. 성능 비교 (RQ1 및 RQ2)

정확도: GenAI 패러다임 (MergeGen) 은 모든 언어 (Java, C#, JavaScript, TypeScript) 에서 해결 유사도 측면에서 SBSE 패러다임 (SBCR) 일관되게 우위를 점했습니다. MergeGen 은 Java 에서 중앙값 유사도 100% 와 완벽한 일치율 55% 를 달성한 반면, SBCR 은 각각 86.1% 와 19.6% 였습니다.
속도: MergeGen 은 중앙값 생성 시간이 0.3 초로 SBCR 의 1.3 초보다 훨씬 빨랐습니다.
통계적 유의성: 모든 언어에서 차이 ( $p < 0.001$ ) 가 통계적으로 유의미했으며, MergeGen 은 무작위 Java 충돌에서 더 유사한 해결책을 생성할 확률이 70.6% 였습니다.

2. 일반화 능력 (RQ3)

SBSE 견고성: SBCR 은 우수한 일반화 능력을 보여주었습니다. 동일한 데이터셋에서 튜닝되었는지 완전히 다른 데이터셋에서 튜닝되었는지 (교차 데이터셋 평가) 에 관계없이 성능이 안정적으로 유지되었습니다. 이는 데이터에 독립적이며 훈련 분포 변화로 인한 영향을 받지 않습니다.
GenAI 민감도: MergeGen 은 훈련 데이터에 대해 약간의 민감도를 보였습니다. 교차 데이터셋 시나리오에서도 여전히 SBCR 보다 우위를 점했지만, 다른 데이터셋에서 훈련되었을 때 성능이 약간 하락하여 특정 프로젝트 스타일이나 패턴에 과적합된 정도를 시사했습니다.

3. 문맥적 강점과 약점 (RQ4)

정성적 분석은 각 패러다임의 고유한 실패 및 성공 모드를 드러냈습니다.

MergeGen 강점: 불균형 충돌 (예: 한 버전이 다른 버전보다 훨씬 큰 경우) 과 공백 또는 제거된 콘텐츠가 관련된 시나리오에서 탁월한 성능을 발휘합니다. 학습된 문맥 패턴을 활용하여 올바른 불균형 해결책을 추론합니다.
MergeGen 약점: 비영어권 콘텐츠, 대용량 입력(토큰 제한으로 인한 잘림 발생), 그리고 빈 후보에 대해 어려움을 겪습니다. 본 연구는 모델이 일반화 가능한 전략을 학습하기보다 특정 반복적 충돌을 암기하는 것으로 보이는 과적합 가능성을 확인했습니다.
SBCR 강점: 두 버전의 크기가 유사한 균형 충돌에서 최적의 성능을 발휘합니다. 언어에 구애받지 않으며 비영어권 콘텐츠나 잘못된 청크에 대해 견고합니다.
SBCR 약점: 두 부모 모두와의 유사도를 최대화하는 평가 함수는 매우 불균형한 충돌에서 어려움을 겪으며, 종종 개발자의 의도를 반영하기보다 콘텐츠를 균형 있게 맞추려는 잘못된 해결책을 생성합니다.

중요성 및 주장

본 논문은 어느 패러다임도 "은탄환"이 아님을 결론짓습니다. 대신, 그들은 근본적이고 문맥에 의존하는 트레이드오프를 보입니다.

GenAI (MergeGen) 는 일반적이고 불균형하거나 패턴 매칭이 필요한 충돌에 대해 높은 정확도와 속도를 제공하지만, 훈련 분포나 토큰 제한을 벗어난 입력에서는 과적합 위험이 있으며 치명적으로 실패 (예: 잘림) 할 수 있습니다.
SBSE (SBCR) 는 견고하고 데이터에 독립적인 일반화를 제공하며 대용량 또는 균형 잡힌 입력을 잘 처리하지만, 매우 불균형한 충돌을 효과적으로 해결할 문맥적 이해력이 부족합니다.

저자는 충돌의 특성에 따라 지능적으로 라우팅하는 하이브리드 시스템 개발을 옹호합니다. "메타 해결사"가 불균형하거나 패턴 기반인 충돌을 MergeGen 으로, 대용량, 균형 잡힌 또는 비영어권 충돌을 SBCR 로 라우팅하는 워크플로우를 제안합니다. 이 접근법은 두 패러다임의 상호 보완적 강점을 활용하여 더 견고하고 신뢰할 수 있는 자동화된 병합 충돌 해결 도구를 만드는 것을 목표로 합니다.

본 연구는 충돌 시나리오가 크기, 콘텐츠 균형, 언어 측면에서 광범위하게 변하는 실제 소프트웨어 개발에서는 단일 패러다임에 의존하는 것만으로는 부족할 수 있음을 강조합니다.

LLM-based vs. Search-based Merge Conflict Resolution: An Empirical Study of Competing Paradigms