想象一下，你和一位朋友正在同时编辑同一份文档。你们都对同一段落进行了修改，而当你们尝试合并工作时，计算机却束手无策，说道：“我不知道该保留哪个版本！”这就是所谓的合并冲突。

几十年来，开发者不得不手动修复这些冲突，这一过程既繁琐又容易出错。最近，出现了两种新的“智能助手”来自动解决这一问题。本文正是这两种助手之间的正面较量，旨在看看谁更胜一筹。

两位竞争者

可以将这两位助手想象成拥有截然不同的性格和技能组合：

1. “超级读者”（基于大语言模型的方法，以 MergeGen 为代表）

工作原理： 这位助手就像一位博览群书、阅读过数百万本书籍和代码文档的优等生。它并不真正“计算”答案；相反，它利用对事物“通常”样貌的记忆来推测最佳解决方案。它基于已学到的模式来预测下一个词或下一行。
类比： 这就像一位品尝过成千上万种汤的厨师。如果你给它一份缺失了某种配料的食谱，它不会去测量香料，而是凭借经验“知道”汤应该是什么味道，并直接加入适量的调料。

2. “拼图求解者”（基于搜索的方法，以 SBCR 为代表）

工作原理： 这位助手是一位条理分明的工程师。它不懂代码的“含义”；它只看到文本行。它将冲突视为一个巨大的拼图游戏。它会尝试现有文本行的数百万种不同组合，逐一检查，看哪种混合结果最像原始版本。它遵循一个简单的规则：“最佳解决方案通常是某种看起来既像父版本 A 又像父版本 B 的混合体。”
类比： 这就像一位侦探，他完全不知道嫌疑人是谁，因此会尝试所有可能的不在场证明和线索组合，直到找到那个与事实完美契合的方案。它不靠猜测，而是靠测试。

竞赛：发生了什么？

研究人员将这两种方法置于数千个来自开源项目（如 Java、C# 和 JavaScript 代码）的真实世界冲突中进行比拼。以下是他们的发现：

1. 当情况混乱时，“超级读者”胜出。
当两个代码版本的差异非常大（例如，一个版本添加了一大段内容，而另一个版本只删除了一行）时，“超级读者”表现得令人惊叹。因为它从海量数据中学习过，所以能够理解上下文并挑选出正确的行，即使这种平衡看起来很奇怪。它的速度也快得多，眨眼间就能解决冲突。

2. 当情况均衡时，“拼图求解者”胜出。
当两个版本的规模和结构相似时，**“拼图求解者”**是冠军。它比“超级读者”更频繁地找到完美的行组合。当代码包含奇怪符号、非英语文本或极其冗长时，它也更为可靠。

3. “超级读者”有一些坏习惯。

记忆泄漏： 有时，“超级读者”会“卡”在它训练数据中见过的某个特定例子上。即使该答案不适合当前情况，它也会重复那个答案。这被称为过拟合——它死记硬背了考题，而没有学会解题方法。
注意力短暂： 如果代码块太大，“超级读者”就会不堪重负，写到一半就停止，导致冲突只解决了一半。
语言障碍： 如果代码中包含该模型未受过训练的语言的注释，它就会感到困惑。

4. “拼图求解者”虽然慢，但很稳健。
因为它需要测试许多组合，所以解决拼图需要更长时间。然而，它永远不会因为长文本或奇怪语言而感到困惑，因为它将所有内容都视为简单的文本。它不“记忆”任何东西，因此不会过拟合。

主要结论：没有“银弹”

该论文得出结论：单独依靠任何一种助手都不完美。

如果你给**“超级读者”**一个小型且混乱的冲突，它就是个天才。
如果你给**“拼图求解者”**一个巨大、均衡或格式奇怪的冲突，它就是可靠的苦力。

解决方案是什么？
作者建议构建一个混合系统——一个首先审视冲突的“交通警察”。

如果冲突小而混乱，交通警察将其派发给**“超级读者”**。
如果冲突巨大、均衡或包含奇怪字符，交通警察将其派发给**“拼图求解者”**。

通过让正确的工具做正确的工作，我们可以创建一个既快速又准确的系统，从而将开发者从手动合并的头痛中解救出来。

一句话总结

本文证明，虽然 AI“猜测者”速度快且擅长处理混乱问题，但“搜索者”在处理复杂或怪异问题时更可靠，而未来的最佳工具将是两者的智能结合。

技术摘要：基于大语言模型与基于搜索的合并冲突解决对比

问题陈述

在现代协作软件开发中，当代码区域发生并发修改重叠时，会产生合并冲突。尽管绝大多数冲突（约 87%）是通过合并冲突版本中的现有行（无需编写新代码）来解决的，但这一过程仍然耗时且容易出错。研究界近期提出了两种相互竞争的自动化解决范式：基于大语言模型（LLM）的生成式人工智能（GenAI）和基于启发式优化的搜索软件工程（SBSE）。虽然来自这两种范式的工具都展现出潜力，但它们在现实场景中的相对优势、劣势及根本权衡此前尚未得到探索。

方法论

本研究首次对这两种范式进行了深入的实证比较，评估了最先进的基于 LLM 的工具 MergeGen 与基于随机重启爬山算法的新型 SBSE 方法 SBCR。

范围：评估专门针对“组合型”冲突，即解决过程涉及交错排列两个版本中的现有行，而不生成新代码。选择此范围是为了确保公平比较，因为 SBCR 无法生成新代码，而 MergeGen 可以。
数据集：研究使用了来自 Java、C#、JavaScript 和 TypeScript 四种语言的开源项目中的数千个真实冲突。主要使用了两个数据集：
- 数据集 1：6,269 个 Java 冲突。
- 数据集 2：跨四种语言的 47,363 个冲突（经筛选仅包含组合型解决案例）。
实验设计：
- MergeGen：配置了 CodeT5 编码器 - 解码器模型，并在特定语言数据上进行训练。受计算限制，输入和输出令牌限制分别设定为 300 和 100。
- SBCR：通过系统参数调整（每次迭代的邻居数量、执行时间、停滞限制）进行配置，以优化解决方案质量与执行时间之间的平衡。
- 指标：主要指标包括相似度（通过 Gestalt 模式匹配/最长公共子序列 LCS 与开发人员的实际解决结果进行测量）和执行时间。使用 Wilcoxon 符号秩检验和通用语言效应量（CLES）评估统计显著性。
- 泛化能力：研究评估了模型在一个数据集上训练/调整而在另一个数据集上测试时的性能，以评估其适应性。
- 定性分析：对 100 个极端案例（50 个 SBCR 胜出的案例，50 个 MergeGen 胜出的案例）进行了人工检查，以识别解释性能差异的模式。

主要贡献与发现

1. 性能比较（RQ1 & RQ2）

准确性：在所有语言（Java、C#、JavaScript、TypeScript）中，GenAI 范式（MergeGen）在解决相似度方面始终优于 SBSE 范式（SBCR）。在 Java 中，MergeGen 实现了 100% 的中位相似度和 55% 的完美匹配率，而 SBCR 分别为 86.1% 的中位相似度和 19.6% 的完美匹配率。
速度：MergeGen 显著更快，中位生成时间为 0.3 秒，而 SBCR 为 1.3 秒。
统计显著性：在所有语言中，差异具有统计显著性（ $p < 0.001$ ），在随机 Java 冲突中，MergeGen 生成更相似解决方案的概率为 70.6%。

2. 泛化能力（RQ3）

SBSE 鲁棒性：SBCR 表现出更优越的泛化能力。无论其是在同一数据集上还是在完全不同的数据集上进行调优（跨数据集评估），其性能均保持稳定。它是数据独立的，不会受到训练分布偏移的影响。
GenAI 敏感性：MergeGen 对其训练数据表现出轻微的敏感性。尽管在跨数据集场景中它仍优于 SBCR，但在不同数据集上训练时其性能略有下降，这表明模型对特定项目风格或模式存在一定程度的过拟合。

3. 情境优势与劣势（RQ4）

定性分析揭示了每种范式独特的失败和成功模式：

MergeGen 优势：在不平衡冲突（例如一个版本显著大于另一个版本）以及涉及空白或已删除内容的情景中表现卓越。它利用学习到的上下文模式来推断正确的不平衡解决方案。
MergeGen 劣势：在处理非英语内容、大输入（因令牌限制导致截断）和空候选项时表现不佳。研究发现了潜在的过拟合现象，即模型似乎记住了特定的重复冲突，而非学习可泛化的策略。
SBCR 优势：在两个版本大小相似的平衡冲突中表现最佳。它是语言无关的，并且对非英语内容或格式错误的代码块具有鲁棒性。
SBCR 劣势：其评估函数（旨在最大化与两个父版本的相似度）在处理高度不平衡的冲突时表现不佳，往往产生试图平衡内容而非反映开发者意图的错误解决方案。

意义与主张

本文结论指出，没有任何一种范式是“银弹”。相反，它们表现出根本的、依赖于上下文的权衡：

GenAI（MergeGen） 为常见的、不平衡的或基于模式匹配的冲突提供高准确度和速度，但存在过拟合风险，并且在训练分布之外或超出令牌限制的输入上会灾难性地失败（例如截断）。
SBSE（SBCR） 提供稳健的、数据独立的泛化能力，并能很好地处理大型或平衡的输入，但缺乏解决高度不平衡冲突所需的上下文理解能力。

作者主张开发混合系统，根据冲突特征智能地路由冲突。他们提出了一种工作流程，其中“元解决器”将不平衡或基于模式的冲突导向 MergeGen，而将大型、平衡或非英语的冲突路由至 SBCR。这种方法旨在利用两种范式的互补优势，创建更稳健、更可靠的自动化合并冲突解决工具。

研究强调，在现实世界的软件开发中，冲突场景在大小、内容平衡和语言方面差异巨大，仅依赖单一范式可能是不够的。

LLM-based vs. Search-based Merge Conflict Resolution: An Empirical Study of Competing Paradigms