Autores originais: Heleno de Souza Campos Junior, Leonardo Gresta Paulino Murta

Publicado 2026-05-19✓ Author reviewed ⓘ

📖 5 min de leitura🧠 Leitura aprofundada

Autores originais: Heleno de Souza Campos Junior, Leonardo Gresta Paulino Murta

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você e um amigo estão editando o mesmo documento ao mesmo tempo. Ambos fazem alterações no mesmo parágrafo e, quando tentam combinar o trabalho, o computador levanta as mãos e diz: "Não sei qual versão manter!" Isso é chamado de conflito de mesclagem.

Por décadas, os desenvolvedores tiveram que corrigir manualmente esses conflitos, o que é tedioso e propenso a erros. Recentemente, dois novos "ajudantes inteligentes" surgiram para resolver esse problema automaticamente. Este artigo é uma corrida cara a cara entre esses dois ajudantes para ver qual é melhor.

Os Dois Concorrentes

Pense nos dois ajudantes como tendo personalidades e conjuntos de habilidades muito diferentes:

1. O "Super-Leitor" (abordagem baseada em LLM, representada pelo MergeGen)

Como funciona: Este ajudante é como um aluno brilhante que leu milhões de livros e documentos de código. Ele não realmente "calcula" a resposta; em vez disso, usa sua memória de como as coisas geralmente se parecem para adivinhar a melhor solução. Ele prevê a próxima palavra ou linha com base em padrões que aprendeu.
A Analogia: É como um chef que provou milhares de sopas. Se você der a ele uma receita com um ingrediente faltando, ele não mede as especiarias; ele apenas "sabe" como a sopa deve saber com base na experiência e adiciona a quantidade certa.

2. O "Resolvedor de Quebra-Cabeças" (abordagem baseada em busca, representada pelo SBCR)

Como funciona: Este ajudante é um engenheiro metódico. Ele não sabe o que o código significa; ele apenas vê linhas de texto. Ele trata o conflito como um quebra-cabeças gigante. Ele tenta milhões de combinações diferentes das linhas existentes, verificando cada uma para ver qual mistura se parece mais com as versões originais. Ele usa uma regra simples: "A melhor solução geralmente é uma mistura que se parece de alguma forma com ambos os pais."
A Analogia: É como um detetive que não faz ideia de quem é o suspeito, então tenta todas as combinações possíveis de álibis e pistas até encontrar a que se encaixa perfeitamente nos fatos. Ele não adivinha; ele testa.

A Corrida: O Que Aconteceu?

Os pesquisadores colocaram esses dois contra milhares de conflitos do mundo real de projetos de código aberto (como código Java, C# e JavaScript). Aqui está o que eles descobriram:

1. O "Super-Leitor" vence quando as coisas estão bagunçadas.
Quando as duas versões do código eram muito diferentes em tamanho (por exemplo, uma versão adicionou um parágrafo enorme enquanto a outra apagou uma única linha), o Super-Leitor foi incrível. Como aprendeu com tantos dados, ele conseguia entender o contexto e escolher as linhas certas, mesmo que o equilíbrio fosse estranho. Também foi muito mais rápido, resolvendo conflitos num piscar de olhos.

2. O "Resolvedor de Quebra-Cabeças" vence quando as coisas estão equilibradas.
Quando as duas versões eram semelhantes em tamanho e estrutura, o Resolvedor de Quebra-Cabeças foi o campeão. Ele encontrou a mistura perfeita de linhas com mais frequência do que o Super-Leitor. Também foi mais confiável quando o código continha símbolos estranhos, texto não em inglês ou era extremamente longo.

3. O "Super-Leitor" tem alguns maus hábitos.

Vazamentos de Memória: Às vezes, o Super-Leitor ficava "preso" em um exemplo específico que havia visto antes em seu treinamento. Ele apenas repetiria aquela resposta, mesmo que estivesse errada para a situação atual. Isso é chamado de sobreajuste — ele memorizou o teste em vez de aprender a lição.
Pouca Atenção: Se o bloco de código fosse grande demais, o Super-Leitor ficaria sobrecarregado e pararia de escrever pela metade, deixando o conflito meio resolvido.
Barreira de Idioma: Se o código tivesse comentários em um idioma em que o modelo não foi treinado, ele ficava confuso.

4. O "Resolvedor de Quebra-Cabeças" é um pouco lento, mas constante.
Leva mais tempo para resolver o quebra-cabeça porque precisa testar muitas combinações. No entanto, ele nunca fica confuso com texto longo ou idiomas estranhos porque trata tudo como texto simples. Ele não "memoriza" nada, então não sofre de sobreajuste.

A Grande Conclusão: Não Há "Bala de Prata"

O artigo conclui que nenhum ajudante é perfeito por si só.

Se você der ao Super-Leitor um conflito pequeno e bagunçado, ele é um gênio.
Se você der ao Resolvedor de Quebra-Cabeças um conflito enorme, equilibrado ou com formatação estranha, ele é o cavalo de trabalho confiável.

A Solução?
Os autores sugerem construir um sistema híbrido — um "Policial de Trânsito" que analisa o conflito primeiro.

Se o conflito for pequeno e bagunçado, o Policial de Trânsito o envia para o Super-Leitor.
Se o conflito for enorme, equilibrado ou contiver caracteres estranhos, o Policial de Trânsito o envia para o Resolvedor de Quebra-Cabeças.

Ao deixar a ferramenta certa fazer o trabalho certo, podemos criar um sistema que seja tanto rápido quanto preciso, poupando os desenvolvedores da dor de cabeça da mesclagem manual.

Resumo em Uma Frase

Este artigo prova que, embora os "adivinhadores" de IA sejam rápidos e ótimos para problemas bagunçados, os "buscadores" são mais confiáveis para problemas complexos ou estranhos, e a melhor ferramenta futura será uma combinação inteligente de ambos.

Resumo Técnico: Resolução de Conflitos de Merge Baseada em LLM vs. Baseada em Busca

Declaração do Problema

No desenvolvimento de software colaborativo moderno, conflitos de merge surgem quando modificações concorrentes se sobrepõem em regiões de código. Embora a maioria desses conflitos (aproximadamente 87%) seja resolvida combinando linhas existentes de versões conflitantes sem escrever novo código, o processo permanece demorado e propenso a erros. A comunidade de pesquisa emergiu recentemente com dois paradigmas concorrentes para automatizar essa resolução: IA Generativa (GenAI) baseada em Modelos de Linguagem de Grande Escala (LLMs) e Engenharia de Software Baseada em Busca (SBSE) baseada em otimização heurística. Embora ferramentas de ambos os paradigmas mostrem promessa, suas forças relativas, fraquezas e compensações fundamentais em cenários do mundo real não foram previamente exploradas.

Metodologia

Este estudo apresenta a primeira comparação empírica aprofundada entre esses dois paradigmas, avaliando o MergeGen (uma ferramenta de última geração baseada em LLM) contra o SBCR (uma abordagem SBSE novel usando um algoritmo de Escalada com Reinício Aleatório).

Escopo: A avaliação focou especificamente em conflitos "baseados em combinação", onde a resolução envolve intercalar linhas existentes de duas versões sem gerar novo código. Este escopo foi escolhido para garantir uma comparação justa, pois o SBCR não pode gerar novo código, enquanto o MergeGen pode.
Conjuntos de Dados: O estudo utilizou milhares de conflitos do mundo real de projetos de código aberto em quatro linguagens: Java, C#, JavaScript e TypeScript. Dois conjuntos de dados principais foram usados:
- Conjunto de Dados 1: 6.269 conflitos em Java.
- Conjunto de Dados 2: 47.363 conflitos nas quatro linguagens (filtrados para resoluções baseadas em combinação).
Design Experimental:
- MergeGen: Configurado com um modelo codificador-decodificador CodeT5, treinado em dados específicos da linguagem. Os limites de tokens de entrada e saída foram definidos como 300 e 100, respectivamente, devido a restrições computacionais.
- SBCR: Configurado via ajuste sistemático de parâmetros (vizinhos por iteração, tempo de execução, limite de estagnação) para otimizar o equilíbrio entre qualidade da solução e tempo de execução.
- Métricas: As métricas primárias incluíram Semelhança (medida via correspondência de padrões Gestalt/LCS contra a resolução real do desenvolvedor) e Tempo de Execução. A significância estatística foi avaliada usando o teste de Soma de Postos de Wilcoxon e o Tamanho de Efeito da Linguagem Comum (CLES).
- Generalização: O estudo avaliou o desempenho quando os modelos foram treinados/ajustados em um conjunto de dados e testados em outro para avaliar a adaptabilidade.
- Análise Qualitativa: Uma inspeção manual de 100 casos extremos (50 onde o SBCR venceu, 50 onde o MergeGen venceu) foi conduzida para identificar padrões que explicam as diferenças de desempenho.

Principais Contribuições e Descobertas

1. Comparação de Desempenho (PQ1 & PQ2)

Precisão: O paradigma GenAI (MergeGen) superou consistentemente o paradigma SBSE (SBCR) em termos de semelhança de resolução em todas as linguagens (Java, C#, JavaScript, TypeScript). O MergeGen alcançou uma mediana de semelhança de 100% e uma taxa de correspondência perfeita de 55% em Java, comparado à mediana de 86,1% e taxa de correspondência perfeita de 19,6% do SBCR.
Velocidade: O MergeGen foi significativamente mais rápido, com um tempo médio de geração de 0,3 segundos versus 1,3 segundos do SBCR.
Significância Estatística: As diferenças foram estatisticamente significativas ( $p < 0,001$ ) em todas as linguagens, com o MergeGen mostrando uma probabilidade de 70,6% de gerar uma resolução mais semelhante em um conflito Java aleatório.

2. Capacidades de Generalização (PQ3)

Robustez do SBSE: O SBCR demonstrou generalização superior. Seu desempenho permaneceu estável independentemente de ter sido ajustado no mesmo conjunto de dados ou em um conjunto de dados completamente diferente (avaliação entre conjuntos de dados). É independente de dados e não sofre com deslocamentos na distribuição de treinamento.
Sensibilidade da GenAI: O MergeGen mostrou leve sensibilidade aos seus dados de treinamento. Embora ainda tenha superado o SBCR em cenários entre conjuntos de dados, seu desempenho caiu ligeiramente quando treinado em um conjunto de dados diferente, sugerindo um certo grau de sobreajuste a estilos ou padrões específicos de projetos.

3. Forças e Fraquezas Contextuais (PQ4)

A análise qualitativa revelou modos distintos de falha e sucesso para cada paradigma:

Forças do MergeGen: Destaca-se em conflitos desequilibrados (por exemplo, uma versão é significativamente maior que a outra) e cenários envolvendo espaços em branco ou conteúdo removido. Ele aproveita padrões contextuais aprendidos para inferir a resolução desequilibrada correta.
Fraquezas do MergeGen: Dificulta-se com conteúdo não em inglês, entradas grandes (levando a truncamento devido a limites de tokens) e candidatos vazios. O estudo identificou um possível sobreajuste, onde o modelo parecia memorizar conflitos repetitivos específicos em vez de aprender estratégias generalizáveis.
Forças do SBCR: Desempenha-se de forma ótima em conflitos equilibrados onde as duas versões são de tamanho similar. É agnóstico à linguagem e robusto contra conteúdo não em inglês ou blocos malformados.
Fraquezas do SBCR: Sua função de avaliação (que maximiza a semelhança com ambos os pais) luta com conflitos altamente desequilibrados, frequentemente produzindo resoluções incorretas que tentam equilibrar o conteúdo em vez de refletir a intenção do desenvolvedor.

Significância e Alegações

O artigo conclui que nenhum paradigma é uma "bala de prata". Em vez disso, eles exibem compensações fundamentais dependentes do contexto:

GenAI (MergeGen) oferece alta precisão e velocidade para conflitos comuns, desequilibrados ou de correspondência de padrões, mas arrisca sobreajuste e falha catastrófica (por exemplo, truncamento) em entradas fora de sua distribuição de treinamento ou limites de tokens.
SBSE (SBCR) oferece generalização robusta e independente de dados e lida bem com entradas grandes ou equilibradas, mas carece da compreensão contextual para resolver conflitos altamente desequilibrados de forma eficaz.

Os autores defendem o desenvolvimento de sistemas híbridos que roteiam inteligentemente conflitos com base em suas características. Eles propõem um fluxo de trabalho onde um "meta-resolvedor" direciona conflitos desequilibrados ou baseados em padrões para o MergeGen, enquanto roteia conflitos grandes, equilibrados ou não em inglês para o SBCR. Essa abordagem visa aproveitar as forças complementares de ambos os paradigmas para criar ferramentas de resolução automática de conflitos de merge mais robustas e confiáveis.

O estudo enfatiza que confiar em um único paradigma pode ser insuficiente para o desenvolvimento de software do mundo real, onde cenários de conflito variam amplamente em tamanho, equilíbrio de conteúdo e linguagem.

LLM-based vs. Search-based Merge Conflict Resolution: An Empirical Study of Competing Paradigms