Autores originales: Heleno de Souza Campos Junior, Leonardo Gresta Paulino Murta

Publicado 2026-05-19✓ Author reviewed ⓘ

📖 5 min de lectura🧠 Análisis profundo

Autores originales: Heleno de Souza Campos Junior, Leonardo Gresta Paulino Murta

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que tú y un amigo están editando el mismo documento al mismo tiempo. Ambos hacéis cambios en el mismo párrafo y, cuando intentáis combinar vuestro trabajo, el ordenador levanta los brazos y dice: "¡No sé qué versión conservar!". Esto se llama un conflicto de fusión.

Durante décadas, los desarrolladores han tenido que corregir manualmente estos conflictos, lo cual es tedioso y propenso a errores. Recientemente, han surgido dos nuevos "ayudantes inteligentes" para resolver este problema automáticamente. Este artículo es una carrera cara a cara entre estos dos ayudantes para ver cuál es mejor.

Los dos contendientes

Imagina que los dos ayudantes tienen personalidades y conjuntos de habilidades muy diferentes:

1. El "Super-Lector" (enfoque basado en LLM, representado por MergeGen)

Cómo funciona: Este ayudante es como un estudiante brillante que ha leído millones de libros y documentos de código. No realmente "calcula" la respuesta; en su lugar, utiliza su memoria de cómo las cosas suelen parecer para adivinar la mejor solución. Predice la siguiente palabra o línea basándose en patrones que ha aprendido.
La analogía: Es como un chef que ha probado miles de sopas. Si le das una receta con un ingrediente faltante, no mide las especias; simplemente "sabe" cómo debería saber la sopa basándose en la experiencia y añade la cantidad correcta.

2. El "Resolutor de Puzzles" (enfoque basado en búsqueda, representado por SBCR)

Cómo funciona: Este ayudante es un ingeniero metódico. No sabe lo que el código significa; solo ve líneas de texto. Trata el conflicto como un rompecabezas gigante. Prueba millones de combinaciones diferentes de las líneas existentes, verificando cada una para ver qué mezcla se parece más a las versiones originales. Utiliza una regla simple: "La mejor solución suele ser una mezcla que se parezca algo a ambos padres".
La analogía: Es como un detective que no tiene idea de quién es el sospechoso, así que prueba cada combinación posible de coartadas y pistas hasta encontrar la que encaja perfectamente con los hechos. No adivina; prueba.

La carrera: ¿Qué pasó?

Los investigadores enfrentaron a estos dos contra miles de conflictos del mundo real procedentes de proyectos de código abierto (como código en Java, C# y JavaScript). Esto es lo que descubrieron:

1. El "Super-Lector" gana cuando las cosas están desordenadas.
Cuando las dos versiones del código eran muy diferentes en tamaño (por ejemplo, una versión añadía un párrafo enorme mientras que la otra eliminaba una sola línea), el Super-Lector era asombroso. Debido a que aprendió de tantos datos, podía entender el contexto y elegir las líneas correctas, incluso si el equilibrio era extraño. También era mucho más rápido, resolviendo conflictos en un abrir y cerrar de ojos.

2. El "Resolutor de Puzzles" gana cuando las cosas están equilibradas.
Cuando las dos versiones eran similares en tamaño y estructura, el Resolutor de Puzzles era el campeón. Encontraba la mezcla perfecta de líneas con más frecuencia que el Super-Lector. También era más fiable cuando el código contenía símbolos extraños, texto en idiomas no ingleses o era extremadamente largo.

3. El "Super-Lector" tiene algunos malos hábitos.

Fugas de memoria: A veces, el Super-Lector se "quedaba atascado" en un ejemplo específico que había visto antes en su entrenamiento. Simplemente repetía esa respuesta, incluso si era incorrecta para la situación actual. Esto se llama sobreajuste: memorizó el examen en lugar de aprender la lección.
Poca capacidad de atención: Si el fragmento de código era demasiado grande, el Super-Lector se abrumaba y dejaba de escribir a mitad de camino, dejando el conflicto a medias.
Barrera del idioma: Si el código tenía comentarios en un idioma en el que el modelo no había sido entrenado, se confundía.

4. El "Resolutor de Puzzles" es un poco lento pero constante.
Tarda más en resolver el puzzle porque tiene que probar muchas combinaciones. Sin embargo, nunca se confunde con texto largo o idiomas extraños porque trata todo como texto simple. No "memoriza" nada, por lo que no sufre sobreajuste.

La gran conclusión: No hay "bala de plata"

El artículo concluye que ningún ayudante es perfecto por sí solo.

Si le das al Super-Lector un conflicto pequeño y desordenado, es un genio.
Si le das al Resolutor de Puzzles un conflicto enorme, equilibrado o con formato extraño, es el caballo de trabajo fiable.

¿La solución?
Los autores sugieren construir un sistema híbrido: un "Policía de Tráfico" que examine el conflicto primero.

Si el conflicto es pequeño y desordenado, el Policía de Tráfico lo envía al Super-Lector.
Si el conflicto es enorme, equilibrado o contiene caracteres extraños, el Policía de Tráfico lo envía al Resolutor de Puzzles.

Al permitir que la herramienta correcta haga el trabajo correcto, podemos crear un sistema que sea tanto rápido como preciso, ahorrando a los desarrolladores el dolor de cabeza de la fusión manual.

Resumen en una frase

Este artículo demuestra que, aunque los "adivinos" de la IA son rápidos y excelentes para problemas desordenados, los "buscadores" son más fiables para problemas complejos o extraños, y la mejor herramienta futura será una combinación inteligente de ambos.

Resumen Técnico: Resolución de Conflictos de Fusión Basada en LLM frente a Búsqueda

Declaración del Problema

En el desarrollo de software colaborativo moderno, los conflictos de fusión surgen cuando las modificaciones concurrentes se superponen en regiones de código. Aunque la mayoría de estos conflictos (aproximadamente el 87%) se resuelven combinando líneas existentes de versiones en conflicto sin escribir nuevo código, el proceso sigue siendo lento y propenso a errores. La comunidad de investigación ha surgido recientemente con dos paradigmas competitivos para automatizar esta resolución: Inteligencia Artificial Generativa (GenAI) basada en Modelos de Lenguaje Grande (LLM) e Ingeniería de Software Basada en Búsqueda (SBSE) basada en optimización heurística. Aunque las herramientas de ambos paradigmas muestran promesa, sus fortalezas relativas, debilidades y compensaciones fundamentales en escenarios del mundo real no habían sido exploradas previamente.

Metodología

Este estudio presenta la primera comparación empírica en profundidad entre estos dos paradigmas, evaluando MergeGen (una herramienta basada en LLM de última generación) frente a SBCR (un enfoque SBSE novedoso que utiliza un algoritmo de Ascenso de Colina con Reinicio Aleatorio).

Alcance: La evaluación se centró específicamente en conflictos "basados en combinación", donde la resolución implica intercalar líneas existentes de dos versiones sin generar nuevo código. Este alcance se eligió para garantizar una comparación justa, ya que SBCR no puede generar nuevo código, mientras que MergeGen sí puede.
Conjuntos de Datos: El estudio utilizó miles de conflictos del mundo real de proyectos de código abierto en cuatro lenguajes: Java, C#, JavaScript y TypeScript. Se utilizaron dos conjuntos de datos principales:
- Conjunto de Datos 1: 6.269 conflictos de Java.
- Conjunto de Datos 2: 47.363 conflictos en los cuatro lenguajes (filtrados para resoluciones basadas en combinación).
Diseño Experimental:
- MergeGen: Configurado con un modelo codificador-decodificador CodeT5, entrenado con datos específicos del lenguaje. Los límites de tokens de entrada y salida se establecieron en 300 y 100, respectivamente, debido a restricciones computacionales.
- SBCR: Configurado mediante ajuste sistemático de parámetros (vecinos por iteración, tiempo de ejecución, límite de estancamiento) para optimizar el equilibrio entre la calidad de la solución y el tiempo de ejecución.
- Métricas: Las métricas principales incluyeron Similitud (medida mediante coincidencia de patrones Gestalt/LCS contra la resolución real del desarrollador) y Tiempo de Ejecución. La significancia estadística se evaluó utilizando la prueba de rangos con signo de Wilcoxon y el Tamaño del Efecto del Lenguaje Común (CLES).
- Generalización: El estudio evaluó el rendimiento cuando los modelos se entrenaron/ajustaron en un conjunto de datos y se probaron en otro para evaluar la adaptabilidad.
- Análisis Cualitativo: Se realizó una inspección manual de 100 casos extremos (50 donde SBCR ganó, 50 donde MergeGen ganó) para identificar patrones que explican las diferencias de rendimiento.

Contribuciones y Hallazgos Clave

1. Comparación de Rendimiento (PQ1 y PQ2)

Precisión: El paradigma GenAI (MergeGen) superó consistentemente al paradigma SBSE (SBCR) en términos de similitud de resolución en todos los lenguajes (Java, C#, JavaScript, TypeScript). MergeGen logró una similitud mediana del 100% y una tasa de coincidencia perfecta del 55% en Java, en comparación con la mediana del 86,1% y la tasa de coincidencia perfecta del 19,6% de SBCR.
Velocidad: MergeGen fue significativamente más rápido, con un tiempo de generación mediano de 0,3 segundos frente a los 1,3 segundos de SBCR.
Significancia Estadística: Las diferencias fueron estadísticamente significativas ( $p < 0,001$ ) en todos los lenguajes, mostrando MergeGen una probabilidad del 70,6% de generar una resolución más similar en un conflicto de Java aleatorio.

2. Capacidades de Generalización (PQ3)

Robustez de SBSE: SBCR demostró una generalización superior. Su rendimiento se mantuvo estable independientemente de si se ajustó en el mismo conjunto de datos o en un conjunto de datos completamente diferente (evaluación entre conjuntos de datos). Es independiente de los datos y no sufre de desplazamientos en la distribución de entrenamiento.
Sensibilidad de GenAI: MergeGen mostró una ligera sensibilidad a sus datos de entrenamiento. Aunque aún superó a SBCR en escenarios entre conjuntos de datos, su rendimiento disminuyó ligeramente cuando se entrenó en un conjunto de datos diferente, lo que sugiere un grado de sobreajuste a estilos o patrones específicos de proyectos.

3. Fortalezas y Debilidades Contextuales (PQ4)

El análisis cualitativo reveló modos de fallo y éxito distintos para cada paradigma:

Fortalezas de MergeGen: Destaca en conflictos desequilibrados (por ejemplo, una versión es significativamente más grande que la otra) y escenarios que involucran espacios en blanco o contenido eliminado. Aprovecha patrones contextuales aprendidos para inferir la resolución desequilibrada correcta.
Debilidades de MergeGen: Lucha con contenido no en inglés, entradas grandes (lo que lleva a truncamiento debido a límites de tokens) y candidatos vacíos. El estudio identificó un posible sobreajuste, donde el modelo parecía memorizar conflictos repetitivos específicos en lugar de aprender estrategias generalizables.
Fortalezas de SBCR: Funciona óptimamente en conflictos equilibrados donde las dos versiones son de tamaño similar. Es agnóstico al lenguaje y robusto frente a contenido no en inglés o fragmentos malformados.
Debilidades de SBCR: Su función de evaluación (que maximiza la similitud con ambos padres) lucha con conflictos altamente desequilibrados, a menudo produciendo resoluciones incorrectas que intentan equilibrar el contenido en lugar de reflejar la intención del desarrollador.

Significancia y Afirmaciones

El documento concluye que ningún paradigma es una "bala de plata". En cambio, exhiben compensaciones fundamentales dependientes del contexto:

GenAI (MergeGen) ofrece alta precisión y velocidad para conflictos comunes, desequilibrados o de coincidencia de patrones, pero corre el riesgo de sobreajuste y falla catastróficamente (por ejemplo, truncamiento) en entradas fuera de su distribución de entrenamiento o límites de tokens.
SBSE (SBCR) ofrece una generalización robusta e independiente de los datos y maneja bien entradas grandes o equilibradas, pero carece de la comprensión contextual para resolver conflictos altamente desequilibrados de manera efectiva.

Los autores abogan por el desarrollo de sistemas híbridos que enruten inteligentemente los conflictos según sus características. Proponen un flujo de trabajo donde un "meta-resolvedor" dirige conflictos desequilibrados o basados en patrones a MergeGen, mientras enruta conflictos grandes, equilibrados o no en inglés a SBCR. Este enfoque busca aprovechar las fortalezas complementarias de ambos paradigmas para crear herramientas de resolución automatizada de conflictos de fusión más robustas y fiables.

El estudio enfatiza que confiar en un solo paradigma puede ser insuficiente para el desarrollo de software del mundo real, donde los escenarios de conflicto varían ampliamente en tamaño, equilibrio de contenido y lenguaje.

LLM-based vs. Search-based Merge Conflict Resolution: An Empirical Study of Competing Paradigms