Oorspronkelijke auteurs: Heleno de Souza Campos Junior, Leonardo Gresta Paulino Murta

Gepubliceerd 2026-05-19✓ Author reviewed ⓘ

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Heleno de Souza Campos Junior, Leonardo Gresta Paulino Murta

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat jij en een vriend tegelijkertijd hetzelfde document bewerken. Jullie maken allebei wijzigingen in dezelfde alinea, en wanneer je probeert jullie werk te combineren, gooit de computer zijn handen in de lucht en zegt: "Ik weet niet welke versie ik moet behouden!" Dit heet een samenvoegconflict.

Decennialang moesten ontwikkelaars deze conflicten handmatig oplossen, wat saai is en vatbaar voor fouten. Onlangs zijn twee nieuwe "slimme helpers" opgedoken om dit probleem automatisch op te lossen. Dit artikel is een rechtstreekse wedstrijd tussen deze twee helpers om te zien welke de beste is.

De twee kandidaten

Stel je voor dat de twee helpers zeer verschillende persoonlijkheden en vaardigheden hebben:

1. De "Super-lezer" (LLM-gebaseerde aanpak, vertegenwoordigd door MergeGen)

Hoe het werkt: Deze helper is als een briljante student die miljoenen boeken en code-documenten heeft gelezen. Hij "berekent" het antwoord niet echt; in plaats daarvan gebruikt hij zijn geheugen van hoe dingen er meestal uitzien om de beste oplossing te raden. Hij voorspelt het volgende woord of de volgende regel op basis van patronen die hij heeft geleerd.
De analogie: Het is als een chef-kok die duizenden soepen heeft geproefd. Als je hem een recept geeft met een ontbrekend ingrediënt, weegt hij de kruiden niet af; hij "weet" gewoon hoe de soep zou moeten smaken op basis van ervaring en voegt de juiste hoeveelheid toe.

2. De "Puzzeloplosser" (Zoekgebaseerde aanpak, vertegenwoordigd door SBCR)

Hoe het werkt: Deze helper is een methodische ingenieur. Hij weet niet wat code betekent; hij ziet alleen regels tekst. Hij behandelt het conflict als een gigantische legpuzzel. Hij probeert miljoenen verschillende combinaties van de bestaande regels, waarbij hij elke combinatie controleert om te zien welke mix het meest lijkt op de originele versies. Hij gebruikt een eenvoudige regel: "De beste oplossing is meestal een mix die enigszins op beide ouders lijkt."
De analogie: Het is als een detective die geen idee heeft wie de verdachte is, dus hij probeert elke mogelijke combinatie van alibi's en aanwijzingen totdat hij die vindt die perfect bij de feiten past. Hij raadt niet; hij test.

De wedstrijd: Wat gebeurde er?

De onderzoekers stelden deze twee tegen elkaar op met duizenden echte conflicten uit open-source projecten (zoals Java-, C#- en JavaScript-code). Hier is wat ze ontdekten:

1. De "Super-lezer" wint wanneer dingen rommelig zijn.
Wanneer de twee versies van de code zeer verschillend waren in grootte (bijvoorbeeld: één versie voegde een enorme alinea toe terwijl de andere één regel verwijderde), was de Super-lezer verbazingwekkend. Omdat hij zo veel data heeft geleerd, kon hij de context begrijpen en de juiste regels kiezen, zelfs als de balans vreemd was. Hij was ook veel sneller en loste conflicten op in een flits.

2. De "Puzzeloplosser" wint wanneer dingen gebalanceerd zijn.
Wanneer de twee versies vergelijkbaar waren in grootte en structuur, was de Puzzeloplosser de kampioen. Hij vond vaker dan de Super-lezer de perfecte mix van regels. Hij was ook betrouwbaarder wanneer de code vreemde symbolen bevatte, tekst in een niet-Engelse taal, of extreem lang was.

3. De "Super-lezer" heeft een paar slechte gewoonten.

Geheugenlekken: Soms bleef de Super-lezer "steken" op een specifiek voorbeeld dat hij eerder had gezien tijdens zijn training. Hij zou gewoon dat antwoord herhalen, zelfs als het verkeerd was voor de huidige situatie. Dit heet overfitting—hij heeft de toets uit zijn hoofd geleerd in plaats van de les te leren.
Korte aandachtsspanne: Als het codeblok te groot was, raakte de Super-lezer overweldigd en stopte halverwege met schrijven, waardoor het conflict half opgelost bleef.
Taalbarrière: Als de code opmerkingen bevatte in een taal waar het model niet op was getraind, raakte hij in de war.

4. De "Puzzeloplosser" is wat traag maar gestaag.
Het duurt langer om de puzzel op te lossen omdat hij veel combinaties moet testen. Echter, hij raakt nooit in de war door lange tekst of vreemde talen omdat hij alles als simpele tekst behandelt. Hij "onthoudt" niets, dus hij overfit niet.

De grote conclusie: Geen "zilveren kogel"

Het artikel concludeert dat geen enkele helper op zichzelf perfect is.

Als je de Super-lezer een klein, rommelig conflict geeft, is hij een genie.
Als je de Puzzeloplosser een groot, gebalanceerd of vreemd opgemaakt conflict geeft, is hij de betrouwbare werkpaard.

De oplossing?
De auteurs suggereren het bouwen van een hybride systeem—een "Verkeersregelaar" die eerst naar het conflict kijkt.

Als het conflict klein en rommelig is, stuurt de Verkeersregelaar het naar de Super-lezer.
Als het conflict groot, gebalanceerd is, of vreemde tekens bevat, stuurt de Verkeersregelaar het naar de Puzzeloplosser.

Door het juiste gereedschap het juiste werk te laten doen, kunnen we een systeem creëren dat zowel snel als nauwkeurig is, en ontwikkelaars redden van de hoofdpijn van handmatig samenvoegen.

Samenvatting in één zin

Dit artikel bewijst dat terwijl AI-"gokkers" snel zijn en goed in rommelige problemen, "zoekers" betrouwbaarder zijn voor complexe of vreemde problemen, en dat het beste toekomstige gereedschap een slimme combinatie van beide zal zijn.

Technische Samenvatting: Op LLM-gebaseerde versus Zoekgebaseerde Oplossing van Samenvoegingsconflicten

Probleemstelling

In moderne collaboratieve softwareontwikkeling ontstaan samenvoegingsconflicten wanneer gelijktijdige wijzigingen overlappen in codegebieden. Hoewel het merendeel van deze conflicten (ongeveer 87%) wordt opgelost door bestaande regels uit conflicterende versies te combineren zonder nieuwe code te schrijven, blijft het proces tijdrovend en foutgevoelig. De onderzoeksgemeenschap heeft recent twee concurrerende paradigma's geïntroduceerd om deze oplossing te automatiseren: Generatieve AI (GenAI) gebaseerd op Large Language Models (LLM's) en Zoekgebaseerde Software-engineering (SBSE) gebaseerd op heuristische optimalisatie. Hoewel tools uit beide paradigma's veelbelovend zijn, waren hun relatieve sterktes, zwaktes en fundamentele afwegingen in real-world scenario's eerder niet onderzocht.

Methodologie

Deze studie presenteert de eerste diepgaande empirische vergelijking tussen deze twee paradigma's, waarbij MergeGen (een state-of-the-art LLM-gebaseerde tool) wordt geëvalueerd tegenover SBCR (een nieuwe SBSE-benadering die een Random Restart Hill Climbing-algoritme gebruikt).

Scope: De evaluatie richtte zich specifiek op "combinatie-gebaseerde" conflicten, waarbij de oplossing het door elkaar halen van bestaande regels uit twee versies omvat zonder het genereren van nieuwe code. Deze scope werd gekozen om een eerlijke vergelijking te waarborgen, aangezien SBCR geen nieuwe code kan genereren, terwijl MergeGen dat wel kan.
Datasets: De studie gebruikte duizenden real-world conflicten uit open-source projecten in vier talen: Java, C#, JavaScript en TypeScript. Twee primaire datasets werden gebruikt:
- Dataset1: 6.269 Java-conflicten.
- Dataset2: 47.363 conflicten over de vier talen (gefilterd op combinatie-gebaseerde oplossingen).
Experimenteel Ontwerp:
- MergeGen: Geconfigureerd met een CodeT5 encoder-decoder model, getraind op taal-specifieke data. De invoer- en uitvoer-tokenlimieten werden ingesteld op respectievelijk 300 en 100 vanwege computatiebeperkingen.
- SBCR: Geconfigureerd via systematische parameterafstelling (buren per iteratie, uitvoeringstijd, stagnatielimiet) om de balans tussen oplossingskwaliteit en uitvoeringstijd te optimaliseren.
- Maten: Primaire maten omvatten Similariteit (gemeten via Gestalt-pattern matching/LCS tegenover de daadwerkelijke oplossing van de ontwikkelaar) en Uitvoeringstijd. Statistische significantie werd beoordeeld met de Wilcoxon Signed-Rank-test en Common Language Effect Size (CLES).
- Generalisatie: De studie evalueerde prestaties wanneer modellen op de ene dataset werden getraind/afgestemd en op een andere werden getest om aanpasbaarheid te beoordelen.
- Kwalitatieve Analyse: Een handmatige inspectie van 100 extreme gevallen (50 waarbij SBCR won, 50 waarbij MergeGen won) werd uitgevoerd om patronen te identificeren die prestatieverschillen verklaren.

Belangrijkste Bijdragen en Bevindingen

1. Prestatievergelijking (VRO1 & VRO2)

Nauwkeurigheid: Het GenAI-paradigma (MergeGen) presteerde consistent beter dan het SBSE-paradigma (SBCR) wat betreft oplossingsimilariteit in alle talen (Java, C#, JavaScript, TypeScript). MergeGen bereikte een mediaan similariteit van 100% en een perfecte match-rate van 55% in Java, vergeleken met SBCR's mediaan van 86,1% en een perfecte match-rate van 19,6%.
Snelheid: MergeGen was aanzienlijk sneller, met een mediaan generatietijd van 0,3 seconden versus 1,3 seconden voor SBCR.
Statistische Significantie: De verschillen waren statistisch significant ( $p < 0,001$ ) in alle talen, waarbij MergeGen een waarschijnlijkheid van 70,6% toonde om een meer vergelijkbare oplossing te genereren in een willekeurig Java-conflict.

2. Generalisatievermogen (VRO3)

SBSE-Robuustheid: SBCR toonde superieure generalisatie. De prestaties bleven stabiel, ongeacht of het werd afgestemd op dezelfde dataset of een volledig andere dataset (evaluatie over datasets). Het is data-onafhankelijk en lijdt niet onder verschuivingen in de trainingsverdeling.
GenAI-Sensitiviteit: MergeGen toonde een lichte gevoeligheid voor zijn trainingsdata. Hoewel het SBCR ook in scenario's over datasets nog steeds overtrof, daalden de prestaties licht wanneer het werd getraind op een andere dataset, wat wijst op een mate van overfitting op specifieke projectstijlen of patronen.

3. Contextuele Sterktes en Zwaktes (VRO4)

Kwalitatieve analyse onthulde onderscheidende faal- en succescijfers voor elk paradigma:

Sterktes van MergeGen: Uitstekend in ongebalanceerde conflicten (bijvoorbeeld wanneer één versie aanzienlijk groter is dan de andere) en scenario's die witruimte of verwijderde inhoud betreffen. Het maakt gebruik van geleerde contextuele patronen om de juiste ongebalanceerde oplossing af te leiden.
Zwaktes van MergeGen: Worstelt met niet-Engelse inhoud, grote invoer (wat leidt tot truncatie door tokenlimieten) en lege kandidaten. De studie identificeerde potentieel overfitting, waarbij het model leek te memoriseren specifieke repetitieve conflicten in plaats van generaliseerbare strategieën te leren.
Sterktes van SBCR: Werkt optimaal op gebalanceerde conflicten waar de twee versies een vergelijkbare grootte hebben. Het is taalagnostisch en robuust tegen niet-Engelse inhoud of misvormde brokken.
Zwaktes van SBCR: De evaluatiefunctie (die similariteit met beide ouders maximaliseert) worstelt met sterk ongebalanceerde conflicten, wat vaak leidt tot onjuiste oplossingen die proberen de inhoud in balans te brengen in plaats van de intentie van de ontwikkelaar weer te geven.

Betekenis en Claims

De paper concludeert dat geen enkel paradigma een "zilveren kogel" is. In plaats daarvan vertonen ze fundamentele, context-afhankelijke afwegingen:

GenAI (MergeGen) biedt hoge nauwkeurigheid en snelheid voor veelvoorkomende, ongebalanceerde of patroon-matchende conflicten, maar riskeert overfitting en faalt catastrofaal (bijvoorbeeld door truncatie) bij invoer buiten zijn trainingsverdeling of tokenlimieten.
SBSE (SBCR) biedt robuuste, data-onafhankelijke generalisatie en verwerkt grote of gebalanceerde invoer goed, maar mist het contextuele begrip om sterk ongebalanceerde conflicten effectief op te lossen.

De auteurs pleiten voor de ontwikkeling van hybride systemen die conflicten intelligent routeren op basis van hun kenmerken. Zij stellen een workflow voor waarbij een "meta-oplosser" ongebalanceerde of patroon-gebaseerde conflicten naar MergeGen stuurt, terwijl grote, gebalanceerde of niet-Engelse conflicten naar SBCR worden gerouteerd. Deze aanpak beoogt de complementaire sterktes van beide paradigma's te benutten om robuustere en betrouwbaardere geautomatiseerde tools voor het oplossen van samenvoegingsconflicten te creëren.

De studie benadrukt dat vertrouwen op een enkel paradigma mogelijk onvoldoende is voor real-world softwareontwikkeling, waar conflictsituaties sterk variëren in grootte, inhoudsbalance en taal.

LLM-based vs. Search-based Merge Conflict Resolution: An Empirical Study of Competing Paradigms