Ursprüngliche Autoren: Heleno de Souza Campos Junior, Leonardo Gresta Paulino Murta

Veröffentlicht 2026-05-19✓ Author reviewed ⓘ

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Heleno de Souza Campos Junior, Leonardo Gresta Paulino Murta

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie und ein Freund bearbeiten gleichzeitig dasselbe Dokument. Beide ändern denselben Absatz, und wenn Sie versuchen, Ihre Arbeiten zusammenzuführen, hebt der Computer die Hände und sagt: „Ich weiß nicht, welche Version behalten werden soll!" Dies wird als Merge-Konflikt bezeichnet.

Seit Jahrzehnten mussten Entwickler diese Konflikte manuell beheben, was mühsam und fehleranfällig ist. Kürzlich sind zwei neue „intelligente Helfer" entstanden, um dieses Problem automatisch zu lösen. Dieser Artikel stellt einen direkten Vergleich zwischen diesen beiden Helfern dar, um herauszufinden, welcher besser ist.

Die beiden Herausforderer

Stellen Sie sich die beiden Helfer als Personen mit sehr unterschiedlichen Persönlichkeiten und Fähigkeiten vor:

1. Der „Super-Leser" (LLM-basierter Ansatz, vertreten durch MergeGen)

Funktionsweise: Dieser Helfer ist wie ein brillanter Schüler, der Millionen von Büchern und Code-Dokumenten gelesen hat. Er „berechnet" die Antwort nicht wirklich; stattdessen nutzt er sein Gedächtnis dafür, wie Dinge normalerweise aussehen, um die beste Lösung zu erraten. Er sagt das nächste Wort oder die nächste Zeile basierend auf erlernten Mustern voraus.
Die Analogie: Es ist wie ein Koch, der Tausende von Suppen probiert hat. Wenn Sie ihm ein Rezept mit einer fehlenden Zutat geben, misst er die Gewürze nicht ab; er „weiß" einfach aufgrund von Erfahrung, wie die Suppe schmecken sollte, und gibt die richtige Menge hinzu.

2. Der „Puzzlespieler" (Suchbasierter Ansatz, vertreten durch SBCR)

Funktionsweise: Dieser Helfer ist ein methodischer Ingenieur. Er weiß nicht, was Code bedeutet; er sieht nur Textzeilen. Er behandelt den Konflikt wie ein riesiges Puzzle. Er probiert Millionen verschiedener Kombinationen der vorhandenen Zeilen aus und prüft jede einzelne, um zu sehen, welche Mischung den ursprünglichen Versionen am ähnlichsten sieht. Er verwendet eine einfache Regel: „Die beste Lösung ist normalerweise eine Mischung, die beiden Elternteilen irgendwie ähnelt."
Die Analogie: Es ist wie ein Detektiv, der keine Ahnung hat, wer der Verdächtige ist, also versucht er jede mögliche Kombination von Alibis und Hinweisen, bis er diejenige findet, die perfekt zu den Fakten passt. Er rät nicht; er testet.

Das Rennen: Was ist passiert?

Die Forscher stellten diese beiden gegen Tausende von realen Konflikten aus Open-Source-Projekten (wie Java-, C#- und JavaScript-Code) auf. Hier ist, was sie herausfanden:

1. Der „Super-Leser" gewinnt, wenn es chaotisch zugeht.
Wenn die beiden Versionen des Codes sich stark in der Größe unterschieden (z. B. fügte eine Version einen riesigen Absatz hinzu, während die andere eine einzige Zeile löschte), war der Super-Leser erstaunlich. Weil er aus so vielen Daten gelernt hatte, konnte er den Kontext verstehen und die richtigen Zeilen auswählen, selbst wenn das Gleichgewicht seltsam war. Er war auch viel schneller und löste Konflikte im Handumdrehen.

2. Der „Puzzlespieler" gewinnt, wenn es ausgeglichen ist.
Wenn die beiden Versionen ähnlich groß und strukturiert waren, war der Puzzlespieler der Champion. Er fand öfter die perfekte Mischung aus Zeilen als der Super-Leser. Er war auch zuverlässiger, wenn der Code seltsame Symbole, nicht-englischen Text enthielt oder extrem lang war.

3. Der „Super-Leser" hat ein paar schlechte Angewohnheiten.

Gedächtnisverlust: Manchmal blieb der Super-Leser an einem bestimmten Beispiel „hängen", das er zuvor in seinem Training gesehen hatte. Er wiederholte einfach diese Antwort, auch wenn sie für die aktuelle Situation falsch war. Dies wird als Overfitting bezeichnet – er hat den Test auswendig gelernt, statt die Lektion zu lernen.
Kurze Aufmerksamkeitsspanne: Wenn der Codeabschnitt zu groß war, wurde der Super-Leser überwältigt und hörte mitten im Schreiben auf, sodass der Konflikt nur halb gelöst blieb.
Sprachbarriere: Wenn der Code Kommentare in einer Sprache enthielt, für die das Modell nicht trainiert war, geriet es in Verwirrung.

4. Der „Puzzlespieler" ist etwas langsam, aber beständig.
Es dauert länger, das Puzzle zu lösen, da er viele Kombinationen testen muss. Allerdings wird er niemals durch langen Text oder seltsame Sprachen verwirrt, weil er alles als einfachen Text behandelt. Er „merkt" sich nichts, also overfittet er nicht.

Das große Fazit: Keine „Wunderwaffe"

Der Artikel kommt zu dem Schluss, dass weder Helfer allein perfekt ist.

Wenn Sie dem Super-Leser einen kleinen, chaotischen Konflikt geben, ist er ein Genie.
Wenn Sie dem Puzzlespieler einen riesigen, ausgeglichenen oder seltsam formatierten Konflikt geben, ist er der zuverlässige Arbeitspferd.

Die Lösung?
Die Autoren schlagen den Bau eines Hybridsystems vor – eines „Verkehrspolizisten", der sich den Konflikt zuerst ansieht.

Wenn der Konflikt klein und chaotisch ist, schickt der Verkehrspolizist ihn zum Super-Leser.
Wenn der Konflikt riesig, ausgeglichen oder seltsame Zeichen enthält, schickt der Verkehrspolizist ihn zum Puzzlespieler.

Indem wir das richtige Werkzeug die richtige Arbeit erledigen lassen, können wir ein System schaffen, das sowohl schnell als auch genau ist und Entwickler vor dem Kopfschmerz des manuellen Zusammenführens bewahrt.

Zusammenfassung in einem Satz

Dieser Artikel beweist, dass zwar KI-„Rater" schnell und großartig bei chaotischen Problemen sind, „Sucher" jedoch bei komplexen oder seltsamen Problemen zuverlässiger sind, und dass das beste zukünftige Werkzeug eine intelligente Kombination aus beiden sein wird.

Technische Zusammenfassung: LLM-basierte vs. suchbasierte Konfliktlösung beim Zusammenführen

Problemstellung

In der modernen kollaborativen Softwareentwicklung treten beim Zusammenführen (Merge) Konflikte auf, wenn gleichzeitige Änderungen sich in Codebereichen überschneiden. Obwohl die Mehrheit dieser Konflikte (etwa 87 %) durch das Kombinieren bestehender Zeilen aus den konfligierenden Versionen ohne das Schreiben neuen Codes gelöst wird, bleibt der Prozess zeitaufwendig und fehleranfällig. Die Forschungsgemeinschaft hat kürzlich zwei konkurrierende Paradigmen zur Automatisierung dieser Lösung vorgestellt: Generative KI (GenAI) auf Basis von Large Language Models (LLMs) und Suchbasierte Softwaretechnik (SBSE) auf Basis heuristischer Optimierung. Obwohl Werkzeuge aus beiden Paradigmen vielversprechend sind, waren ihre relativen Stärken, Schwächen und grundlegenden Zielkonflikte in realen Szenarien bisher unerforscht.

Methodik

Diese Studie präsentiert den ersten tiefgehenden empirischen Vergleich zwischen diesen beiden Paradigmen und bewertet MergeGen (ein hochmodenes LLM-basiertes Werkzeug) gegen SBCR (ein neuartiger SBSE-Ansatz, der einen Random Restart Hill Climbing-Algorithmus verwendet).

Umfang: Die Bewertung konzentrierte sich spezifisch auf „kombinationsbasierte" Konflikte, bei denen die Lösung das Verflechten bestehender Zeilen aus zwei Versionen ohne Generierung neuen Codes beinhaltet. Dieser Umfang wurde gewählt, um einen fairen Vergleich zu gewährleisten, da SBCR keinen neuen Code generieren kann, wohingegen MergeGen dies kann.
Datensätze: Die Studie nutzte Tausende von realen Konflikten aus Open-Source-Projekten in vier Sprachen: Java, C#, JavaScript und TypeScript. Zwei primäre Datensätze wurden verwendet:
- Datensatz 1: 6.269 Java-Konflikte.
- Datensatz 2: 47.363 Konflikte über die vier Sprachen hinweg (gefiltert nach kombinationsbasierten Lösungen).
Experimentelles Design:
- MergeGen: Konfiguriert mit einem CodeT5 Encoder-Decoder-Modell, trainiert auf sprachspezifischen Daten. Die Eingabe- und Ausgab-Token-Limits wurden aufgrund von Rechenbeschränkungen auf 300 bzw. 100 festgelegt.
- SBCR: Durch systematische Parametereinstellung (Nachbarn pro Iteration, Ausführungszeit, Stagnationsgrenze) konfiguriert, um das Gleichgewicht zwischen Lösungsqualität und Ausführungszeit zu optimieren.
- Metriken: Zu den primären Metriken gehörten Ähnlichkeit (gemessen mittels Gestalt-Musterabgleich/LCS gegen die tatsächliche Lösung des Entwicklers) und Ausführungszeit. Die statistische Signifikanz wurde mittels des Wilcoxon-Vorzeichen-Rang-Tests und der Common Language Effect Size (CLES) bewertet.
- Generalisierung: Die Studie bewertete die Leistung, wenn Modelle auf einem Datensatz trainiert/abgestimmt und auf einem anderen getestet wurden, um die Anpassungsfähigkeit zu beurteilen.
- Qualitative Analyse: Eine manuelle Inspektion von 100 Extremfällen (50, bei denen SBCR gewann, 50, bei denen MergeGen gewann) wurde durchgeführt, um Muster zu identifizieren, die Leistungsunterschiede erklären.

Hauptbeiträge und Ergebnisse

1. Leistungsvergleich (RQ1 & RQ2)

Genauigkeit: Das GenAI-Paradigma (MergeGen) schnitt in Bezug auf die Ähnlichkeit der Lösung über alle Sprachen hinweg (Java, C#, JavaScript, TypeScript) konsistent besser ab als das SBSE-Paradigma (SBCR). MergeGen erreichte eine mediane Ähnlichkeit von 100 % und eine perfekte Übereinstimmungsrate von 55 % in Java, verglichen mit SBCRs 86,1 % medianer Ähnlichkeit und 19,6 % perfekter Übereinstimmungsrate.
Geschwindigkeit: MergeGen war signifikant schneller mit einer medianen Generierungszeit von 0,3 Sekunden gegenüber 1,3 Sekunden bei SBCR.
Statistische Signifikanz: Die Unterschiede waren über alle Sprachen hinweg statistisch signifikant ( $p < 0,001$ ), wobei MergeGen eine Wahrscheinlichkeit von 70,6 % aufwies, in einem zufälligen Java-Konflikt eine ähnlichere Lösung zu generieren.

2. Generalisierungsfähigkeiten (RQ3)

Robustheit von SBSE: SBCR zeigte eine überlegene Generalisierung. Seine Leistung blieb stabil, unabhängig davon, ob es auf demselben Datensatz oder einem völlig anderen Datensatz abgestimmt wurde (kreuzdatensatzbasierte Bewertung). Es ist datenunabhängig und leidet nicht unter Verschiebungen der Trainingsverteilung.
Sensitivität von GenAI: MergeGen zeigte eine leichte Sensitivität gegenüber seinen Trainingsdaten. Obwohl es in kreuzdatensatzbasierten Szenarien immer noch besser abschnitt als SBCR, sank seine Leistung leicht, wenn es auf einem anderen Datensatz trainiert wurde, was auf eine gewisse Überanpassung an spezifische Projektstile oder -muster hindeutet.

3. Kontextuelle Stärken und Schwächen (RQ4)

Die qualitative Analyse deckte distincte Fehler- und Erfolgsmodi für jedes Paradigma auf:

Stärken von MergeGen: Übertrifft bei ungleichgewichtigen Konflikten (z. B. ist eine Version deutlich größer als die andere) und Szenarien mit Leerzeichen oder entferntem Inhalt. Es nutzt erlernte kontextuelle Muster, um die korrekte unausgewogene Lösung abzuleiten.
Schwächen von MergeGen: Hat Schwierigkeiten mit nicht-englischem Inhalt, großen Eingaben (was zu Abschneidungen aufgrund von Token-Limits führt) und leeren Kandidaten. Die Studie identifizierte eine potenzielle Überanpassung, bei der das Modell spezifische wiederkehrende Konflikte zu memorieren schien, anstatt generalisierbare Strategien zu lernen.
Stärken von SBCR: Performt optimal bei ausgewogenen Konflikten, bei denen die beiden Versionen ähnlich groß sind. Es ist sprachagnostisch und robust gegenüber nicht-englischem Inhalt oder fehlerhaften Blöcken.
Schwächen von SBCR: Seine Bewertungsfunktion (die die Ähnlichkeit zu beiden Eltern maximiert) hat Schwierigkeiten mit stark unausgewogenen Konflikten und erzeugt oft falsche Lösungen, die versuchen, den Inhalt auszugleichen, anstatt die Absicht des Entwicklers widerzuspiegeln.

Bedeutung und Behauptungen

Die Studie kommt zu dem Schluss, dass weder Paradigma ein „Allheilmittel" ist. Stattdessen weisen sie grundlegende, kontextabhängige Zielkonflikte auf:

GenAI (MergeGen) bietet hohe Genauigkeit und Geschwindigkeit für gängige, unausgewogene oder musterbasierte Konflikte, birgt jedoch das Risiko der Überanpassung und versagt katastrophal (z. B. durch Abschneiden) bei Eingaben außerhalb seiner Trainingsverteilung oder der Token-Limits.
SBSE (SBCR) bietet robuste, datenunabhängige Generalisierung und bewältigt große oder ausgewogene Eingaben gut, fehlt jedoch das kontextuelle Verständnis, um stark unausgewogene Konflikte effektiv zu lösen.

Die Autoren plädieren für die Entwicklung hybrider Systeme, die Konflikte intelligent basierend auf ihren Merkmalen routen. Sie schlagen einen Workflow vor, bei dem ein „Meta-Löser" unausgewogene oder musterbasierte Konflikte an MergeGen weiterleitet, während große, ausgewogene oder nicht-englische Konflikte an SBCR geleitet werden. Dieser Ansatz zielt darauf ab, die komplementären Stärken beider Paradigmen zu nutzen, um robustere und zuverlässigere automatisierte Werkzeuge zur Lösung von Merge-Konflikten zu schaffen.

Die Studie betont, dass sich das Verlassen auf ein einzelnes Paradigma für die reale Softwareentwicklung als unzureichend erweisen kann, da Konfliktszenarien in Größe, Inhaltsausgewogenheit und Sprache stark variieren.

LLM-based vs. Search-based Merge Conflict Resolution: An Empirical Study of Competing Paradigms