Auteurs originaux : Heleno de Souza Campos Junior, Leonardo Gresta Paulino Murta

Publié 2026-05-19✓ Author reviewed ⓘ

📖 5 min de lecture🧠 Analyse approfondie

Auteurs originaux : Heleno de Souza Campos Junior, Leonardo Gresta Paulino Murta

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous et un ami éditez tous les deux le même document en même temps. Vous apportez tous deux des modifications au même paragraphe, et lorsque vous tentez de fusionner vos travaux, l'ordinateur lève les bras et déclare : « Je ne sais pas quelle version conserver ! » C'est ce qu'on appelle un conflit de fusion.

Pendant des décennies, les développeurs ont dû corriger manuellement ces conflits, ce qui est fastidieux et sujet aux erreurs. Récemment, deux nouveaux « assistants intelligents » sont apparus pour résoudre ce problème automatiquement. Cet article met en scène une course à armes égales entre ces deux assistants pour déterminer lequel est le meilleur.

Les Deux Contendants

Imaginez les deux assistants ayant des personnalités et des compétences très différentes :

1. Le « Super-Lecteur » (approche basée sur les LLM, représentée par MergeGen)

Fonctionnement : Cet assistant est comme un étudiant brillant qui a lu des millions de livres et de documents de code. Il ne « calcule » pas vraiment la réponse ; au lieu de cela, il utilise sa mémoire de la façon dont les choses ont l'habitude d'être pour deviner la meilleure solution. Il prédit le mot ou la ligne suivante en fonction des modèles qu'il a appris.
L'Analogie : C'est comme un chef qui a goûté des milliers de soupes. Si vous lui donnez une recette avec un ingrédient manquant, il ne mesure pas les épices ; il « sait » simplement à quoi la soupe devrait ressembler en se basant sur l'expérience et ajoute la bonne quantité.

2. Le « Résolveur de Puzzle » (approche basée sur la recherche, représentée par SBCR)

Fonctionnement : Cet assistant est un ingénieur méthodique. Il ne sait pas ce que le code signifie ; il voit simplement des lignes de texte. Il traite le conflit comme un immense puzzle. Il teste des millions de combinaisons différentes des lignes existantes, vérifiant chacune pour voir quel mélange ressemble le plus aux versions originales. Il utilise une règle simple : « La meilleure solution est généralement un mélange qui ressemble quelque peu aux deux parents. »
L'Analogie : C'est comme un détective qui n'a aucune idée de qui est le suspect, alors il essaie toutes les combinaisons possibles d'alibis et d'indices jusqu'à trouver celui qui correspond parfaitement aux faits. Il ne devine pas ; il teste.

La Course : Qu'est-il arrivé ?

Les chercheurs ont opposé ces deux derniers à des milliers de conflits réels issus de projets open source (comme du code Java, C# et JavaScript). Voici ce qu'ils ont découvert :

1. Le « Super-Lecteur » gagne quand les choses sont chaotiques.
Lorsque les deux versions du code différaient considérablement en taille (par exemple, une version ajoutait un énorme paragraphe tandis que l'autre supprimait une seule ligne), le Super-Lecteur était incroyable. Parce qu'il a appris à partir de tellement de données, il pouvait comprendre le contexte et sélectionner les bonnes lignes, même si l'équilibre était étrange. Il était également beaucoup plus rapide, résolvant les conflits en un clin d'œil.

2. Le « Résolveur de Puzzle » gagne quand les choses sont équilibrées.
Lorsque les deux versions étaient similaires en taille et en structure, le Résolveur de Puzzle était le champion. Il trouvait le mélange parfait de lignes plus souvent que le Super-Lecteur. Il était également plus fiable lorsque le code contenait des symboles étranges, du texte non anglais, ou était extrêmement long.

3. Le « Super-Lecteur » a quelques mauvaises habitudes.

Fuites de mémoire : Parfois, le Super-Lecteur restait « coincé » sur un exemple spécifique qu'il avait vu auparavant lors de son entraînement. Il répétait simplement cette réponse, même si elle était incorrecte pour la situation actuelle. C'est ce qu'on appelle le surapprentissage (overfitting) — il a mémorisé le test au lieu d'apprendre la leçon.
Courte attention : Si le bloc de code était trop énorme, le Super-Lecteur se sentait submergé et arrêtait d'écrire à mi-parcours, laissant le conflit à moitié résolu.
Barrière linguistique : Si le code contenait des commentaires dans une langue sur laquelle le modèle n'avait pas été entraîné, il se perdait.

4. Le « Résolveur de Puzzle » est un peu lent mais constant.
Il faut plus de temps pour résoudre le puzzle car il doit tester de nombreuses combinaisons. Cependant, il ne se perd jamais à cause de textes longs ou de langues étranges car il traite tout comme du texte simple. Il ne « mémorise » rien, donc il ne surapprend pas.

La Grande Conclusion : Pas de « Solution Miracle »

L'article conclut que ni l'un ni l'autre assistant n'est parfait seul.

Si vous donnez au Super-Lecteur un petit conflit chaotique, c'est un génie.
Si vous donnez au Résolveur de Puzzle un conflit énorme, équilibré ou au format étrange, c'est le travailleur fiable.

La Solution ?
Les auteurs suggèrent de construire un système hybride — un « Agent de Circulation » qui examine d'abord le conflit.

Si le conflit est petit et chaotique, l'Agent de Circulation l'envoie au Super-Lecteur.
Si le conflit est énorme, équilibré ou contient des caractères étranges, l'Agent de Circulation l'envoie au Résolveur de Puzzle.

En laissant le bon outil faire le bon travail, nous pouvons créer un système à la fois rapide et précis, épargnant aux développeurs le mal de tête de la fusion manuelle.

Résumé en une phrase

Cet article prouve que si les « devineurs » de l'IA sont rapides et excellents pour les problèmes chaotiques, les « chercheurs » sont plus fiables pour les problèmes complexes ou étranges, et que le meilleur outil futur sera une combinaison intelligente des deux.

Résumé technique : Résolution de conflits de fusion basée sur les LLM vs basée sur la recherche

Énoncé du problème

Dans le développement logiciel collaboratif moderne, les conflits de fusion surviennent lorsque des modifications concurrentes se chevauchent dans des régions de code. Bien que la majorité de ces conflits (environ 87 %) soient résolus en combinant des lignes existantes des versions conflictuelles sans écrire de nouveau code, le processus reste chronophage et sujet aux erreurs. La communauté de recherche a récemment fait émerger deux paradigmes concurrents pour automatiser cette résolution : l'IA générative (GenAI) basée sur les modèles de langage (LLM) et l'ingénierie logicielle basée sur la recherche (SBSE) fondée sur l'optimisation heuristique. Bien que les outils issus de ces deux paradigmes montrent des promesses, leurs forces relatives, leurs faiblesses et leurs compromis fondamentaux dans des scénarios réels n'avaient pas été explorés auparavant.

Méthodologie

Cette étude présente la première comparaison empirique approfondie entre ces deux paradigmes, évaluant MergeGen (un outil de pointe basé sur les LLM) contre SBCR (une approche SBSE novatrice utilisant un algorithme de montée de colline avec redémarrage aléatoire).

Portée : L'évaluation s'est concentrée spécifiquement sur les conflits de type « combinaison », où la résolution consiste à entrelacer des lignes existantes de deux versions sans générer de nouveau code. Cette portée a été choisie pour assurer une comparaison équitable, car SBCR ne peut pas générer de nouveau code, tandis que MergeGen le peut.
Ensembles de données : L'étude a utilisé des milliers de conflits réels provenant de projets open source dans quatre langages : Java, C#, JavaScript et TypeScript. Deux ensembles de données principaux ont été utilisés :
- Jeu de données 1 : 6 269 conflits Java.
- Jeu de données 2 : 47 363 conflits répartis sur les quatre langages (filtrés pour les résolutions de type combinaison).
Conception expérimentale :
- MergeGen : Configuré avec un modèle encodeur-décodeur CodeT5, entraîné sur des données spécifiques au langage. Les limites de tokens pour l'entrée et la sortie ont été fixées à 300 et 100 respectivement, en raison de contraintes computationnelles.
- SBCR : Configuré via un réglage systématique des paramètres (voisins par itération, temps d'exécution, limite de stagnation) pour optimiser l'équilibre entre la qualité de la solution et le temps d'exécution.
- Métriques : Les métriques principales comprenaient la Similarité (mesurée via la correspondance de motifs Gestalt/LCS par rapport à la résolution réelle du développeur) et le Temps d'exécution. La signification statistique a été évaluée à l'aide du test des rangs signés de Wilcoxon et de la taille de l'effet de la langue commune (CLES).
- Généralisation : L'étude a évalué les performances lorsque les modèles étaient entraînés/réglés sur un ensemble de données et testés sur un autre pour évaluer l'adaptabilité.
- Analyse qualitative : Une inspection manuelle de 100 cas extrêmes (50 où SBCR a gagné, 50 où MergeGen a gagné) a été réalisée pour identifier des modèles expliquant les différences de performance.

Contributions et résultats clés

1. Comparaison des performances (RQ1 & RQ2)

Précision : Le paradigme GenAI (MergeGen) a systématiquement surpassé le paradigme SBSE (SBCR) en termes de similarité de résolution dans tous les langages (Java, C#, JavaScript, TypeScript). MergeGen a atteint une similarité médiane de 100 % et un taux de correspondance parfaite de 55 % en Java, contre une médiane de 86,1 % et un taux de correspondance parfaite de 19,6 % pour SBCR.
Vitesse : MergeGen était significativement plus rapide, avec un temps de génération médian de 0,3 seconde contre 1,3 seconde pour SBCR.
Signification statistique : Les différences étaient statistiquement significatives ( $p < 0,001$ ) dans tous les langages, MergeGen montrant une probabilité de 70,6 % de générer une résolution plus similaire dans un conflit Java aléatoire.

2. Capacités de généralisation (RQ3)

Robustesse SBSE : SBCR a démontré une généralisation supérieure. Ses performances sont restées stables, qu'il ait été réglé sur le même ensemble de données ou sur un ensemble de données complètement différent (évaluation inter-jeux de données). Il est indépendant des données et ne souffre pas de décalages de distribution d'entraînement.
Sensibilité GenAI : MergeGen a montré une légère sensibilité à ses données d'entraînement. Bien qu'il ait continué à surpasser SBCR dans les scénarios inter-jeux de données, ses performances ont légèrement diminué lorsqu'il était entraîné sur un ensemble de données différent, suggérant un certain degré de surajustement à des styles ou des modèles de projet spécifiques.

3. Forces et faiblesses contextuelles (RQ4)

L'analyse qualitative a révélé des modes d'échec et de succès distincts pour chaque paradigme :

Forces de MergeGen : Excellence dans les conflits déséquilibrés (par exemple, une version est significativement plus grande que l'autre) et les scénarios impliquant des espaces blancs ou du contenu supprimé. Il exploite des modèles contextuels appris pour inférer la résolution déséquilibrée correcte.
Faiblesses de MergeGen : Difficultés avec le contenu non anglais, les entrées volumineuses (entraînant une truncation due aux limites de tokens) et les candidats vides. L'étude a identifié un potentiel de surajustement, où le modèle semblait mémoriser des conflits répétitifs spécifiques plutôt que d'apprendre des stratégies généralisables.
Forces de SBCR : Performances optimales sur les conflits équilibrés où les deux versions sont de taille similaire. Il est agnostique au langage et robuste face au contenu non anglais ou aux blocs mal formés.
Faiblesses de SBCR : Sa fonction d'évaluation (qui maximise la similarité avec les deux parents) lutte avec les conflits fortement déséquilibrés, produisant souvent des résolutions incorrectes qui tentent d'équilibrer le contenu plutôt que de refléter l'intention du développeur.

Importance et affirmations

L'article conclut que ni l'un ni l'autre paradigme n'est une « solution miracle ». Au contraire, ils présentent des compromis fondamentaux et dépendants du contexte :

GenAI (MergeGen) offre une haute précision et rapidité pour les conflits courants, déséquilibrés ou de type correspondance de motifs, mais risque le surajustement et échoue de manière catastrophique (par exemple, truncation) sur des entrées en dehors de sa distribution d'entraînement ou de ses limites de tokens.
SBSE (SBCR) offre une généralisation robuste et indépendante des données, gère bien les entrées volumineuses ou équilibrées, mais manque de compréhension contextuelle pour résoudre efficacement les conflits fortement déséquilibrés.

Les auteurs préconisent le développement de systèmes hybrides qui acheminent intelligemment les conflits en fonction de leurs caractéristiques. Ils proposent un flux de travail où un « méta-résolveur » dirige les conflits déséquilibrés ou basés sur des motifs vers MergeGen, tandis qu'il achemine les conflits volumineux, équilibrés ou non anglais vers SBCR. Cette approche vise à exploiter les forces complémentaires des deux paradigmes pour créer des outils de résolution automatisée de conflits de fusion plus robustes et fiables.

L'étude souligne que s'appuyer sur un seul paradigme peut être insuffisant pour le développement logiciel réel, où les scénarios de conflit varient considérablement en taille, en équilibre de contenu et en langage.

LLM-based vs. Search-based Merge Conflict Resolution: An Empirical Study of Competing Paradigms