Conventional Commit Classification using Large Language Models and Prompt Engineering

Cet article démontre que les grands modèles de langage sans entraînement, en particulier DeepSeek-R1-32B utilisant l'inférence few-shot, peuvent classer efficacement les commits conventionnels à partir de diff de code, offrant ainsi une alternative pratique aux approches traditionnelles d'apprentissage automatique supervisé.

Auteurs originaux : H. M. Sazzad Quadir, Sakib Al Hasan, Md. Nurul Ahad Tawhid

Publié 2026-05-06✓ Author reviewed
📖 5 min de lecture🧠 Analyse approfondie

Auteurs originaux : H. M. Sazzad Quadir, Sakib Al Hasan, Md. Nurul Ahad Tawhid

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous êtes le gestionnaire d'une immense bibliothèque chaotique où des milliers de livres sont ajoutés chaque jour. Pour maintenir l'ordre, la bibliothèque impose une règle stricte : chaque nouveau livre doit porter une étiquette spécifique sur sa tranche (comme « Nouvelle Fonctionnalité », « Correction de Bug » ou « Documentation ») afin que des robots puissent les trier automatiquement, mettre à jour le catalogue et informer les visiteurs des nouveautés.

Cependant, dans la réalité, les personnes qui ajoutent les livres ignorent souvent les règles. Elles griffonnent des notes désordonnées comme « corrigé le truc » ou « modifié du code », rendant impossible pour les robots de déterminer à quelle catégorie appartient le livre.

Ce document traite de l'apprentissage d'un robot ultra-intelligent (une IA) à lire ces notes désordonnées et à déterminer l'étiquette correcte, sans avoir à passer des années à étudier des milliers d'exemples au préalable.

Le Problème : Notes Désordonnées vs Règles Stricte

Dans le développement logiciel, les programmeurs écrivent des « messages de commit » (des notes) à chaque fois qu'ils enregistrent des modifications dans leur code. L'industrie dispose d'un format standard appelé Conventional Commits qui agit comme un système de classement strict. Il exige que les notes commencent par une balise spécifique (par exemple, feat:, fix:).

Mais les humains sont désordonnés. Ils oublient souvent les balises. Traditionnellement, pour résoudre ce problème, les chercheurs construisaient un robot personnalisé en lui fournissant des milliers d'exemples étiquetés (comme un étudiant mémorisant un manuel). Cela prend beaucoup de temps et de données.

La Nouvelle Approche : La Stratégie du « Prompt »

Au lieu d'entraîner un nouveau robot à partir de zéro, les auteurs se sont demandé : Pouvons-nous simplement donner à une IA préexistante très intelligente un ensemble d'instructions (un « prompt ») pour accomplir la tâche ?

Ils ont traité l'IA comme un stagiaire brillant qui connaît déjà beaucoup de choses sur le langage mais doit savoir exactement quelle tâche accomplir. Ils ont testé trois méthodes différentes pour donner des instructions :

  1. Zero-Shot (L'Approche « Dis-le-moi simplement ») :

    • L'Analogie : Vous vous approchez du stagiaire et dites : « Voici une note désordonnée. Veuillez me dire à quelle catégorie elle appartient selon les règles. » Vous ne donnez aucun exemple.
    • Résultat : Le stagiaire devine, mais se trompe souvent car il ne sait pas exactement ce que vous voulez.
  2. Few-Shot (L'Approche « Montrez-moi des exemples ») :

    • L'Analogie : Vous dites : « Voici une note désordonnée qui signifie « Nouvelle Fonctionnalité ». Voici une autre qui signifie « Correction de Bug ». Maintenant, regardez cette nouvelle note désordonnée et dites-moi ce qu'elle est. » Vous montrez d'abord quelques exemples clairs au stagiaire.
    • Résultat : Cela a fonctionné le mieux. Le stagiaire a compris le modèle rapidement et a trié les livres avec précision.
  3. Chain-of-Thought (L'Approche « Pense à voix haute ») :

    • L'Analogie : Vous dites : « Avant de me donner la réponse, veuillez écrire votre raisonnement étape par étape : « Je vois le mot « fix », donc je pense que c'est un bug... » »
    • Résultat : Étonnamment, cela n'a pas aidé. Pour cette tâche spécifique de tri d'étiquettes, obliger le stagiaire à « penser à voix haute » n'a fait qu'ajouter des étapes supplémentaires sans améliorer la réponse finale. C'était comme demander à un bibliothécaire de rédiger un essai avant de ranger un livre ; cela le ralentissait sans améliorer le résultat.

Les Concurrents : Quelle Taille Doit Avoir le Cerveau ?

Les chercheurs ont testé trois « stagiaires » (modèles d'IA) de tailles différentes :

  • Mistral-7B : Un cerveau de taille moyenne (7 milliards de paramètres).
  • LLaMA-3-8B : Un cerveau légèrement plus grand (8 milliards de paramètres).
  • DeepSeek-R1-32B : Un cerveau géant (32 milliards de paramètres).

La Découverte : Le plus grand cerveau a gagné. Le DeepSeek-R1-32B était le plus précis pour lire les notes désordonnées et trouver la bonne étiquette. Cela suggère que pour ce type de tâche, disposer d'un modèle d'IA plus grand et plus puissant fait une réelle différence.

La Conclusion

L'article conclut que vous n'avez pas besoin de construire un modèle d'apprentissage automatique personnalisé à partir de zéro pour organiser des notes logicielles désordonnées. À la place, vous pouvez utiliser une IA puissante et préexistante et lui donner simplement quelques bons exemples (prompting Few-Shot) pour accomplir la tâche.

  • Meilleure Stratégie : Montrer d'abord quelques exemples à l'IA.
  • Meilleure IA : Le modèle le plus grand et le plus puissant disponible.
  • Perte de Temps : Faire écrire à l'IA un long processus de raisonnement avant de répondre.

Cette approche économise du temps et des efforts car elle évite la nécessité de collecter et d'étiqueter des milliers d'exemples d'entraînement, permettant aux développeurs d'automatiser immédiatement l'organisation de leurs fichiers.

Noyé(e) sous les articles dans votre domaine ?

Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.

Essayer Digest →