Conventional Commit Classification using Large Language… — Begrijpelijke uitleg

Oorspronkelijke auteurs: H. M. Sazzad Quadir, Sakib Al Hasan, Md. Nurul Ahad Tawhid

Gepubliceerd 2026-05-06✓ Author reviewed ⓘ

📖 4 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: H. M. Sazzad Quadir, Sakib Al Hasan, Md. Nurul Ahad Tawhid

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je de manager bent van een enorme, chaotische bibliotheek waar dagelijks duizenden boeken worden toegevoegd. Om de dingen georganiseerd te houden, heeft de bibliotheek een strikte regel: elk nieuw boek moet een specifiek label op de rug hebben (zoals "Nieuwe Functie", "Bugfix" of "Documentatie"), zodat robots ze automatisch kunnen sorteren, de catalogus kunnen bijwerken en bezoekers kunnen vertellen wat er nieuw is.

In werkelijkheid negeren de mensen die de boeken toevoegen de regels echter vaak. Ze krabbelen rommelige notities zoals "het ding gefixt" of "wat code gewijzigd", waardoor het voor robots onmogelijk wordt om te weten tot welke categorie het boek behoort.

Dit artikel gaat over het leren van een superintelligente robot (een AI) om die rommelige notities te lezen en het juiste label te bepalen, zonder eerst jarenlang duizenden voorbeelden te hoeven bestuderen.

Het Probleem: Rommelige Notities versus Strikte Regels

In softwareontwikkeling schrijven programmeurs bij elke keer dat ze wijzigingen in hun code opslaan "commit-berichten" (notities). De industrie heeft een standaardformaat genaamd Conventional Commits dat fungeert als een strikt archiefsysteem. Het vereist dat notities beginnen met een specifiek label (bijvoorbeeld feat:, fix:).

Maar mensen zijn rommelig. Ze vergeten vaak de labels. Traditioneel zouden onderzoekers om dit op te lossen een aangepaste robot bouwen door deze te voeden met duizenden gelabelde voorbeelden (zoals een student die een schoolboek uit het hoofd leert). Dit kost veel tijd en data.

De Nieuwe Aanpak: De "Prompt"-Strategie

In plaats van een nieuwe robot vanaf nul te trainen, vroegen de auteurs zich af: Kunnen we gewoon een zeer slimme, bestaande AI een reeks instructies (een "prompt") geven om de taak te verrichten?

Ze behandelden de AI als een briljante stagiair die al veel over taal weet, maar precies moet weten welke taak hij moet uitvoeren. Ze testten drie verschillende manieren om instructies te geven:

Zero-Shot (De "Vertel het me gewoon"-Aanpak):
- De Analogie: Je loopt naar de stagiair toe en zegt: "Hier is een rommelige notitie. Vertel me op basis van de regels tot welke categorie deze behoort." Je geeft geen voorbeelden.
- Resultaat: De stagiair raadt, maar krijgt het vaak fout omdat hij niet precies weet wat je wilt.
Few-Shot (De "Toon me Voorbeelden"-Aanpak):
- De Analogie: Je zegt: "Hier is een rommelige notitie die 'Nieuwe Functie' betekent. Hier is een andere die 'Bugfix' betekent. Kijk nu naar deze nieuwe rommelige notitie en vertel me wat het is." Je laat de stagiair eerst een paar duidelijke voorbeelden zien.
- Resultaat: Dit werkte het beste. De stagiair begreep het patroon snel en sorteerde de boeken nauwkeurig.
Chain-of-Thought (De "Denk Hardop"-Aanpak):
- De Analogie: Je zegt: "Voordat je me het antwoord geeft, schrijf je stap-voor-stap je redenering op: 'Ik zie het woord 'fix', dus ik denk dat het een bug is...'"
- Resultaat: Verrassend genoeg hielp dit niet. Voor deze specifieke taak van het sorteren van labels zorgde het er voor dat de stagiair "hardop dacht" alleen voor extra stappen zorgde zonder het uiteindelijke antwoord te verbeteren. Het was alsof je een bibliothecaris vraagt om een essay te schrijven voordat hij een boek in de schappen legt; het vertraagde hen zonder het resultaat te verbeteren.

De Kandidaten: Hoe Groot Moet het Brein Zijn?

De onderzoekers testten drie verschillende "stagiaires" (AI-modellen) van verschillende groottes:

Mistral-7B: Een middelgroot brein (7 miljard parameters).
LLaMA-3-8B: Een iets groter brein (8 miljard parameters).
DeepSeek-R1-32B: Een gigantisch brein (32 miljard parameters).

De Bevinding: Het grotere brein won. De DeepSeek-R1-32B was het meest accuraat in het lezen van de rommelige notities en het vinden van het juiste label. Dit suggereert dat voor dit soort taken het hebben van een groter, krachtiger AI-model een echt verschil maakt.

De Conclusie

Het artikel concludeert dat je geen aangepast machine learning-model vanaf nul hoeft te bouwen om rommelige software-notities te organiseren. In plaats daarvan kun je een krachtige, bestaande AI gebruiken en deze gewoon een paar goede voorbeelden geven (Few-Shot prompting) om de klus te klaren.

Beste Strategie: Laat de AI eerst een paar voorbeelden zien.
Beste AI: Het grootste, krachtigste beschikbare model.
Tijdsverspilling: De AI een lang redeneerproces laten schrijven voordat hij antwoordt.

Deze aanpak bespaart tijd en moeite omdat het de noodzaak overslaat om duizenden trainingsvoorbeelden te verzamelen en te labelen, waardoor ontwikkelaars hun bestandsorganisatie direct kunnen automatiseren.

Conventional Commit Classification using Large Language Models and Prompt Engineering

Het Probleem: Rommelige Notities versus Strikte Regels

De Nieuwe Aanpak: De "Prompt"-Strategie

De Kandidaten: Hoe Groot Moet het Brein Zijn?

De Conclusie

Technische Samenvatting: Classificatie van Conventionele Commits met Grote Taalmodellen en Prompt Engineering

Probleemstelling

Methodologie

Belangrijkste Resultaten

Belangrijkste Bijdragen

Betekenis en Claims

Conventional Commit Classification using Large Language Models and Prompt Engineering

Het Probleem: Rommelige Notities versus Strikte Regels

De Nieuwe Aanpak: De "Prompt"-Strategie

De Kandidaten: Hoe Groot Moet het Brein Zijn?

De Conclusie

Technische Samenvatting: Classificatie van Conventionele Commits met Grote Taalmodellen en Prompt Engineering

Probleemstelling

Methodologie

Belangrijkste Resultaten

Belangrijkste Bijdragen

Betekenis en Claims

Meer zoals dit