Conventional Commit Classification using Large Language Models and Prompt Engineering

Dieser Artikel zeigt, dass trainingsfreie große Sprachmodelle, insbesondere DeepSeek-R1-32B mit Few-Shot-Prompting, konventionelle Commits aus Code-Diffs effektiv klassifizieren können und damit eine praktische Alternative zu traditionellen überwachten maschinellen Lernansätzen bieten.

Ursprüngliche Autoren: H. M. Sazzad Quadir, Sakib Al Hasan, Md. Nurul Ahad Tawhid

Veröffentlicht 2026-05-06✓ Author reviewed
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ursprüngliche Autoren: H. M. Sazzad Quadir, Sakib Al Hasan, Md. Nurul Ahad Tawhid

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie sind der Manager einer riesigen, chaotischen Bibliothek, in der täglich Tausende von Büchern hinzugefügt werden. Um die Ordnung zu wahren, hat die Bibliothek eine strikte Regel: Jedes neue Buch muss ein spezifisches Etikett auf dem Buchrücken tragen (wie „Neues Feature", „Bugfix" oder „Dokumentation"), damit Roboter sie automatisch sortieren, den Katalog aktualisieren und den Besuchern mitteilen können, was neu ist.

In der Realität ignorieren die Personen, die die Bücher hinzufügen, diese Regeln jedoch oft. Sie kritzeln unordentliche Notizen wie „das Ding repariert" oder „einiger Code geändert" hinein, was es den Robotern unmöglich macht zu erkennen, in welche Kategorie das Buch gehört.

Diese Arbeit handelt davon, einem superschlauen Roboter (einer KI) beizubringen, diese unordentlichen Notizen zu lesen und das korrekte Etikett zu ermitteln, ohne zuvor jahrelang Tausende von Beispielen studieren zu müssen.

Das Problem: Unordentliche Notizen versus strikte Regeln

In der Softwareentwicklung schreiben Programmierer bei jedem Speichern von Änderungen an ihrem Code „Commit-Nachrichten" (Notizen). Die Branche hat ein Standardformat namens Conventional Commits, das wie ein striktes Ablagesystem funktioniert. Es verlangt, dass Notizen mit einem spezifischen Tag beginnen (z. B. feat:, fix:).

Menschen sind jedoch unordentlich. Sie vergessen oft die Tags. Traditionell wurde dieses Problem behoben, indem Forscher einen maßgeschneiderten Roboter bauten, indem sie ihn mit Tausenden von gelabelten Beispielen fütterten (wie ein Schüler, der ein Lehrbuch auswendig lernt). Dies erfordert viel Zeit und Daten.

Der neue Ansatz: Die „Prompt"-Strategie

Anstatt einen neuen Roboter von Grund auf zu trainieren, stellten die Autoren die Frage: Können wir einer sehr klugen, bereits existierenden KI einfach eine Reihe von Anweisungen (einen „Prompt") geben, um die Aufgabe zu erledigen?

Sie behandelten die KI wie einen brillanten Praktikanten, der bereits viel über Sprache weiß, aber genau wissen muss, welche Aufgabe zu erledigen ist. Sie testeten drei verschiedene Arten, Anweisungen zu geben:

  1. Zero-Shot (Der Ansatz „Sag es mir einfach"):

    • Die Analogie: Sie gehen auf den Praktikanten zu und sagen: „Hier ist eine unordentliche Notiz. Bitte sag mir, zu welcher Kategorie sie basierend auf den Regeln gehört." Sie geben keine Beispiele.
    • Ergebnis: Der Praktikant rät, bekommt es aber oft falsch, weil er nicht genau weiß, was Sie wollen.
  2. Few-Shot (Der Ansatz „Zeig mir Beispiele"):

    • Die Analogie: Sie sagen: „Hier ist eine unordentliche Notiz, die 'Neues Feature' bedeutet. Hier ist eine weitere, die 'Bugfix' bedeutet. Schau dir jetzt diese neue unordentliche Notiz an und sag mir, was sie ist." Sie zeigen dem Praktikanten zunächst ein paar klare Beispiele.
    • Ergebnis: Dies funktionierte am besten. Der Praktikant erkannte das Muster schnell und sortierte die Bücher korrekt.
  3. Chain-of-Thought (Der Ansatz „Denken Sie laut"):

    • Die Analogie: Sie sagen: „Bevor Sie mir die Antwort geben, schreiben Sie bitte Ihre schrittweise Begründung auf: 'Ich sehe das Wort "fix", also denke ich, es ist ein Bug...'"
    • Ergebnis: Überraschenderweise half dies nicht. Für diese spezifische Aufgabe des Sortierens von Etiketten führte das „laut Denken" des Praktikanten nur zu zusätzlichen Schritten, ohne die endgültige Antwort zu verbessern. Es war, als würde man einen Bibliothekar bitten, vor dem Einräumen eines Buches einen Aufsatz zu schreiben; es verlangsamte ihn, ohne das Ergebnis zu verbessern.

Die Kandidaten: Wie groß muss das Gehirn sein?

Die Forscher testeten drei verschiedene „Praktikanten" (KI-Modelle) unterschiedlicher Größe:

  • Mistral-7B: Ein mittelgroßes Gehirn (7 Milliarden Parameter).
  • LLaMA-3-8B: Ein etwas größeres Gehirn (8 Milliarden Parameter).
  • DeepSeek-R1-32B: Ein riesiges Gehirn (32 Milliarden Parameter).

Die Erkenntnis: Das größere Gehirn gewann. Das DeepSeek-R1-32B war am genauesten beim Lesen der unordentlichen Notizen und beim Finden des richtigen Etiketts. Dies deutet darauf hin, dass für diese Art von Aufgabe ein größeres, leistungsfähigeres KI-Modell einen echten Unterschied macht.

Das Fazit

Die Arbeit kommt zu dem Schluss, dass Sie kein maßgeschneidertes maschinelles Lernmodell von Grund auf neu erstellen müssen, um unordentliche Software-Notizen zu organisieren. Stattdessen können Sie eine leistungsstarke, bereits existierende KI verwenden und ihr einfach ein paar gute Beispiele geben (Few-Shot-Prompting), um die Arbeit zu erledigen.

  • Beste Strategie: Zeigen Sie der KI zunächst ein paar Beispiele.
  • Beste KI: Das größte, leistungsfähigste verfügbare Modell.
  • Zeitverschwendung: Die KI dazu bringen, vor der Antwort einen langen Begründungsprozess zu schreiben.

Dieser Ansatz spart Zeit und Aufwand, da er die Notwendigkeit überspringt, Tausende von Trainingsbeispielen zu sammeln und zu labeln, und Entwicklern ermöglicht, ihre Dateiorganisation sofort zu automatisieren.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →