Conventional Commit Classification using Large Language Models and Prompt Engineering

本論文は、ファウショット・プロンプティングを用いたトレーニング不要の大規模言語モデル、特にDeepSeek-R1-32Bがコード差分から従来のコミットを効果的に分類できることを実証し、従来の教師あり機械学習アプローチに対する実用的な代替手段を提供することを示している。

原著者: H. M. Sazzad Quadir, Sakib Al Hasan, Md. Nurul Ahad Tawhid

公開日 2026-05-06✓ Author reviewed
📖 1 分で読めます☕ さくっと読める

原著者: H. M. Sazzad Quadir, Sakib Al Hasan, Md. Nurul Ahad Tawhid

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。 免責事項の全文を読む

あなたは、毎日何千冊もの本が追加される巨大で混沌とした図書館の館長だと想像してください。秩序を保つため、この図書館には厳格なルールがあります:新しい本は背表紙に特定のラベル(「新機能」「バグ修正」「ドキュメント」など)を付けなければなりません。そうすれば、ロボットが自動的に本を分類し、目録を更新し、来館者に何が新しくなったかを伝えることができるのです。

しかし、実際には本を追加する人々はしばしばそのルールを無視します。「何かを直した」や「コードをいくつか変更した」のような乱雑なメモを書き散らすため、ロボットがその本がどのカテゴリに属するかを知ることは不可能になります。

この論文は、何千もの例を何年も勉強させることなく、超スマートなロボット(AI)にその乱雑なメモを読み、正しいラベルを特定させる方法について述べています。

問題:乱雑なメモ vs 厳格なルール

ソフトウェア開発において、プログラマーはコードに変更を加えるたびに「コミットメッセージ(メモ)」を書きます。業界には「Conventional Commits」と呼ばれる標準フォーマットがあり、これは厳格な分類システムのように機能します。メモは特定のタグ(例:feat:fix:)で始まる必要があります。

しかし、人間は乱雑です。タグを忘れることがよくあります。従来の解決策では、研究者は数千のラベル付き例(教科書を暗記する学生のようなもの)をロボットに与えてカスタムロボットを構築していました。これには多くの時間とデータが必要です。

新しいアプローチ:「プロンプト」戦略

ゼロから新しいロボットを訓練する代わりに、著者たちは問いかけました:「非常に賢い既存の AI に、その仕事をさせるための指示(プロンプト)を与えるだけで済むでしょうか?」

彼らは、言語について多くのことを知っているが、正確に何をすべきかを知る必要がある優秀なインターンとして AI を扱いました。指示を与える 3 つの異なる方法をテストしました。

  1. ゼロショット(「ただ教えてくれ」アプローチ):

    • 比喩: インターンに近づき、「これは乱雑なメモだ。ルールに基づいて、これがどのカテゴリに属するか教えてくれ」と言います。例は示しません。
    • 結果: インターンは推測しますが、何を求めているか正確にわからないため、よく間違えます。
  2. フューショット(「例を見せてくれ」アプローチ):

    • 比喩: 「これは『新機能』を意味する乱雑なメモだ。これは『バグ修正』を意味する別のメモだ。さて、この新しい乱雑なメモを見て、それが何であるか教えてくれ」と言います。まずインターンにいくつかの明確な例を見せます。
    • 結果: これが最もうまくいきました。インターンはパターンを素早く理解し、本を正確に分類しました。
  3. 思考連鎖(「声に出して考えろ」アプローチ):

    • 比喩: 「答えをくれる前に、ステップバイステップの推論を書き出してくれ:『「fix」という言葉が見えるので、これはバグ修正だと思う…』」と言います。
    • 結果: 驚いたことに、これは役立ちませんでした。ラベルを分類するというこの特定のタスクでは、インターンに「声に出して考えさせる」ことは、最終的な答えを良くすることなく余分なステップを追加するだけでした。本を棚にしまう前に図書館員にエッセイを書かせるようなもので、結果を改善することなく彼らを遅らせただけでした。

競合者:脳はどれくらい大きく必要か?

研究者たちは、サイズが異なる 3 つの異なる「インターン」(AI モデル)をテストしました。

  • Mistral-7B: 中サイズの脳(70 億パラメータ)。
  • LLaMA-3-8B: 少し大きな脳(80 億パラメータ)。
  • DeepSeek-R1-32B: 巨大な脳(320 億パラメータ)。

発見: 大きな脳が勝ちました。DeepSeek-R1-32B が、乱雑なメモを読み、正しいラベルを見つけるのに最も正確でした。これは、このようなタスクでは、より大きく強力な AI モデルを持つことが実際に大きな違いをもたらすことを示唆しています。

結論

この論文は、乱雑なソフトウェアメモを整理するために、ゼロからカスタム機械学習モデルを構築する必要はないと結論付けています。代わりに、強力な既存の AI を使用し、いくつかの良い例を与える(フューショット・プロンプティング)だけで仕事を済ませることができます。

  • 最良の戦略: まず AI にいくつかの例を見せること。
  • 最良の AI: 利用可能な最大かつ最も強力なモデル。
  • 時間の無駄: 答えを出す前に AI に長い推論プロセスを書かせること。

このアプローチは、訓練例の収集とラベル付けの数千の例を集める必要性をスキップするため、時間と労力を節約し、開発者がすぐにファイル整理を自動化できるようにします。

自分の分野の論文に埋もれていませんか?

研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。

Digest を試す →