Conventional Commit Classification using Large Language Models and Prompt… — 쉬운 설명

원저자: H. M. Sazzad Quadir, Sakib Al Hasan, Md. Nurul Ahad Tawhid

게시일 2026-05-06✓ Author reviewed ⓘ

📖 3 분 읽기☕ 가벼운 읽기

원저자: H. M. Sazzad Quadir, Sakib Al Hasan, Md. Nurul Ahad Tawhid

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

상상해 보세요. 매일 수천 권의 책이 추가되는 거대하고 혼란스러운 도서관의 관리자가 된 상황을요. 질서를 유지하기 위해 이 도서관에는 엄격한 규칙이 있습니다: 모든 새로운 책은 로봇이 자동으로 분류하고, 카탈로그를 업데이트하며, 방문객에게 새로운 내용을 알려줄 수 있도록 책등에 특정 라벨(예: "새 기능", "버그 수정", "문서화")을 부착해야 합니다.

하지만 현실에서는 책을 추가하는 사람들이 종종 규칙을 무시합니다. 그들은 "그것 수정함"이나 "일부 코드 변경함"과 같은 지저분한 메모를 적어, 로봇이 그 책이 어떤 범주에 속하는지 알 수 없게 만듭니다.

이 논문은 수천 개의 예제를 수년 동안 공부하게 하지 않고도, 이러한 지저분한 메모를 읽고 올바른 라벨을 파악할 수 있도록 초지능 로봇(인공지능)을 가르치는 방법에 관한 것입니다.

문제: 지저분한 메모 vs 엄격한 규칙

소프트웨어 개발에서 프로그래머는 코드 변경 사항을 저장할 때마다 "커밋 메시지"(메모)를 작성합니다. 업계에는 **컨벤셔널 커밋(Conventional Commits)**이라는 표준 형식이 있는데, 이는 엄격한 분류 시스템처럼 작동합니다. 이 형식은 메모가 특정 태그(예: feat:, fix:)로 시작해야 한다고 요구합니다.

하지만 인간은 불규칙합니다. 그들은 종종 태그를 잊어버립니다. 전통적으로 이를 해결하기 위해 연구자들은 수천 개의 레이블이 지정된 예제(교과서를 외우는 학생처럼)를 공급하여 맞춤형 로봇을 구축했습니다. 이는 많은 시간과 데이터가 필요합니다.

새로운 접근법: "프롬프트" 전략

처음부터 새로운 로봇을 훈련시키는 대신, 저자들은 다음과 같이 질문했습니다: 이미 매우 똑똑한 기존 AI 에 작업 수행을 위한 일련의 지시사항(프롬프트)만 주면 될까요?

그들은 AI 를 언어에 대해 이미 많은 것을 알고 있지만 정확히 어떤 작업을 해야 하는지 알아야 하는 천재적인 인턴처럼 취급했습니다. 그들은 지시사항을 전달하는 세 가지 다른 방법을 테스트했습니다:

제로샷 (Just Tell Me 접근법):
- 비유: 인턴에게 다가가 "이 지저분한 메모가 있습니다. 규칙에 기반하여 이것이 어떤 범주에 속하는지 알려주세요"라고 말합니다. 예제는 전혀 주지 않습니다.
- 결과: 인턴이 추측하지만, 정확히 무엇을 원하는지 알지 못해 종종 틀립니다.
퓨샷 (Show Me Examples 접근법):
- 비유: "이 지저분한 메모는 '새 기능'을 의미합니다. 저것은 '버그 수정'을 의미합니다. 이제 이 새로운 지저분한 메모를 보고 그것이 무엇인지 알려주세요"라고 말합니다. 먼저 몇 가지 명확한 예제를 인턴에게 보여줍니다.
- 결과: 이것이 가장 잘 작동했습니다. 인턴은 패턴을 빠르게 이해하고 책을 정확하게 분류했습니다.
생각의 사슬 (Think Out Loud 접근법):
- 비유: "답변을 주기 전에 단계별 추론을 적어주세요: '나는 '수정'이라는 단어를 보았으므로 이것이 버그라고 생각합니다...'"라고 말합니다.
- 결과: 놀랍게도 이는 도움이 되지 않았습니다. 라벨 분류라는 특정 작업의 경우, 인턴에게 "소리를 내어 생각하게" 하는 것은 최종 답변을 개선하지 못한 채 불필요한 단계만 추가했습니다. 이는 책장을 정리하기 전에 도서관 사서에게 에세이를 쓰게 하는 것과 같아, 결과를 개선하지 못한 채 속도를 늦출 뿐이었습니다.

경쟁자들: 두뇌는 얼마나 커야 할까?

연구자들은 크기가 다른 세 가지 "인턴"(AI 모델) 을 테스트했습니다:

Mistral-7B: 중형 두뇌 (70 억 개 파라미터).
LLaMA-3-8B: 약간 더 큰 두뇌 (80 억 개 파라미터).
DeepSeek-R1-32B: 거대한 두뇌 (320 억 개 파라미터).

결론: 더 큰 두뇌가 이겼습니다. DeepSeek-R1-32B가 지저분한 메모를 읽고 올바른 라벨을 찾는 데 가장 정확했습니다. 이는 이러한 유형의 작업에서는 더 크고 강력한 AI 모델을 사용하는 것이 실제로 큰 차이를 만든다는 것을 시사합니다.

결론

이 논문은 지저분한 소프트웨어 메모를 정리하기 위해 처음부터 맞춤형 머신러닝 모델을 구축할 필요가 없다고 결론 내립니다. 대신, 강력하고 기존에 존재하는 AI 를 사용하여 몇 가지 좋은 예제만 제공하면 (퓨샷 프롬래팅) 작업을 완료할 수 있습니다.

최고 전략: 먼저 AI 에게 몇 가지 예제를 보여주세요.
최고 AI: 이용 가능한 가장 크고 강력한 모델.
시간 낭비: 답변하기 전에 AI 에게 긴 추론 과정을 작성하게 하는 것.

이 접근법은 수천 개의 훈련 예제를 수집하고 레이블을 지정할 필요를 건너뛰기 때문에 시간과 노력을 절약하며, 개발자들이 즉시 파일 정리를 자동화할 수 있게 합니다.

Conventional Commit Classification using Large Language Models and Prompt Engineering

문제: 지저분한 메모 vs 엄격한 규칙

새로운 접근법: "프롬프트" 전략

경쟁자들: 두뇌는 얼마나 커야 할까?

결론

기술 요약: 대규모 언어 모델 및 프롬프트 엔지니어링을 활용한 컨벤셔널 커밋 분류

문제 정의

방법론

주요 결과

주요 기여

중요성 및 주장

Conventional Commit Classification using Large Language Models and Prompt Engineering

문제: 지저분한 메모 vs 엄격한 규칙

새로운 접근법: "프롬프트" 전략

경쟁자들: 두뇌는 얼마나 커야 할까?

결론

기술 요약: 대규모 언어 모델 및 프롬프트 엔지니어링을 활용한 컨벤셔널 커밋 분류

문제 정의

방법론

주요 결과

주요 기여

중요성 및 주장

유사한 논문