Conventional Commit Classification using Large Language Models and Prompt Engineering

Este artigo demonstra que modelos de linguagem grandes sem treinamento, particularmente o DeepSeek-R1-32B usando prompting com poucos exemplos, podem classificar efetivamente commits convencionais a partir de diffs de código, oferecendo uma alternativa prática às abordagens tradicionais de aprendizado de máquina supervisionado.

Autores originais: H. M. Sazzad Quadir, Sakib Al Hasan, Md. Nurul Ahad Tawhid

Publicado 2026-05-06✓ Author reviewed
📖 4 min de leitura☕ Leitura rápida

Autores originais: H. M. Sazzad Quadir, Sakib Al Hasan, Md. Nurul Ahad Tawhid

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você é o gerente de uma biblioteca massiva e caótica, onde milhares de livros são adicionados todos os dias. Para manter as coisas organizadas, a biblioteca tem uma regra estrita: cada novo livro deve ter um rótulo específico em sua lombada (como "Nova Funcionalidade", "Correção de Bug" ou "Documentação") para que robôs possam classificá-los automaticamente, atualizar o catálogo e informar aos visitantes o que há de novo.

No entanto, na realidade, as pessoas que adicionam os livros frequentemente ignoram as regras. Elas rabiscam notas confusas como "consertei a coisa" ou "mudei algum código", tornando impossível para os robôs saberem a qual categoria o livro pertence.

Este artigo trata de ensinar um robô superinteligente (uma IA) a ler essas notas confusas e descobrir o rótulo correto, sem precisar passar anos estudando milhares de exemplos primeiro.

O Problema: Notas Confusas vs. Regras Estritas

No desenvolvimento de software, programadores escrevem "mensagens de commit" (notas) toda vez que salvam alterações em seu código. A indústria possui um formato padrão chamado Conventional Commits que atua como um sistema de arquivamento estrito. Ele exige que as notas comecem com uma tag específica (por exemplo, feat:, fix:).

Mas os humanos são desorganizados. Frequentemente, eles esquecem as tags. Tradicionalmente, para corrigir isso, pesquisadores construíam um robô personalizado alimentando-o com milhares de exemplos rotulados (como um aluno memorizando um livro didático). Isso consome muito tempo e dados.

A Nova Abordagem: A Estratégia do "Prompt"

Em vez de treinar um novo robô do zero, os autores perguntaram: Podemos simplesmente dar a uma IA pré-existente muito inteligente um conjunto de instruções (um "prompt") para fazer o trabalho?

Eles trataram a IA como um estagiário brilhante que já sabe muito sobre linguagem, mas precisa saber exatamente qual tarefa realizar. Eles testaram três maneiras diferentes de dar instruções:

  1. Zero-Shot (A Abordagem "Apenas Me Diga"):

    • A Analogia: Você se aproxima do estagiário e diz: "Aqui está uma nota confusa. Por favor, diga-me a qual categoria ela pertence com base nas regras." Você não dá exemplos.
    • Resultado: O estagiário chuta, mas frequentemente erra porque não sabe exatamente o que você quer.
  2. Few-Shot (A Abordagem "Mostre-me Exemplos"):

    • A Analogia: Você diz: "Aqui está uma nota confusa que significa 'Nova Funcionalidade'. Aqui está outra que significa 'Correção de Bug'. Agora, olhe para esta nova nota confusa e diga-me o que ela é." Você mostra ao estagiário alguns exemplos claros primeiro.
    • Resultado: Isso funcionou melhor. O estagiário entendeu o padrão rapidamente e classificou os livros com precisão.
  3. Chain-of-Thought (A Abordagem "Pense em Voz Alta"):

    • A Analogia: Você diz: "Antes de me dar a resposta, por favor, escreva seu raciocínio passo a passo: 'Vejo a palavra 'fix', então acho que é um bug...'".
    • Resultado: Surpreendentemente, isso não ajudou. Para esta tarefa específica de classificar rótulos, fazer o estagiário "pensar em voz alta" apenas adicionou etapas extras sem melhorar a resposta final. Foi como pedir a um bibliotecário que escrevesse um ensaio antes de guardar um livro; isso o atrasou sem melhorar o resultado.

Os Concorrentes: Quão Grande Precisa Ser o Cérebro?

Os pesquisadores testaram três diferentes "estagiários" (modelos de IA) de tamanhos variados:

  • Mistral-7B: Um cérebro de tamanho médio (7 bilhões de parâmetros).
  • LLaMA-3-8B: Um cérebro ligeiramente maior (8 bilhões de parâmetros).
  • DeepSeek-R1-32B: Um cérebro gigante (32 bilhões de parâmetros).

A Descoberta: O cérebro maior venceu. O DeepSeek-R1-32B foi o mais preciso ao ler as notas confusas e encontrar o rótulo correto. Isso sugere que, para este tipo de tarefa, ter um modelo de IA maior e mais poderoso faz uma diferença real.

A Conclusão

O artigo conclui que você não precisa construir um modelo de aprendizado de máquina personalizado do zero para organizar notas de software confusas. Em vez disso, você pode usar uma IA pré-existente poderosa e simplesmente dar a ela alguns bons exemplos (prompting Few-Shot) para realizar o trabalho.

  • Melhor Estratégia: Mostrar à IA alguns exemplos primeiro.
  • Melhor IA: O modelo mais poderoso e maior disponível.
  • Perda de Tempo: Fazer a IA escrever um longo processo de raciocínio antes de responder.

Esta abordagem economiza tempo e esforço porque elimina a necessidade de coletar e rotular milhares de exemplos de treinamento, permitindo que desenvolvedores automatizem sua organização de arquivos imediatamente.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →