Story Point Estimation Using Large Language Models

Este estudo demonstra que modelos de linguagem grandes (LLMs) superam modelos de aprendizado profundo supervisionados na estimativa de pontos de história sem dados de treinamento e que, embora a previsão de julgamentos comparativos não seja mais fácil, o uso desses julgamentos como exemplos em poucas amostras (few-shot) melhora significativamente a precisão das estimativas.

Pranam Prakash Shetty, Adarsh Balakrishnan, Mengqiao Xu, Xiaoyin Xi, Zhe Yu

Publicado Mon, 09 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o gerente de uma equipe de desenvolvedores de software. Antes de começar um novo projeto, vocês precisam responder a uma pergunta difícil: "Quanto trabalho isso vai dar?".

No mundo ágil, eles não usam horas (como "vai levar 5 horas"), mas sim um sistema chamado Pontos de História. É como se fosse uma unidade de medida relativa: "Esse bug é pequeno, como um grão de arroz (1 ponto). Aquela funcionalidade é gigante, como um elefante (13 pontos)".

O problema é que estimar isso manualmente é chato, demorado e depende muito da opinião de cada um. Às vezes, o time A acha que algo é fácil, e o time B acha que é impossível.

Foi aí que os autores deste estudo (estudantes do RIT, nos EUA) tiveram uma ideia: "E se usarmos a Inteligência Artificial (especificamente os Grandes Modelos de Linguagem, ou LLMs, como o ChatGPT) para fazer essa estimativa?".

Eles queriam saber se a IA conseguiria adivinhar esses pontos sem precisar de um curso longo de treinamento, ou se precisaria de apenas alguns exemplos.

Aqui está a explicação do estudo, usando analogias do dia a dia:

1. O Grande Desafio: A IA precisa de "Escola" ou já sabe?

Antes, para ensinar uma máquina a estimar, você precisava dar a ela milhares de exemplos de projetos passados (como dar milhares de provas antigas para um aluno estudar). Se o projeto fosse novo, a máquina ficava perdida.

Os autores perguntaram: "E se a IA já soubesse tudo o que precisa apenas 'olhando' o problema, sem estudar nada antes?"

  • A Analogia: Imagine que você tem um professor muito inteligente que leu todos os livros do mundo. Você chega e diz: "Olhe para esta tarefa de consertar um vazamento. Quantos pontos de esforço ela vale?". O professor não precisa ter trabalhado na sua empresa antes; ele usa o que sabe sobre "vazamentos" e "trabalho" para dar uma resposta.
  • O Resultado: A IA conseguiu fazer isso! Mesmo sem nenhum exemplo do seu projeto específico (o que chamam de Zero-Shot), ela acertou melhor do que modelos antigos que precisavam de 80% dos dados do projeto para estudar.

2. O Poder de "Um Pouquinho de Ajuda" (Few-Shot)

Eles testaram se, dando apenas 5 exemplos para a IA, ela ficaria ainda melhor. É como se você mostrasse para o professor: "Veja, esse vazamento pequeno vale 1 ponto. Esse cano gigante vale 13 pontos. Agora, me diga quanto vale este aqui."

  • A Analogia: É como dar a um turista um mapa rápido com 5 pontos de referência. De repente, ele entende a escala da cidade muito melhor.
  • O Resultado: Funcionou muito bem! Com apenas 5 exemplos, a precisão da IA aumentou.
  • O Segredo: Eles descobriram que não adianta dar 5 exemplos de coisas "normais" (que acontecem o tempo todo). É melhor dar exemplos que cubram todo o espectro: um trabalho muito fácil, um médio e um muito difícil. Isso ajuda a IA a entender a "régua" do projeto.

3. O Grande Mistério: Comparar é mais fácil que Medir?

Existe uma teoria antiga de que é mais fácil para humanos dizerem: "O item A é mais difícil que o item B" do que dizerem "O item A vale 5 pontos". É como dizer "Eu prefiro sorvete de chocolate a morango" (fácil) versus "Quantos pontos de felicidade o chocolate tem?" (difícil).

Eles testaram se a IA também achava mais fácil fazer essa comparação.

  • A Analogia: Imagine que você pede para a IA: "Qual desses dois carros é mais rápido?". A IA deveria ser ótima nisso.
  • O Resultado Surpreendente: Não! Para a IA, comparar dois itens foi mais difícil do que dar um número direto.
  • Por que? Os autores acham que a IA, internamente, já está "pensando em números" o tempo todo. Quando você pede uma comparação, ela tenta converter isso em números na cabeça dela primeiro, o que gera mais erros. Para humanos, comparar é intuitivo; para a IA, calcular o número é o caminho natural.

4. A Solução Criativa: Usar Comparação como "Treino"

Mesmo que a IA não seja boa em responder comparações, será que usar comparações como exemplo de treino ajudaria?

  • A Analogia: Imagine que você não consegue dar a nota exata de um aluno, mas consegue dizer: "O João foi melhor que a Maria". Você usa essa informação para ensinar a IA a dar as notas.
  • O Resultado: Funcionou! Mesmo que a IA não seja ótima em comparar, usar comparações como exemplos de treinamento ajudou a melhorar as estimativas finais. E o melhor: é muito mais fácil para os humanos fazerem comparações do que dar notas exatas.

Resumo das Conclusões (O "Pulo do Gato")

  1. A IA é um "Gênio Natural": Você não precisa treinar a IA com milhares de dados do seu projeto. Ela já sabe estimar esforço razoavelmente bem só de ler a descrição da tarefa.
  2. Um Pouco Ajuda Muito: Dar apenas 5 exemplos (escolhidos de forma inteligente, cobrindo do fácil ao difícil) faz a IA acertar muito mais.
  3. IA não é Humana: Humanos acham fácil comparar coisas. A IA acha mais fácil dar números diretos. Não tente forçar a IA a pensar como um humano.
  4. O Futuro é Híbrido: Em projetos novos ou pequenos, onde não há dados históricos, a IA pode ser usada imediatamente. Se a equipe tiver pouco tempo, pode apenas fazer comparações rápidas ("Isso é mais difícil que aquilo") para "ajustar" a IA, e ela dará as estimativas finais.

Em suma: Este estudo mostra que a Inteligência Artificial pode ser uma ferramenta incrível para ajudar times de software a planejar seu trabalho, economizando tempo e reduzindo a subjetividade, mesmo sem ter um histórico gigante de dados para aprender. É como ter um consultor experiente que chega, olha o problema e diz: "Isso vai levar X pontos", e você só precisa confirmar com 5 exemplos rápidos.