Story Point Estimation Using Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o gerente de uma equipe de desenvolvedores de software. Antes de começar um novo projeto, vocês precisam responder a uma pergunta difícil: "Quanto trabalho isso vai dar?".

No mundo ágil, eles não usam horas (como "vai levar 5 horas"), mas sim um sistema chamado Pontos de História. É como se fosse uma unidade de medida relativa: "Esse bug é pequeno, como um grão de arroz (1 ponto). Aquela funcionalidade é gigante, como um elefante (13 pontos)".

O problema é que estimar isso manualmente é chato, demorado e depende muito da opinião de cada um. Às vezes, o time A acha que algo é fácil, e o time B acha que é impossível.

Foi aí que os autores deste estudo (estudantes do RIT, nos EUA) tiveram uma ideia: "E se usarmos a Inteligência Artificial (especificamente os Grandes Modelos de Linguagem, ou LLMs, como o ChatGPT) para fazer essa estimativa?".

Eles queriam saber se a IA conseguiria adivinhar esses pontos sem precisar de um curso longo de treinamento, ou se precisaria de apenas alguns exemplos.

Aqui está a explicação do estudo, usando analogias do dia a dia:

1. O Grande Desafio: A IA precisa de "Escola" ou já sabe?

Antes, para ensinar uma máquina a estimar, você precisava dar a ela milhares de exemplos de projetos passados (como dar milhares de provas antigas para um aluno estudar). Se o projeto fosse novo, a máquina ficava perdida.

Os autores perguntaram: "E se a IA já soubesse tudo o que precisa apenas 'olhando' o problema, sem estudar nada antes?"

A Analogia: Imagine que você tem um professor muito inteligente que leu todos os livros do mundo. Você chega e diz: "Olhe para esta tarefa de consertar um vazamento. Quantos pontos de esforço ela vale?". O professor não precisa ter trabalhado na sua empresa antes; ele usa o que sabe sobre "vazamentos" e "trabalho" para dar uma resposta.
O Resultado: A IA conseguiu fazer isso! Mesmo sem nenhum exemplo do seu projeto específico (o que chamam de Zero-Shot), ela acertou melhor do que modelos antigos que precisavam de 80% dos dados do projeto para estudar.

2. O Poder de "Um Pouquinho de Ajuda" (Few-Shot)

Eles testaram se, dando apenas 5 exemplos para a IA, ela ficaria ainda melhor. É como se você mostrasse para o professor: "Veja, esse vazamento pequeno vale 1 ponto. Esse cano gigante vale 13 pontos. Agora, me diga quanto vale este aqui."

A Analogia: É como dar a um turista um mapa rápido com 5 pontos de referência. De repente, ele entende a escala da cidade muito melhor.
O Resultado: Funcionou muito bem! Com apenas 5 exemplos, a precisão da IA aumentou.
O Segredo: Eles descobriram que não adianta dar 5 exemplos de coisas "normais" (que acontecem o tempo todo). É melhor dar exemplos que cubram todo o espectro: um trabalho muito fácil, um médio e um muito difícil. Isso ajuda a IA a entender a "régua" do projeto.

3. O Grande Mistério: Comparar é mais fácil que Medir?

Existe uma teoria antiga de que é mais fácil para humanos dizerem: "O item A é mais difícil que o item B" do que dizerem "O item A vale 5 pontos". É como dizer "Eu prefiro sorvete de chocolate a morango" (fácil) versus "Quantos pontos de felicidade o chocolate tem?" (difícil).

Eles testaram se a IA também achava mais fácil fazer essa comparação.

A Analogia: Imagine que você pede para a IA: "Qual desses dois carros é mais rápido?". A IA deveria ser ótima nisso.
O Resultado Surpreendente: Não! Para a IA, comparar dois itens foi mais difícil do que dar um número direto.
Por que? Os autores acham que a IA, internamente, já está "pensando em números" o tempo todo. Quando você pede uma comparação, ela tenta converter isso em números na cabeça dela primeiro, o que gera mais erros. Para humanos, comparar é intuitivo; para a IA, calcular o número é o caminho natural.

4. A Solução Criativa: Usar Comparação como "Treino"

Mesmo que a IA não seja boa em responder comparações, será que usar comparações como exemplo de treino ajudaria?

A Analogia: Imagine que você não consegue dar a nota exata de um aluno, mas consegue dizer: "O João foi melhor que a Maria". Você usa essa informação para ensinar a IA a dar as notas.
O Resultado: Funcionou! Mesmo que a IA não seja ótima em comparar, usar comparações como exemplos de treinamento ajudou a melhorar as estimativas finais. E o melhor: é muito mais fácil para os humanos fazerem comparações do que dar notas exatas.

Resumo das Conclusões (O "Pulo do Gato")

A IA é um "Gênio Natural": Você não precisa treinar a IA com milhares de dados do seu projeto. Ela já sabe estimar esforço razoavelmente bem só de ler a descrição da tarefa.
Um Pouco Ajuda Muito: Dar apenas 5 exemplos (escolhidos de forma inteligente, cobrindo do fácil ao difícil) faz a IA acertar muito mais.
IA não é Humana: Humanos acham fácil comparar coisas. A IA acha mais fácil dar números diretos. Não tente forçar a IA a pensar como um humano.
O Futuro é Híbrido: Em projetos novos ou pequenos, onde não há dados históricos, a IA pode ser usada imediatamente. Se a equipe tiver pouco tempo, pode apenas fazer comparações rápidas ("Isso é mais difícil que aquilo") para "ajustar" a IA, e ela dará as estimativas finais.

Em suma: Este estudo mostra que a Inteligência Artificial pode ser uma ferramenta incrível para ajudar times de software a planejar seu trabalho, economizando tempo e reduzindo a subjetividade, mesmo sem ter um histórico gigante de dados para aprender. É como ter um consultor experiente que chega, olha o problema e diz: "Isso vai levar X pontos", e você só precisa confirmar com 5 exemplos rápidos.

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo "Story Point Estimation Using Large Language Models", apresentado em português:

Título: Estimativa de Pontos de História Usando Grandes Modelos de Linguagem (LLMs)

1. Problema Investigado

A estimativa de esforço é fundamental no desenvolvimento de software ágil, influenciando o planejamento de sprints e a alocação de recursos. Os "pontos de história" (story points) são a métrica padrão no Scrum, mas sua atribuição tradicional (ex: Planning Poker) é subjetiva, consome tempo e difícil de escalar.

Abordagens anteriores de aprendizado de máquina (redes neurais profundas) para automatizar essa tarefa enfrentam limitações críticas:

Dependência de Dados: Requerem grandes volumes de dados rotulados (pontos de história atribuídos por humanos) do mesmo projeto para treinamento, o que é escasso em projetos novos ou em evolução rápida (cenários de "cold-start").
Generalização: Modelos treinados em um projeto frequentemente falham ao serem aplicados a outros devido a diferenças de domínio e práticas de desenvolvimento.
Carga Cognitiva: A anotação direta de pontos de história é cognitivamente exigente para os desenvolvedores.

O estudo investiga se os Grandes Modelos de Linguagem (LLMs) podem superar essas barreiras, permitindo estimativas precisas sem dados de treinamento (zero-shot) ou com poucos exemplos (few-shot), e se o uso de julgamentos comparativos (qual item exige mais esforço?) pode ser uma forma mais eficiente de supervisão.

2. Metodologia

Os autores conduziram um estudo empírico sistemático utilizando dados de 16 projetos de software reais (extraídos do JIRA), contendo títulos, descrições e pontos de história atribuídos.

Modelos Avaliados: Quatro LLMs de última geração foram testados:
- DeepSeek-V3.2 (DeepSeek)
- Kimi (Moonshot K2)
- Gemini Flash Lite (Google)
- GPT-5 Nano (OpenAI)
Configuração Experimental:
- Temperatura: Fixada em 0 para minimizar aleatoriedade.
- Métricas de Avaliação: Coeficiente de correlação de Pearson ( $\rho$ ) para alinhamento linear e Coeficiente de correlação de Spearman ( $r_s$ ) para alinhamento de ordem/rank.
Perguntas de Pesquisa (RQs) e Abordagens:
- RQ1 (Zero-Shot): Os LLMs conseguem prever pontos sem nenhum dado de treinamento? (Prompt direto com título/descrição).
- RQ2 (Few-Shot com Pontos): O uso de 5 exemplos rotulados melhora a performance? Foram testadas duas estratégias de seleção:
  - Count-based: Seleção baseada na frequência dos pontos.
  - Scale-aware: Seleção que cobre todo o intervalo de pontos (mínimo a máximo).
- RQ3 (Julgamento Comparativo vs. Direto): É mais fácil para o LLM prever qual item tem mais esforço (comparação binária) do que prever o valor numérico exato?
- RQ4 (Few-Shot com Julgamentos Comparativos): Julgamentos comparativos podem servir como exemplos few-shot eficazes para calibrar a estimativa de pontos?

3. Contribuições Principais

Viabilidade do Zero-Shot: Demonstração de que LLMs podem estimar pontos de história com desempenho superior a modelos de aprendizado profundo supervisionados (treinados com 80% dos dados) sem utilizar nenhum dado de treinamento do projeto específico.
Eficácia do Few-Shot: Validação de que apenas 5 exemplos são suficientes para melhorar significativamente a precisão e a calibração dos modelos.
Análise de Julgamentos Comparativos: Descoberta de que, ao contrário dos humanos, os LLMs não são inerentemente melhores em julgamentos comparativos do que em estimativas diretas. No entanto, esses julgamentos servem como exemplos few-shot altamente eficazes, especialmente para modelos com recursos limitados.
Estratégia de Seleção de Exemplos: Evidência de que exemplos que cobrem a escala completa de esforço (diversidade de escala) são mais eficazes do que exemplos baseados apenas na frequência estatística.

4. Resultados Chave

Desempenho Zero-Shot: Os modelos Kimi e DeepSeek superaram os modelos de base supervisionados em correlação de Spearman e Pearson, respectivamente, sem nenhum treinamento. Isso indica que os LLMs possuem conhecimento prévio transferível sobre complexidade de software.
Melhoria com Few-Shot: A adição de 5 exemplos aumentou consistentemente a performance.
- Para modelos robustos (DeepSeek, Kimi), a estratégia Scale-aware (cobrir o intervalo completo) foi superior à baseada em contagem.
- Para o Gemini, o uso de julgamentos comparativos como exemplos few-shot (RQ4) superou o uso de exemplos numéricos diretos, sugerindo que sinais relativos são mais informativos para modelos menores.
Comparação Humana vs. LLM:
- Humanos acham comparações mais fáceis que estimativas absolutas.
- LLMs não seguem esse padrão: A precisão ao prever diretamente os pontos (e derivar a ordem) foi superior à precisão ao responder diretamente a perguntas de comparação binária. Isso sugere que os LLMs utilizam uma representação numérica latente interna, mesmo quando solicitados a fazer comparações.
Ranking vs. Calibração Absoluta: Os modelos tendem a ser melhores em prever a ordem relativa dos itens (Spearman) do que o valor numérico exato (Pearson), o que é alinhado com a natureza relativa dos pontos de história.

5. Significado e Implicações Práticas

Solução para Cenários de Dados Escassos: LLMs oferecem uma alternativa viável e de baixo custo para a estimativa de esforço em projetos novos ou sem histórico de dados, eliminando a necessidade de grandes conjuntos de dados rotulados.
Redução de Carga Cognitiva: A possibilidade de usar julgamentos comparativos (que são mais fáceis de obter de humanos) como exemplos few-shot para calibrar modelos menores (como o Gemini) abre caminho para fluxos de trabalho híbridos ágeis.
Adaptação de Modelos: Não existe uma solução única. Modelos de alta capacidade (DeepSeek, Kimi) beneficiam-se mais de exemplos diretos com diversidade de escala, enquanto modelos mais leves podem se beneficiar mais de supervisão relativa.
Futuro: O estudo sugere a integração de LLMs em ferramentas de engenharia de requisitos, potencialmente combinando com Chain-of-Thought (CoT) e dados adicionais (como critérios de aceitação e comentários de desenvolvedores) para maior precisão.

Em resumo, o trabalho demonstra que os LLMs representam um avanço significativo na estimativa de esforço ágil, superando limitações de generalização de modelos tradicionais e oferecendo estratégias flexíveis de supervisão que podem ser adaptadas às restrições de dados e recursos de diferentes organizações.

Story Point Estimation Using Large Language Models

1. O Grande Desafio: A IA precisa de "Escola" ou já sabe?

2. O Poder de "Um Pouquinho de Ajuda" (Few-Shot)

3. O Grande Mistério: Comparar é mais fácil que Medir?

4. A Solução Criativa: Usar Comparação como "Treino"

Resumo das Conclusões (O "Pulo do Gato")

Título: Estimativa de Pontos de História Usando Grandes Modelos de Linguagem (LLMs)

1. Problema Investigado

2. Metodologia

3. Contribuições Principais

4. Resultados Chave

5. Significado e Implicações Práticas

Mais como este

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities