Story Point Estimation Using Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep ontwikkelaars bent die een nieuw softwareproject begint. Voordat ze kunnen beginnen met bouwen, moeten ze inschatten hoeveel tijd en moeite elke taak kost. In de wereld van agile softwareontwikkeling noemen ze deze schattingen "verhaalpunten" (story points).

Het probleem? Mensen zijn niet goed in het schatten van tijd. Het is vaak subjectief, tijdrovend en iedereen heeft een ander idee. Soms denken ze dat een taak 2 uur duurt, terwijl het er 20 zijn.

Dit onderzoek van studenten van het Rochester Institute of Technology vraagt zich af: Kunnen slimme kunstmatige intelligenties (LLMs) ons helpen deze schattingen te maken, zelfs als ze nog nooit eerder hebben gewerkt aan dit specifieke project?

Hier is de uitleg, vertaald naar alledaagse taal met een paar creatieve vergelijkingen.

1. De Grote Uitdaging: De "Koude Start"

Normaal gesproken moeten computerprogramma's eerst duizenden voorbeelden zien (zoals "taak X duurde 5 uur, taak Y duurde 10 uur") voordat ze zelf iets kunnen voorspellen. Dit is als een kok die pas een gerecht kan koken nadat hij 100 keer heeft geoefend met dezelfde recepten.

Maar wat als je een nieuw project start en nog geen historische data hebt? Dan zit je met een koude start. De onderzoekers wilden weten of moderne AI-modellen (zoals DeepSeek, Kimi, Gemini en OpenAI) dit kunnen oplossen zonder te oefenen.

2. De Experimenten: Vier Manieren om AI te Vragen

De onderzoekers testten vier verschillende manieren om de AI te vragen om te schatten:

Vraag 1: De "Blindganger" (Zero-shot)
- De analogie: Je geeft de AI een beschrijving van een taak en zegt: "Hoe zwaar is dit?" zonder dat je haar ooit iets hebt laten zien.
- Het resultaat: Verbluffend goed! Zelfs zonder enige training wisten deze AI's beter te schatten dan geavanceerde computerprogramma's die wel 80% van de data hadden gezien. Het is alsof een chef-kok die nog nooit in jouw keuken heeft gewerkt, toch precies kan zeggen hoe lang het duurt om een gerecht te maken, puur op basis van de ingrediëntenlijst.
Vraag 2: De "Kleine Hulp" (Few-shot)
- De analogie: Je geeft de AI vijf voorbeelden: "Dit was een kleine taak (2 punten), dit was een grote taak (8 punten)."
- Het resultaat: Dit maakte de AI nog slimmer. Maar er was een belangrijke nuance:
  - Strategie A (Veelvoorkomend): Je geeft voorbeelden van de meest voorkomende taakgroottes.
  - Strategie B (Diversiteit): Je geeft voorbeelden van een heel kleine, een heel grote en een paar middelgrote taken.
  - De les: Strategie B werkt beter. Het is alsof je iemand leert schalen door je te laten zien hoe klein een muis is, hoe groot een olifant is, en hoe groot een hond is. Als je alleen muizen laat zien, denkt de AI dat alles klein is.
Vraag 3: De "Vergelijkings-Test" (Comparative Judgments)
- De achtergrond: Mensen vinden het vaak makkelijker om te zeggen: "Taak A is zwaarder dan Taak B" dan om een getal te bedenken.
- De vraag: Is dit ook makkelijker voor de AI?
- Het resultaat: Nee. Voor mensen is vergelijken makkelijker, maar voor de AI niet. De AI bleek beter in het direct raden van het getal dan in het vergelijken van twee items. De AI heeft blijkbaar een intern "getalgevoel" dat sterker is dan haar vermogen om te vergelijken.
Vraag 4: De "Vergelijkings-Training"
- De vraag: Kunnen we de AI toch trainen met vergelijkingen ("A is zwaarder dan B") om haar te helpen bij het schatten van getallen?
- Het resultaat: Ja! Zelfs als de AI niet goed is in het voorspellen van vergelijkingen, helpt het om voorbeelden van vergelijkingen te geven. Het werkt als een hulplijn. Voor sommige modellen (zoals Gemini) was dit zelfs beter dan het geven van directe getallen. Het is alsof je iemand leert schalen door te zeggen: "Deze steen is zwaarder dan die," in plaats van "Deze steen weegt 5 kilo."

3. De Belangrijkste Conclusies (In Eenvoudig Nederlands)

AI is een natuurtalent: Moderne AI-modellen kunnen al heel goed inschatten hoeveel werk een taak kost, zelfs als ze nog nooit eerder hebben geoefend. Ze hoeven niet eerst duizenden voorbeelden te zien.
Kwaliteit boven kwantiteit: Als je toch een paar voorbeelden wilt geven, zorg dan dat die voorbeelden divers zijn (klein, medium, groot). Als je alleen kleine taken laat zien, raakt de AI in de war.
Mensen en AI zijn verschillend: Mensen vinden het makkelijker om dingen te vergelijken dan om getallen te bedenken. AI doet het juist andersom: ze zijn beter in het raden van getallen dan in het vergelijken.
Geen "één maat past iedereen": Sommige AI-modellen (de "slimme" en zware modellen) werken het beste met directe voorbeelden. Andere, lichtere modellen werken juist beter als je ze vergelijkingen geeft.

Waarom is dit belangrijk?

Stel je voor dat je een nieuw softwareteam start. Je wilt niet urenlang zitten met "Planning Poker" (een spelletje om punten te schatten) en je hebt geen historische data.

Met deze nieuwe methode kun je een AI vragen om de schattingen te doen. Je hoeft haar geen duizenden oude taken te laten zien. Je geeft haar misschien wel vijf voorbeelden van taken uit jouw project (zorg dat er een mix is van makkelijk en moeilijk), en dan kan de AI de rest voor je inschatten.

Dit bespaart tijd, geld en frustratie, en zorgt ervoor dat teams sneller kunnen beginnen met bouwen in plaats van te blijven schatten. Het is alsof je een slimme assistent hebt die je helpt de weg te vinden in een nieuw project, zelfs als je zelf nog geen kaart hebt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het onderzoekspaper "Story Point Estimation Using Large Language Models", geschreven in het Nederlands.

Titel: Story Point Schatting met Grote Taalmodellen (LLMs)

1. Probleemstelling

In agile softwareontwikkeling (Scrum) zijn story points een cruciale, eenheidloze maatstaf voor de inspanning die nodig is om een backlog-item te voltooien. Traditioneel worden deze geschat door ontwikkelaars via methoden zoals Planning Poker. Dit proces is echter:

Subjectief en tijdrovend: Het vereist menselijke expertise en consensus.
Schaalbaarheidsprobleem: Moeilijk te implementeren bij grote teams of nieuwe projecten.
Data-afhankelijk: Bestaande machine learning-modellen (zoals deep neural networks) vereisen grote hoeveelheden gelabelde trainingsdata uit hetzelfde project om goed te presteren. Dit leidt tot het "cold-start"-probleem bij nieuwe projecten waar geen historische data beschikbaar is.

Daarnaast is er onderzoek gedaan naar comparatieve oordelen (waarbij ontwikkelaars twee items vergelijken en bepalen welke meer inspanning vereist, in plaats van een absoluut getal te geven) om de cognitieve last te verlagen. De vraag is of Large Language Models (LLMs) hier baat bij hebben.

2. Methodologie

De auteurs hebben een empirische studie uitgevoerd met de volgende kenmerken:

Dataset: Gegevens van 16 real-world softwareprojecten (uit de dataset van Choetkiertikul et al.), bestaande uit titels en beschrijvingen van backlog-items met bijbehorende ground-truth story points.
Modellen: Vier state-of-the-art LLMs werden getest:
1. DeepSeek-V3.2 (DeepSeek)
2. Gemini Flash Lite (Google)
3. OpenAI GPT-5 Nano
4. Kimi (Moonshot K2)
Experimentele Opzet: De studie beantwoordde vier onderzoeksvragen (RQ) via verschillende prompting-strategieën:
- RQ1 (Zero-shot): Kan een LLM story points voorspellen zonder enige trainingsdata?
- RQ2 (Few-shot met absolute waarden): Verbeteren enkele gelabelde voorbeelden (5 items) de prestaties? Er werden twee selectiestrategieën getest:
  - Count-based: Selectie op basis van de meest voorkomende story point-waarden.
  - Scale-aware: Selectie om de volledige range van story points te dekken (minimaal tot maximaal).
- RQ3 (Comparatieve oordelen): Is het voor LLMs makkelijker om te voorspellen welk item meer inspanning vereist (A > B) dan om een absoluut story point-getal te geven?
- RQ4 (Few-shot met comparatieve oordelen): Kunnen paarsgewijze vergelijkingen dienen als few-shot voorbeelden om de schatting van story points te verbeteren?
Evaluatiemetrics:
- Pearson-correlatiecoëfficiënt ( $\rho$ ): Meet de lineaire relatie tussen voorspelde en werkelijke waarden.
- Spearman's rangcorrelatiecoëfficiënt ( $r_s$ ): Meet de overeenkomst in rangorde (volgorde).
- Accuracy: Voor de comparatieve oordelen.

3. Belangrijkste Bijdragen en Resultaten

A. Zero-shot Prestaties (RQ1)

Resultaat: LLMs kunnen story points schatten zonder enige trainingsdata.
Vergelijking: De beste LLMs (Kimi en DeepSeek) presteerden in zero-shot setting beter dan geavanceerde diepe leermodellen die waren getraind op 80% van de data van hetzelfde project.
Inzicht: LLMs hebben transferable kennis die complexiteitssignalen uit tekst kan halen, zelfs zonder project-specifieke fine-tuning.

B. Few-shot Learning (RQ2)

Resultaat: Het toevoegen van slechts 5 voorbeelden verbetert de prestaties aanzienlijk voor alle modellen.
Strategie: De Scale-aware strategie (diverse waarden over het volledige spectrum) presteerde over het algemeen beter dan de Count-based strategie (meest frequente waarden). Dit suggereert dat het kalibreren van de schaal belangrijker is dan het imiteren van de verdeling.
Verbetering: Voor modellen zoals DeepSeek en Kimi steeg de gemiddelde Pearson-correlatie van ~0,40 naar ~0,46.

C. Comparatieve Oordelen vs. Absolute Schatting (RQ3)

Resultaat: In tegenstelling tot mensen (voor wie vergelijkingen cognitief makkelijker zijn), vinden LLMs het niet makkelijker om comparatieve oordelen te voorspellen dan absolute story points.
Observatie: De impliciete rangorde die voortkomt uit directe story point-schattingen was nauwkeuriger dan expliciete paarvergelijkingen. LLMs lijken intern te vertrouwen op een latente numerieke representatie, zelfs bij het geven van een vergelijking.

D. Comparatieve Oordelen als Supervisie (RQ4)

Resultaat: Hoewel het voorspellen van vergelijkingen niet intrinsiek makkelijker is, fungeren ze wel als effectieve few-shot voorbeelden.
Nuance: Voor krachtige modellen (DeepSeek, Kimi) blijven directe numerieke voorbeelden superieur. Echter, voor het model Gemini Flash Lite presteerde comparatieve few-shot prompting beter dan directe numerieke voorbeelden. Dit suggereert dat relatieve supervisie een krachtige "steun" kan zijn voor minder krachtige of beperkte modellen.

4. Significantie en Conclusies

Koud-start oplossing: LLMs bieden een veelbelovende, kosteneffectieve oplossing voor story point-schatting in data-schaarse scenario's (nieuwe projecten), waarbij ze zelfs zonder trainingsdata beter presteren dan traditionele ML-modellen.
Mens vs. Machine: De studie onthult een fundamenteel verschil in besluitvorming: wat voor mensen intuïtief makkelijker is (vergelijken), is niet per se makkelijker voor LLMs. LLMs lijken beter in het vasthouden van een interne numerieke schaal dan in het expliciet vergelijken.
Praktische Implicaties:
- Voor krachtige modellen: Gebruik een klein aantal diverse, gelabelde voorbeelden (Scale-aware).
- Voor lichtere modellen of om menselijke inspanning te minimaliseren: Gebruik comparatieve oordelen als few-shot voorbeelden. Dit vereist minder cognitieve inspanning van mensen (geen exacte getallen nodig) en kan toch de prestaties van het model verbeteren.
Toekomstperspectief: De auteurs suggereren hybride workflows waarbij menselijke experts relatieve vergelijkingen leveren om lichtgewicht lokale modellen te kalibreren, en onderzoeken het gebruik van Chain-of-Thought (CoT) prompting en meer data voor fine-tuning.

Samenvattend: Deze studie toont aan dat LLMs een robuust alternatief zijn voor agile inspanningsschatting. Ze overtreffen gecontroleerde deep learning-modellen zonder trainingsdata en profiteren sterk van minimale supervisie, waarbij de keuze van de supervisiestrategie (absolute waarden vs. vergelijkingen) afhankelijk is van het specifieke model en de beschikbare resources.

Story Point Estimation Using Large Language Models

1. De Grote Uitdaging: De "Koude Start"

2. De Experimenten: Vier Manieren om AI te Vragen

3. De Belangrijkste Conclusies (In Eenvoudig Nederlands)

Waarom is dit belangrijk?

Titel: Story Point Schatting met Grote Taalmodellen (LLMs)

1. Probleemstelling

2. Methodologie

3. Belangrijkste Bijdragen en Resultaten

4. Significantie en Conclusies

Meer zoals dit

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities