Story Point Estimation Using Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Schätzung von Software-Aufgaben mit KI: Ein einfacher Überblick

Stellen Sie sich vor, Sie leiten ein Team von Bauarbeitern, die ein riesiges Haus bauen sollen. Bevor sie loslegen, müssen sie einschätzen: „Wie lange dauert es, die Küche zu verlegen? Wie schwer ist es, das Dach zu decken?" In der Softwareentwicklung nennt man diese Einschätzung „Story Points". Es ist keine genaue Zeitangabe (wie „3 Stunden"), sondern eher ein Gefühl für den Aufwand: Ist das ein kleines „1er"-Projekt oder ein riesiges „13er"-Monster?

Normalerweise sitzen die Entwickler zusammen, diskutieren und werfen imaginäre Pokerchips in die Luft, um sich zu einigen. Das dauert lange und ist oft subjektiv.

Diese Studie fragt nun: Kann eine Künstliche Intelligenz (KI), genauer gesagt ein „Large Language Model" (LLM), das besser und schneller machen? Und zwar ohne dass wir ihr erst tausende Beispiele zeigen müssen?

Hier ist die Geschichte der Studie, einfach erklärt:

1. Das Problem: Der leere Rucksack

Früher mussten Computermodelle lernen, indem man ihnen hunderte von Beispielen zeigte: „Hier ist Aufgabe A, sie hat 5 Punkte. Hier ist Aufgabe B, sie hat 8 Punkte." Das ist wie ein Schüler, der erst 1000 Matheaufgaben lösen muss, bevor er eine neue versteht.
Das Problem: In der echten Welt hat man oft keine 1000 Beispiele. Neue Projekte starten bei Null. Die KI steht mit einem leeren Rucksack da.

2. Die Lösung: Der „Allwissende" KI-Assistent

Die Forscher haben vier sehr starke KI-Modelle (wie DeepSeek, Kimi, Gemini und OpenAI) getestet. Diese Modelle haben bereits Millionen von Büchern, Code und Diskussionen im Internet gelesen. Sie sind wie Super-Schüler, die alles schon einmal irgendwo gehört haben.

Die Frage war: Können diese Super-Schüler eine neue Aufgabe einschätzen, ohne dass wir ihnen vorher Beispiele zeigen? (Das nennt man Zero-Shot).

Das Ergebnis: Ja! Die KI konnte Aufgaben schon ziemlich gut einschätzen, nur weil sie so viel „Weltwissen" hat. Sie lag oft besser als ein Computermodell, das erst mühsam mit 80 % aller Daten eines Projekts trainiert wurde.

3. Der kleine Trick: Ein paar Beispiele reichen

Was passiert, wenn wir der KI nur fünf kleine Beispiele geben? (Das nennt man Few-Shot).
Stellen Sie sich vor, Sie sagen der KI: „Schau mal, diese Aufgabe hier war leicht (3 Punkte), diese hier war schwer (13 Punkte)."

Das Ergebnis: Das war wie ein Blitzlicht für die KI! Die Genauigkeit verbesserte sich enorm.

Wichtiges Detail: Es war besser, Beispiele zu wählen, die die ganze Bandbreite abdecken (eine sehr leichte, eine mittlere, eine sehr schwere), als nur die häufigsten Beispiele zu nehmen. Es ist wie beim Kalibrieren einer Waage: Man braucht Gewichte von 1 kg bis 100 kg, nicht nur viele 1-kg-Gewichte.

4. Der Vergleich: Ist „Vergleichen" einfacher als „Zählen"?

Es gibt eine alte Theorie: Menschen finden es leichter zu sagen: „Aufgabe A ist schwerer als Aufgabe B", als eine genaue Punktzahl zu nennen. (Wie beim Weinproben: „Dieser Wein ist besser als jener" ist einfacher als „Dieser Wein hat 92 Punkte").

Die Forscher haben die KI getestet:

Frage: Ist es für die KI einfacher, zwei Aufgaben zu vergleichen, oder eine Punktzahl zu nennen?
Ergebnis: Nein! Im Gegensatz zu Menschen ist es für die KI nicht einfacher, zu vergleichen. Die KI scheint im Inneren immer noch wie ein Mathematiker zu denken, der Zahlen berechnet, auch wenn man sie nur zum Vergleichen auffordert. Sie mag die direkte Punktzahl lieber.

ABER: Auch wenn das Vergleichen für die KI nicht „einfacher" ist, kann man diese Vergleiche trotzdem nutzen! Wenn man der KI fünf Beispiele gibt, bei denen steht: „Aufgabe A ist schwerer als B", hilft das der KI trotzdem, ihre Schätzungen zu verbessern. Es ist wie ein Gerüst, das ihr hilft, sich zu orientieren.

5. Was bedeutet das für die Praxis?

Keine Angst vor neuen Projekten: Man muss nicht warten, bis man genug Daten hat. Eine moderne KI kann sofort helfen, auch am ersten Tag eines Projekts.
Wenig Aufwand, viel Gewinn: Wenn man der KI nur fünf kleine Beispiele (oder fünf Vergleiche) gibt, wird sie zum Experten für genau dieses Projekt.
Nicht jede KI ist gleich: Manche KIs (wie DeepSeek) brauchen klare Zahlenbeispiele. Andere, leichtere KIs (wie Gemini) profitieren sogar mehr davon, wenn man ihnen nur sagt: „Das ist schwerer als das".
Die KI ist kein Mensch: Menschen finden Vergleiche intuitiv. KIs sind wie Rechenmaschinen, die auch Vergleiche in Zahlen umwandeln. Aber das Ergebnis ist trotzdem gut!

Fazit

Diese Studie zeigt, dass wir KI nutzen können, um den langweiligen und schwierigen Teil der Softwareplanung zu automatisieren. Wir müssen der KI nicht alles beibringen; sie bringt schon viel mit. Mit ein paar kleinen Hinweisen (den „Few-Shot"-Beispielen) wird sie zum perfekten Assistenten, der hilft, den Aufwand für Softwareprojekte realistisch einzuschätzen – schneller, günstiger und oft genauer als bisherige Methoden.

Es ist, als hätte man einen erfahrenen Architekten, der sofort weiß, wie schwer ein Bau ist, nur weil er schon tausende Häuser gesehen hat, und mit ein paar kurzen Hinweisen auf den Bauplan perfekt wird.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Story Point Estimation Using Large Language Models" auf Deutsch:

1. Problemstellung

Die Aufwandsschätzung (Effort Estimation) ist ein kritischer Bestandteil agiler Softwareentwicklung, insbesondere für die Sprint-Planung und Ressourcenallokation. Die gängige Methode, Story Points, ist eine relative, einheitenlose Maßeinheit für den Entwicklungsaufwand.

Herausforderungen: Die manuelle Schätzung durch Entwickler (z. B. via Planning Poker) ist subjektiv, zeitaufwendig und schwer skalierbar.
Limitationen bestehender ML-Ansätze: Traditionelle maschinelle Lernmodelle (z. B. tiefe neuronale Netze, Transformer wie GPT2SP) benötigen große Mengen an gelabelten Trainingsdaten aus demselben Projekt, um gute Vorhersagen zu treffen. In der Praxis sind diese Daten oft knapp, teuer zu beschaffen oder für neue Projekte („Cold-Start"-Szenarien) gar nicht vorhanden. Zudem leiden diese Modelle oft unter mangelnder Generalisierbarkeit über verschiedene Projekte hinweg.
Alternative: Ein Ansatz zur Reduzierung der kognitiven Last bei der Annotation ist der Einsatz von vergleichenden Urteilen (Comparative Judgments), bei denen Entwickler nur entscheiden, welches von zwei Items mehr Aufwand erfordert, anstatt absolute Story-Point-Werte zu vergeben.

Die Studie untersucht, ob Large Language Models (LLMs) diese Limitationen überwinden können, indem sie Schätzungen ohne oder mit nur wenigen Trainingsdaten durchführen, und ob vergleichende Urteile als Supervisionssignal effektiver sind als direkte Schätzungen.

2. Methodik

Die Autoren führten eine systematische empirische Studie mit 16 realen Softwareprojekten durch, basierend auf einem bestehenden Datensatz (Choetkiertikul et al.) mit Issue-Titeln und -Beschreibungen.

Verwendete Modelle:
Es wurden vier verschiedene, kommerziell verfügbare LLMs getestet:

DeepSeek-V3.2 (DeepSeek)
Gemini Flash Lite (Google)
OpenAI GPT-5 Nano (OpenAI)
Kimi (Moonshot K2) (Moonshot AI)

Forschungsfragen (RQ) und Experimente:

RQ1 (Zero-Shot): Wie gut können LLMs Story Points vorhersagen, ohne jegliche Trainingsdaten?
- Setup: Zero-Shot-Prompts, bei denen nur die Issue-Beschreibung als Eingabe dient.
RQ2 (Few-Shot mit Story Points): Verbessern wenige Beispiele die Vorhersage?
- Setup: Few-Shot-Prompts mit 5 Beispielen. Zwei Strategien wurden verglichen:
  - Count-based: Auswahl basierend auf der Häufigkeit der Story-Point-Werte.
  - Scale-aware: Auswahl, die den gesamten Wertebereich (Min bis Max) abdeckt.
RQ3 (Vergleichende Urteile vs. Direkte Schätzung): Ist es für LLMs einfacher, vergleichende Urteile (Item A > Item B?) vorherzusagen als absolute Werte?
- Setup: Direkter Vergleich der Genauigkeit bei Pairwise-Vergleichen im Zero-Shot-Modus.
RQ4 (Few-Shot mit vergleichenden Urteilen): Können vergleichende Urteile als Few-Shot-Beispiele dienen, um die Schätzung zu verbessern?
- Setup: Few-Shot-Prompts, bei denen die Beispiele aus Paaren und deren relativer Entscheidung bestehen, nicht aus absoluten Werten.

Auswertungsmetriken:

Pearson-Korrelation ( $\rho$ ): Misst die lineare Übereinstimmung zwischen vorhergesagten und tatsächlichen Werten.
Spearman-Rangkorrelation ( $r_s$ ): Misst die Übereinstimmung der Rangfolge (Ordnung) der Werte.
Genauigkeit (Accuracy): Für die Vorhersage von vergleichenden Urteilen.

3. Wichtige Beiträge und Ergebnisse

A. Leistung ohne Trainingsdaten (Zero-Shot)

Ergebnis: LLMs (insbesondere Kimi und DeepSeek) erreichen ohne jegliches Training eine Leistung, die der von überwachtem Deep Learning (trainiert auf 80% der Daten) überlegen ist.
Detail: Kimi und DeepSeek erzielten im Durchschnitt höhere Pearson- und Spearman-Korrelationen als die besten Baseline-Modelle, die auf gelabelten Daten trainiert wurden.
Bedeutung: LLMs besitzen bereits transferierbares Vorwissen über Komplexität und Aufwand, das aus Titeln und Beschreibungen extrahiert werden kann.

B. Einfluss von Few-Shot-Lernen

Ergebnis: Die Bereitstellung von nur 5 Beispielen verbessert die Vorhersageleistung aller vier Modelle signifikant.
Strategie: Die Scale-aware-Strategie (Abdeckung des gesamten Wertebereichs) war im Durchschnitt effektiver als die Count-based-Strategie (Häufigkeitsbasiert). Dies zeigt, dass es für die Kalibrierung wichtiger ist, extreme Werte (sehr einfach vs. sehr komplex) zu sehen, als nur die häufigsten Werte.
Besonderheit: Modelle mit schwächerer Zero-Shot-Leistung (Gemini, OpenAI) profitierten am stärksten von Few-Shot-Beispielen.

C. Vergleichende Urteile vs. Direkte Schätzung

Ergebnis (RQ3): Im Gegensatz zu menschlichen Entwicklern ist es für LLMs nicht einfacher, vergleichende Urteile zu treffen als direkte Schätzungen.
Detail: Die implizite Rangfolge, die sich aus direkten Zero-Shot-Schätzungen ableitet, war genauer als die explizite Vorhersage von „A > B". Dies deutet darauf hin, dass LLMs intern eine latente numerische Repräsentation nutzen, auch wenn sie nur Vergleiche angefordert bekommen.
Ergebnis (RQ4): Obwohl vergleichende Urteile nicht „einfacher" zu lernen sind, dienen sie als hochwirksame Few-Shot-Supervision.
- Für Gemini waren vergleichende Urteile sogar effektiver als direkte gelabelte Beispiele.
- Für die anderen Modelle (DeepSeek, Kimi) waren direkte Beispiele leicht überlegen, aber vergleichende Urteile brachten dennoch signifikante Verbesserungen gegenüber dem Zero-Shot-Baseline.

D. Rangfolge vs. Absolute Kalibrierung

LLMs sind konsistent besser darin, die relative Rangfolge (welches Item ist aufwendiger?) vorherzusagen, als die exakten numerischen Werte zu treffen. Dies spiegelt die Natur von Story Points wider, die projektbezogen und relativ sind.

4. Signifikanz und Implikationen

Lösung für Datenknappheit: LLMs bieten eine vielversprechende, kostengünstige Alternative für die Aufwandsschätzung, insbesondere in Szenarien mit wenig oder keinen historischen Daten (Cold-Start).
Effiziente Annotation: Da vergleichende Urteile für Menschen kognitiv weniger belastend sind und LLMs diese als Few-Shot-Beispiele effektiv nutzen können, können Teams Schätzprozesse optimieren, indem sie Teams bitten, nur relative Vergleiche anzustellen, um ein Modell zu kalibrieren.
Modellabhängige Strategien: Es gibt keine „One-Size-Fits-All"-Lösung.
- Hochleistungsmodelle (DeepSeek, Kimi) profitieren am meisten von direkten, skalenbewussten Beispielen.
- Ressourcenbeschränkte Modelle (Gemini Flash Lite) profitieren stark von vergleichenden Urteilen als Scaffolding.
Praktische Anwendung: Die Ergebnisse unterstützen die Einführung hybrider Workflows, bei denen menschliche Experten minimale relative Vergleiche liefern, um automatisierte LLM-basierte Schätzungen zu kalibrieren, ohne den Aufwand vollständiger manueller Schätzungen zu tragen.

Fazit

Die Studie demonstriert, dass Large Language Models das Potenzial haben, die traditionelle Story-Point-Schätzung zu revolutionieren. Sie funktionieren überraschend gut ohne Trainingsdaten und können durch wenige, strategisch ausgewählte Beispiele (sowohl direkte Werte als auch vergleichende Urteile) stark verbessert werden. Dies macht sie zu einem robusten Werkzeug für agile Teams, die mit limitierten Daten oder Ressourcen konfrontiert sind.

Story Point Estimation Using Large Language Models

1. Das Problem: Der leere Rucksack

2. Die Lösung: Der „Allwissende" KI-Assistent

3. Der kleine Trick: Ein paar Beispiele reichen

4. Der Vergleich: Ist „Vergleichen" einfacher als „Zählen"?

5. Was bedeutet das für die Praxis?

Fazit

1. Problemstellung

2. Methodik

3. Wichtige Beiträge und Ergebnisse

A. Leistung ohne Trainingsdaten (Zero-Shot)

B. Einfluss von Few-Shot-Lernen

C. Vergleichende Urteile vs. Direkte Schätzung

D. Rangfolge vs. Absolute Kalibrierung

4. Signifikanz und Implikationen

Fazit

Mehr davon

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities