Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat je een groep ontwikkelaars bent die een nieuw softwareproject begint. Voordat ze kunnen beginnen met bouwen, moeten ze inschatten hoeveel tijd en moeite elke taak kost. In de wereld van agile softwareontwikkeling noemen ze deze schattingen "verhaalpunten" (story points).
Het probleem? Mensen zijn niet goed in het schatten van tijd. Het is vaak subjectief, tijdrovend en iedereen heeft een ander idee. Soms denken ze dat een taak 2 uur duurt, terwijl het er 20 zijn.
Dit onderzoek van studenten van het Rochester Institute of Technology vraagt zich af: Kunnen slimme kunstmatige intelligenties (LLMs) ons helpen deze schattingen te maken, zelfs als ze nog nooit eerder hebben gewerkt aan dit specifieke project?
Hier is de uitleg, vertaald naar alledaagse taal met een paar creatieve vergelijkingen.
1. De Grote Uitdaging: De "Koude Start"
Normaal gesproken moeten computerprogramma's eerst duizenden voorbeelden zien (zoals "taak X duurde 5 uur, taak Y duurde 10 uur") voordat ze zelf iets kunnen voorspellen. Dit is als een kok die pas een gerecht kan koken nadat hij 100 keer heeft geoefend met dezelfde recepten.
Maar wat als je een nieuw project start en nog geen historische data hebt? Dan zit je met een koude start. De onderzoekers wilden weten of moderne AI-modellen (zoals DeepSeek, Kimi, Gemini en OpenAI) dit kunnen oplossen zonder te oefenen.
2. De Experimenten: Vier Manieren om AI te Vragen
De onderzoekers testten vier verschillende manieren om de AI te vragen om te schatten:
Vraag 1: De "Blindganger" (Zero-shot)
- De analogie: Je geeft de AI een beschrijving van een taak en zegt: "Hoe zwaar is dit?" zonder dat je haar ooit iets hebt laten zien.
- Het resultaat: Verbluffend goed! Zelfs zonder enige training wisten deze AI's beter te schatten dan geavanceerde computerprogramma's die wel 80% van de data hadden gezien. Het is alsof een chef-kok die nog nooit in jouw keuken heeft gewerkt, toch precies kan zeggen hoe lang het duurt om een gerecht te maken, puur op basis van de ingrediëntenlijst.
Vraag 2: De "Kleine Hulp" (Few-shot)
- De analogie: Je geeft de AI vijf voorbeelden: "Dit was een kleine taak (2 punten), dit was een grote taak (8 punten)."
- Het resultaat: Dit maakte de AI nog slimmer. Maar er was een belangrijke nuance:
- Strategie A (Veelvoorkomend): Je geeft voorbeelden van de meest voorkomende taakgroottes.
- Strategie B (Diversiteit): Je geeft voorbeelden van een heel kleine, een heel grote en een paar middelgrote taken.
- De les: Strategie B werkt beter. Het is alsof je iemand leert schalen door je te laten zien hoe klein een muis is, hoe groot een olifant is, en hoe groot een hond is. Als je alleen muizen laat zien, denkt de AI dat alles klein is.
Vraag 3: De "Vergelijkings-Test" (Comparative Judgments)
- De achtergrond: Mensen vinden het vaak makkelijker om te zeggen: "Taak A is zwaarder dan Taak B" dan om een getal te bedenken.
- De vraag: Is dit ook makkelijker voor de AI?
- Het resultaat: Nee. Voor mensen is vergelijken makkelijker, maar voor de AI niet. De AI bleek beter in het direct raden van het getal dan in het vergelijken van twee items. De AI heeft blijkbaar een intern "getalgevoel" dat sterker is dan haar vermogen om te vergelijken.
Vraag 4: De "Vergelijkings-Training"
- De vraag: Kunnen we de AI toch trainen met vergelijkingen ("A is zwaarder dan B") om haar te helpen bij het schatten van getallen?
- Het resultaat: Ja! Zelfs als de AI niet goed is in het voorspellen van vergelijkingen, helpt het om voorbeelden van vergelijkingen te geven. Het werkt als een hulplijn. Voor sommige modellen (zoals Gemini) was dit zelfs beter dan het geven van directe getallen. Het is alsof je iemand leert schalen door te zeggen: "Deze steen is zwaarder dan die," in plaats van "Deze steen weegt 5 kilo."
3. De Belangrijkste Conclusies (In Eenvoudig Nederlands)
- AI is een natuurtalent: Moderne AI-modellen kunnen al heel goed inschatten hoeveel werk een taak kost, zelfs als ze nog nooit eerder hebben geoefend. Ze hoeven niet eerst duizenden voorbeelden te zien.
- Kwaliteit boven kwantiteit: Als je toch een paar voorbeelden wilt geven, zorg dan dat die voorbeelden divers zijn (klein, medium, groot). Als je alleen kleine taken laat zien, raakt de AI in de war.
- Mensen en AI zijn verschillend: Mensen vinden het makkelijker om dingen te vergelijken dan om getallen te bedenken. AI doet het juist andersom: ze zijn beter in het raden van getallen dan in het vergelijken.
- Geen "één maat past iedereen": Sommige AI-modellen (de "slimme" en zware modellen) werken het beste met directe voorbeelden. Andere, lichtere modellen werken juist beter als je ze vergelijkingen geeft.
Waarom is dit belangrijk?
Stel je voor dat je een nieuw softwareteam start. Je wilt niet urenlang zitten met "Planning Poker" (een spelletje om punten te schatten) en je hebt geen historische data.
Met deze nieuwe methode kun je een AI vragen om de schattingen te doen. Je hoeft haar geen duizenden oude taken te laten zien. Je geeft haar misschien wel vijf voorbeelden van taken uit jouw project (zorg dat er een mix is van makkelijk en moeilijk), en dan kan de AI de rest voor je inschatten.
Dit bespaart tijd, geld en frustratie, en zorgt ervoor dat teams sneller kunnen beginnen met bouwen in plaats van te blijven schatten. Het is alsof je een slimme assistent hebt die je helpt de weg te vinden in een nieuw project, zelfs als je zelf nog geen kaart hebt.