Can ChatGPT Generate Realistic Synthetic System Requirement Specifications? Results of a Case Study

Dit onderzoek toont aan dat ChatGPT, ondanks beperkingen zoals hallucinaties, in staat is om realistische synthetische systeemvereistenspecificaties te genereren, hoewel grondige expertevaluatie onvermijdelijk blijft.

Alex R. Mattukat, Florian M. Braun, Horst Lichter

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De "Fictieve Architect": Kunnen AI's echte bouwplannen maken zonder een echt huis te zien?

Stel je voor dat je een groep architecten wilt trainen om nieuwe gebouwen te ontwerpen. Normaal gesproken zouden ze kijken naar bestaande, echte blauwdrukken van ziekenhuizen, scholen of fabrieken om te leren hoe die eruitzien. Maar er is een groot probleem: die echte blauwdrukken zijn geheim. Ze liggen opgesloten in kluisjes van bedrijven vanwege privacy of handelsgeheimen.

De onderzoekers van dit papier (Alex, Florian en Horst) dachten: "Wat als we een slimme AI, zoals ChatGPT, vragen om die blauwdrukken zelf te verzinnen?"

Ze noemen deze verzonnen blauwdrukken SSyRS (Synthetische Systeem Specificaties). De grote vraag was: Kan een AI, zonder ooit een echt document te hebben gezien, een nep-document maken dat zo goed is dat zelfs een echte expert er niet doorheen prikt?

Hier is hoe ze dit hebben onderzocht, vertaald naar alledaags taal:

1. De Opdracht: De "Geheime Architect"

De onderzoekers gaven ChatGPT een taak. Ze zeiden: "Maak een bouwplan voor een systeem in de logistiek, een in de gezondheidszorg, een in het onderwijs, enzovoort."
Ze gaven de AI een sjabloon (een soort invulformulier) en zeiden: "Vul dit in alsof je een ervaren ingenieur bent, maar gebruik geen echte data."

Het was als het geven van een opdracht aan een schrijver: "Schrijf een verhaal over een ruimtevaartuig, maar je mag geen bestaande boeken lezen." De AI moest alles uit zijn eigen "hoofd" (of beter: zijn trainingsdata van internet) halen.

2. Het Probleem: De "Zekerheidsval"

AI's hebben een rare eigenschap: ze zijn overmoedig. Zelfs als ze iets verzonnen (wat ze "hallucineren" noemen), zeggen ze het met een strakke, zelfverzekerde stem.

  • Het gevaar: De AI zegt: "Het systeem moet 10.000 gebruikers per seconde aankunnen!" terwijl dat in de echte wereld onmogelijk is. Maar omdat de zin zo goed klinkt en de AI zo zeker klinkt, denk je: "Oh, dat moet wel waar zijn."
  • De onderzoekers wilden weten of ze deze valstrik konden omzeilen door slimme vragen (prompten) te stellen.

3. De Methode: De "Drie-Check"

Ze lieten de AI 300 van deze "nep-ontwerpen" maken. Om te controleren of ze goed waren, gebruikten ze drie stappen:

  1. De Checklist: Kijk of alle vakjes in het formulier zijn ingevuld. (Dit ging goed).
  2. De "Niet-Te-Vergelijkbaar"-Check: Zorg dat de 300 ontwerpen niet allemaal exact hetzelfde zijn. Ze moesten divers zijn, zoals 300 verschillende auto's, niet 300 exacte kopieën van dezelfde Ford.
  3. De "Realiteits-Check": De AI mocht zichzelf beoordelen: "Hoe realistisch is dit?"

Het verrassende resultaat: De AI's oordeelden over zichzelf als "zeer realistisch" (ongeveer 80-90% goed). Maar...

4. De Menselijke Test: De "Echte Expert"

De onderzoekers stuurden 87 echte experts (mensen die jarenlang werken in software en engineering) naar de "tentoonstelling" van deze 300 ontwerpen. Ze vroegen: "Ziet dit eruit als een echt document?"

  • Het oordeel: 62% van de experts zei: "Ja, dit ziet er best realistisch uit."
  • Maar... toen de experts dieper keken (zoals een bouwkundige die de fundering controleert), zagen ze de gaten.
    • Sommige eisen waren te vaag ("Het moet snel zijn" – hoe snel precies?).
    • Sommige dingen waren logisch onmogelijk (een systeem dat in de EU werkt, maar met regels die alleen in Amerika gelden).
    • Sommige eisen waren te ambitieus ("We hebben 15.000 gebruikers nodig voor de allereerste versie" – dat is onrealistisch voor een start-up).

5. De Grote Les: De "Gouden Kooi" van de AI

De onderzoekers ontdekten iets belangrijks:

  • De AI is een goede "schrijver", maar een slechte "controleur". Als je de AI vraagt: "Is dit document goed?", zegt hij "Ja" met een glimlach, ook als het vol fouten zit. Hij is te zelfverzekerd.
  • Mensen zijn nodig. Alleen een mens kan zien of een zinnetje "klinkt" als een echte engineer, maar ook of de inhoud echt klopt.
  • De "Zekerheidsval" werkt. De manier waarop AI's schrijven (strak, zelfverzekerd, vol vakjargon) maakt dat we geneigd zijn om ze te geloven, zelfs als ze onzin praten.

Conclusie in één zin

Je kunt ChatGPT gebruiken om een ruwe schets van een systeem te maken die er heel professioneel uitziet (zoals een prachtig geschilderd schilderij van een huis), maar je kunt die schets niet gebruiken om een echt huis te bouwen zonder dat een echte mens (de expert) eerst de fundering en de muren heeft gecontroleerd.

De AI is een geweldige ideeën-generator, maar nog geen verantwoordelijke architect.