From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations
Este estudio presenta la primera evaluación sistemática con sujetos humanos que demuestra que, aunque los modelos de lenguaje grandes pueden generar especificaciones Gherkin de alta calidad a partir de normativas de seguridad alimentaria, la presencia de omisiones y alucinaciones hace indispensable una revisión humana sistemática en dominios críticos.