Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents
Questo studio propone un quadro di analisi a livelli per esaminare 178 benchmark di modelli linguistici e agenti per il codice, rivelando una significativa disparità nella copertura delle fasi del ciclo di vita del software (con un'enfasi eccessiva sull'implementazione e una scarsa attenzione alla progettazione e ai requisiti) e sottolineando la necessità di strategie anti-contaminazione per garantire valutazioni più robuste e pratiche.