Why LLMs Fail: A Failure Analysis and Partial Success Measurement for Automated Security Patch Generation
Este estudio analiza el rendimiento de los modelos de lenguaje grandes (LLM) en la generación de parches de seguridad para vulnerabilidades Java, revelando que, aunque preservan la funcionalidad, sufre un alto índice de fracaso debido a malentendidos semánticos que comprometen la seguridad, lo que subraya la necesidad de validación rigurosa antes de su despliegue.