Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety
Este estudio demuestra que las condiciones de evaluación, especialmente el formato de las preguntas, influyen más en las puntuaciones de seguridad de los modelos de lenguaje que la arquitectura de los andamios de despliegue, revelando que las clasificaciones de seguridad carecen de fiabilidad generalizable y exigen pruebas específicas para cada modelo y configuración.