Robustness Over Time: Understanding Adversarial Examples' Effectiveness on Longitudinal Versions of Large Language Models
Este estudio longitudinal revela que las actualizaciones sucesivas de modelos de lenguaje grandes (como GPT, Llama y Qwen) no garantizan una mejora consistente en su robustez adversarial frente a la mala clasificación, los jailbreaks y las alucinaciones, demostrando que versiones más recientes o de mayor tamaño pueden incluso degradar ciertos aspectos de seguridad.