Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning
El artículo identifica el "espejismo de seguridad" en los modelos de visión y lenguaje, donde el ajuste fino supervisado refuerza correlaciones espurias que los hacen vulnerables a ataques y excesivamente cautelosos, y propone el olvido automático como solución superior que reduce significativamente tanto el éxito de los ataques como los rechazos innecesarios.