Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images
Dit paper introduceert Visual Self-Fulfilling Alignment (VSFA), een labelvrije methode die multimodale modellen veiliger maakt door ze te finetunen op neutrale vragen over dreigingsgerelateerde afbeeldingen, waardoor ze een inherente waakzaamheid ontwikkelen zonder expliciete veiligheidslabels.