BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation
Il paper presenta BlackMirror, un framework innovativo e senza addestramento per il rilevamento di backdoor nei modelli text-to-image in scenari black-box, che individua anomalie semantiche tramite l'allineamento tra istruzioni e risposte visive invece di basarsi sulla similarità delle immagini generate.