Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking
Ce papier présente TFM, une méthode de contournement des filtres de sécurité des modèles texte-vidéo qui exploite une vulnérabilité temporelle en transformant des requêtes dangereuses en prompts fragmentés spécifiant uniquement des images de début et de fin, forçant ainsi le modèle à générer autonomément des contenus préjudiciables dans les cadres intermédiaires.