Hierarchical Refinement of Universal Multimodal Attacks on Vision-Language Models
Die Arbeit stellt die Hierarchische Verfeinerungsangriff (HRA) vor, einen universellen multimodalen Angriffsrahmen für Vision-Language-Modelle, der durch die Nutzung einer zeitlichen Hierarchie von Gradienten für Bilder und eine hierarchische Modellierung der Textbedeutung effiziente und übertragbare Angriffe ermöglicht, die den hohen Rechenaufwand bisheriger, nur auf einzelne Proben zugeschnittener Methoden überwinden.