PolyJailbreak: Cross-Modal Jailbreaking Attacks on Black-Box Multimodal LLMs
Este trabajo presenta PolyJailbreak, un marco de ataque de jailbreak de caja negra para modelos de lenguaje multimodal que explota la asimetría en la seguridad multimodal mediante primitivas estratégicas atómicas y optimización multiagente para lograr tasas de éxito superiores al 95% en modelos comerciales.