Depth Charge: Jailbreak Large Language Models from Deep Safety Attention Heads
El artículo presenta SAHA, un marco de jailbreak a nivel de cabezas de atención que explota vulnerabilidades en capas profundas de modelos de lenguaje abiertos mediante una estrategia de selección de cabezas basada en el impacto de la ablación y perturbaciones conscientes de la frontera, logrando una tasa de éxito superior a los métodos actuales.