The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs
Cette étude propose une analyse mécanistique des attaques de contournement (jailbreak) déclenchées par la continuation dans les grands modèles de langage, révélant que leur succès résulte d'une compétition intrinsèque entre la tendance du modèle à poursuivre le texte et ses défenses de sécurité, tout en identifiant des têtes d'attention critiques dont les comportements varient selon les architectures.