Depth Charge: Jailbreak Large Language Models from Deep Safety Attention Heads
Il paper propone SAHA, un nuovo framework di jailbreak che sfrutta le vulnerabilità negli strati profondi delle Large Language Models intervenendo direttamente sulle attention heads attraverso una strategia di selezione basata sull'impatto dell'ablazione e una perturbazione consapevole dei confini, ottenendo un aumento significativo del tasso di successo rispetto agli stati dell'arte.