The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs
Questo studio analizza meccanicisticamente le vulnerabilità ai jailbreak nei modelli linguistici di grandi dimensioni, rivelando che il successo degli attacchi basati sul completamento del testo deriva dalla competizione interna tra la spinta naturale del modello a continuare il discorso e le difese di sicurezza apprese durante l'addestramento, un fenomeno identificato attraverso l'analisi delle testine di attenzione.