The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs
Deze studie onthult dat jailbreaks in grote taalmodellen voortkomen uit een mechanische strijd tussen de inherente neiging van het model om tekst voort te zetten en de veiligheidsverdedigingen die door training zijn opgebouwd, waarbij de verplaatsing van een voortzettingstrigger de succeskans aanzienlijk vergroot.