Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check
Il paper introduce "Answer-Then-Check", un nuovo approccio di allineamento alla sicurezza che addestra i modelli linguistici a generare una risposta interna e valutarne la sicurezza prima di rispondere all'utente, migliorando così la robustezza contro gli attacchi jailbreak e riducendo i falsi rifiuti senza compromettere le capacità di ragionamento generale.