Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check
Diese Arbeit stellt „Answer-Then-Check" vor, einen neuartigen Sicherheitsansatz, der durch die Nutzung eines speziell erstellten Reasoned Safety Alignment (ReSA)-Datensatzes Sprachmodelle befähigt, Antworten intern zu generieren und deren Sicherheit kritisch zu prüfen, bevor sie ausgegeben werden, wodurch die Robustheit gegen Jailbreak-Angriffe gesteigert und gleichzeitig die Überverweigerung reduziert wird, ohne die allgemeinen reasoning-Fähigkeiten zu beeinträchtigen.