Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check
Este artículo presenta un nuevo enfoque de alineación de seguridad llamado "Answer-Then-Check", respaldado por el conjunto de datos ReSA, que entrena a los modelos de lenguaje para razonar y evaluar críticamente la seguridad de sus respuestas antes de generarlas, logrando así una mayor robustez ante ataques de jailbreak sin comprometer sus capacidades generales ni aumentar las rechazos innecesarios.