Safe Transformer: An Explicit Safety Bit For Interpretable And Controllable Alignment
Le papier présente le « Safe Transformer », une approche modulaire qui améliore la sécurité et l'interprétabilité des modèles de langage en insérant un bit de sécurité explicite et contrôlable entre les couches du transformateur, permettant ainsi de séparer clairement les décisions de refus des contenus générés tout en maintenant des performances élevées face aux attaques.