Safe Transformer: An Explicit Safety Bit For Interpretable And Controllable Alignment
Het paper introduceert de Safe Transformer, een modulaire aanpak die een expliciete veiligheidsbit in taalmodellen integreert om zowel de interpretatie van veiligheidsbeslissingen als de controle over het gedrag van het model te verbeteren zonder volledige hertraining.