Safe Transformer: An Explicit Safety Bit For Interpretable And Controllable Alignment
Der Safe Transformer ist ein modularer Ansatz, der durch die Einführung eines expliziten, interpretierbaren und steuerbaren Sicherheitsbits zwischen den Transformer-Schichten eine transparente und kontrollierbare Ausrichtung von Sprachmodellen ermöglicht, ohne dass ein vollständiges Neutrainieren erforderlich ist.