Steering Awareness: Models Can Be Trained to Detect Activation Steering
Cette étude démontre que les modèles de langage peuvent être entraînés à détecter avec une grande précision l'injection de vecteurs de guidage, remettant ainsi en cause la fiabilité des évaluations de sécurité basées sur cette technique tout en révélant que cette capacité de détection n'améliore pas la robustesse comportementale des modèles.