Steering Awareness: Models Can Be Trained to Detect Activation Steering
Die Studie zeigt, dass Sprachmodelle durch Feinabstimmung lernen können, Eingriffe durch Aktivitätssteuerung zu erkennen und die eingefügten Konzepte zu identifizieren, was die Annahme widerlegt, dass solche Manipulationen für das Modell unsichtbar bleiben, und gleichzeitig die langfristige Zuverlässigkeit von steuerungsbasierten Sicherheitsbewertungen infrage stellt.