Steering Awareness: Models Can Be Trained to Detect Activation Steering
O artigo demonstra que modelos de linguagem podem ser treinados para detectar e identificar vetores de direcionamento de ativação, revelando que essa intervenção não é invisível e que a capacidade de detecção não garante robustez comportamental, o que questiona a confiabilidade de avaliações de segurança baseadas em direcionamento.