Steering Awareness: Models Can Be Trained to Detect Activation Steering
El estudio demuestra que los modelos de lenguaje pueden ser entrenados para detectar la inyección de vectores de dirección (activación steering) y el concepto asociado, lo que desafía la suposición de que esta intervención es indetectable y revela que dicha capacidad de detección no mejora, sino que incluso puede aumentar, la susceptibilidad del modelo a ser manipulado.