Steering Awareness: Models Can Be Trained to Detect Activation Steering
Lo studio dimostra che i modelli linguistici possono essere addestrati a rilevare con alta precisione l'iniezione di vettori di steering, sfatando l'ipotesi che tale intervento rimanga impercettibile e rivelando che la capacità di rilevamento non garantisce affatto una maggiore robustezza comportamentale contro le manipolazioni.