On the Non-Identifiability of Steering Vectors in Large Language Models
Este artigo demonstra que os vetores de direção usados para controlar o comportamento de grandes modelos de linguagem são fundamentalmente não identificáveis, pois perturbações ortogonais produzem efeitos equivalentes, revelando assim limites intrínsecos na interpretabilidade dessas intervenções.