On the Non-Identifiability of Steering Vectors in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um grande orquestra (o Modelo de Linguagem) e quer mudar a "personalidade" da música que ela toca. Talvez você queira que a música soe mais séria, mais educada ou mais engraçada.

Para fazer isso, os pesquisadores usam uma técnica chamada "Direcionamento de Ativação" (Steering). Eles pegam um "bastão mágico" (um vetor matemático) e o adicionam à música no meio da execução para mudar o tom.

Até agora, todos achavam que esse bastão mágico era único. Acreditavam que, se você encontrasse o bastão perfeito para "sério", ele seria o único bastão que funcionava, e que ele revelava um segredo profundo sobre como a mente da IA funciona.

A grande descoberta deste papel é: Isso não é verdade.

Aqui está a explicação simples do que os autores descobriram:

1. O Mistério do "Bastão Invisível" (A Não-Identificabilidade)

Os autores provaram matematicamente que não existe um único bastão mágico. Na verdade, existem infinitos bastões diferentes que produzem exatamente o mesmo resultado na música final.

A Analogia do Projetor de Cinema:
Imagine que você tem um projetor de cinema (o Modelo de IA) e uma tela (a resposta final).

Você está segurando um objeto (o vetor de direção) na frente do projetor para mudar a imagem na tela.
O que a tela vê é apenas a sombra do objeto.
O problema é que você pode segurar o objeto de lado, de frente, ou adicionar uma peça extra que fica escondida atrás do objeto (no "espaço nulo"), e a sombra na tela continua exatamente a mesma.

O papel diz que os pesquisadores estão tentando adivinhar a forma exata do objeto apenas olhando para a sombra. É impossível! Você pode ter um objeto cúbico, um objeto esférico ou um objeto com um rabo escondido, e se a sombra for a mesma, a IA não consegue distinguir a diferença.

2. A Prova Experimental: O "Toque de Toque"

Para provar isso na prática, os pesquisadores fizeram um teste simples:

Eles encontraram um vetor (bastão) que fazia a IA falar de forma educada.
Em seguida, eles pegaram um pedaço aleatório de "barulho" (uma direção matemática perpendicular) e o adicionaram ao bastão original.
O resultado? A IA continuou falando exatamente da mesma forma educada.

Foi como se você tivesse uma receita de bolo perfeita. Alguém adicionou uma pitada de sal extra que, teoricamente, deveria mudar o gosto. Mas o bolo saiu com o mesmo sabor exato. Isso significa que a "pitada de sal" (a parte do vetor que os pesquisadores achavam que era importante) não estava realmente controlando o sabor; era apenas um detalhe invisível para o paladar da IA.

3. Por que isso é importante? (O Perigo da Ilusão)

Muitas pessoas acham que, ao encontrar esses vetores, elas estão descobrindo a "verdadeira essência" da IA (como se a IA tivesse um "cérebro" onde a honestidade é um botão específico).

Este papel diz: Cuidado!

Não é uma descoberta única: Você pode estar apenas explorando um caminho aleatório que funciona por sorte, não porque é o "caminho da verdade".
É frágil: Se você mudar um pouco o contexto (pedir para a IA ser educada em um e-mail médico vs. em uma piada), o vetor que funcionava antes pode falhar, porque ele não era uma "verdadeira" representação, apenas uma coincidência geométrica.
Ilusão de Controle: A IA obedece ao comando, mas não significa que entendemos como ela obedece. É como se você pudesse abrir a porta da casa com 10 chaves diferentes, mas você não sabe qual delas realmente destranca a fechadura e qual apenas empurra a porta (que já estava trincada).

Resumo em uma frase:

Este estudo mostra que tentar entender a "mente" da Inteligência Artificial apenas observando como ela responde a comandos é como tentar adivinhar a forma de um objeto olhando apenas para sua sombra: você pode estar vendo o resultado certo, mas a explicação por trás dele é fundamentalmente ambígua e pode ser infinitamente diferente.

Para confiar realmente no que estamos fazendo com a IA, precisamos de mais do que apenas testar se a resposta mudou; precisamos de regras estruturais que garantam que estamos tocando no botão certo, e não apenas empurrando a porta.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Motivação

Os métodos de direcionamento de ativação (activation steering) tornaram-se uma técnica popular para controlar o comportamento de Grandes Modelos de Linguagem (LLMs), como adicionar vetores aprendidos às ativações intermediárias para alterar traços semânticos (ex: formalidade, tom, personalidade).

A interpretação comum assume que esses vetores de direção correspondem a fatores latentes únicos e significativos dentro do modelo, permitindo um controle causal confiável. No entanto, os autores questionam essa premissa fundamental:

Questão Central: Os vetores de direção são identificáveis? Ou seja, é possível recuperar um vetor único e causalmente válido a partir apenas do comportamento de entrada-saída do modelo?
Hipótese: O artigo argumenta que, sob acesso de "caixa-branca" a uma única camada, os vetores de direção são fundamentalmente não identificáveis. Existem classes de equivalência infinitas de vetores geometricamente distintos que produzem o comportamento observável idêntico.

2. Metodologia e Configuração Teórica

O trabalho combina uma análise teórica formal com validação empírica rigorosa.

A. Configuração Formal

Modelo: Considera-se um modelo transformer pré-treinado $f_\theta$ com $L$ camadas.
Intervenção: Um vetor de direção $v$ é adicionado à representação oculta $h_\ell$ em uma camada $\ell$ : $\tilde{h}_\ell = h_\ell + \alpha v$ .
Regimes de Observação:
1. Caixa-Preta: Apenas pares (entrada, saída).
2. Caixa-Branca (Foco do trabalho): Acesso às ativações de uma camada específica, permitindo a extração de vetores a partir de pares de prompts contrastivos.
Aproximação Linear: O efeito do direcionamento nos logits de saída é aproximado localmente como $o \approx o_0 + \alpha J_\ell v$ , onde $J_\ell$ é a Jacobiana da saída em relação à ativação.

B. Definição de Não-Identificabilidade

Dois vetores $v$ e $v'$ são observacionalmente equivalentes se produzem a mesma distribuição de saídas para todos os prompts e forças de direcionamento.

Mecanismo Chave (Ambiguidade do Espaço Nulo): Se $v_0$ pertence ao espaço nulo da Jacobiana ( $J_\ell v_0 = 0$ ), então o vetor perturbado $v' = v + v_0$ produzirá exatamente a mesma saída linearizada que $v$ .
Como a dimensão do espaço oculto ( $d$ ) é tipicamente maior que a rank efetiva da Jacobiana (devido à sobreparametrização), o espaço nulo é não trivial, permitindo infinitas variações de $v$ que são indistinguíveis comportamentalmente.

C. Validação Empírica

Os autores testaram a predição teórica de que perturbações ortogonais ao vetor original não alteram significativamente o comportamento:

Modelos: Qwen2.5-3B-Instruct e Llama-3.1-8B-Instruct.
Camadas: Camadas intermediárias (padrão na literatura de direcionamento).
Traços Semânticos: Formalidade, Polidez e Humor.
Método:
1. Extrair um vetor base $v$ de pares de prompts contrastivos.
2. Gerar vetores perturbados $v' = v + v_\perp$ , onde $v_\perp$ é um vetor aleatório ortogonal a $v$ .
3. Comparar as saídas geradas por $v$ e $v'$ usando métricas semânticas (escores de traço) e análise de logits.
4. Testar robustez sob mudança de distribuição (diferentes tópicos, gêneros e estilos de segurança).

3. Principais Contribuições

Análise Teórica de Não-Identificabilidade:
- Prova formal de que, na aproximação linear local e sem restrições estruturais adicionais, os vetores de direção são não identificáveis.
- Demonstra que existem infinitos vetores geometricamente distintos ( $v + \text{ker}(J)$ ) que induzem o mesmo comportamento observável.
Validação Empírica de Equivalência Comportamental:
- Demonstra que perturbações ortogonais (adicionar vetores aleatórios ortogonais ao vetor extraído) alcançam 95–100% da eficácia do vetor original.
- O tamanho do efeito (Cohen's $d$ ) entre o vetor original e o perturbado é negligenciável ( $d < 0.2$ ), indicando que a "direção" específica extraída não é única.
Robustez Geométrica:
- A não-identificabilidade persiste sob mudança de distribuição (diferentes prompts, tópicos e gêneros). Isso refuta a ideia de que a diversidade de prompts poderia resolver a ambiguidade; a ambiguidade é uma propriedade geométrica intrínseca ao modelo (pesos), não à distribuição de dados.

4. Resultados Chave

Eficácia de Perturbações Ortogonais:
- Em todos os modelos e traços testados, os vetores perturbados ( $v + v_\perp$ ) produziram escores semânticos quase idênticos aos vetores originais.
- A eficácia de componentes puramente ortogonais ("Perp-Only") foi de aproximadamente 96% a 100% em relação ao vetor extraído.
Invariância de Escala:
- A equivalência observacional manteve-se estável para diferentes magnitudes de força de direcionamento ( $\alpha \in \{0.0, 0.5, 1.0, 2.0\}$ ).
Análise de Logits:
- A análise no nível de logits mostrou que as perturbações ortogonais induzem desvios menores nos logits do que direções aleatórias, preservando a distribuição de saída de forma mais fiel, confirmando que a ambiguidade não é um artefato de medição semântica.
Mudança de Distribuição:
- Mesmo ao testar em ambientes não vistos (ex: prompts médicos ou legais), a equivalência comportamental persistiu, embora com um leve aumento no tamanho do efeito (ainda dentro da faixa de "pequeno" ou "negligenciável").

5. Significado e Implicações

Este trabalho tem implicações profundas para a interpretabilidade e o alinhamento de IA:

Limites da Interpretabilidade: A descoberta de um vetor de direção que "controla" um traço (ex: honestidade) não prova que esse vetor representa o conceito causal subjacente. Pode ser apenas um vetor arbitrário dentro de uma vasta classe de equivalência que funciona por correlações espúrias ou geometria do espaço de ativação.
Causalidade vs. Heurística: Métodos de direcionamento atuais podem fornecer controle comportamental eficaz (heurística), mas falham em fornecer uma compreensão causal principial dos mecanismos internos do modelo.
Necessidade de Restrições Estruturais: Para obter representações identificáveis e causalmente válidas, é necessário impor restrições estruturais além do teste de comportamento entrada-saída (ex: independência estatística, regularização de esparsidade ou objetivos de invariância).
Risco de Alinhamento Frágil: Se os vetores de direcionamento não são únicos, intervenções de alinhamento podem ser frágeis frente a atualizações do modelo ou ataques adversariais, pois dependem de uma direção específica que não é fundamentalmente distinta de outras infinitas direções equivalentes.

Conclusão

O artigo estabelece que a não-identificabilidade é uma propriedade geométrica robusta em LLMs. A simples observação de que um vetor altera o comportamento do modelo não é suficiente para afirmar que esse vetor é a "verdadeira" representação causal de um conceito. Para avançar na engenharia de representações e no alinhamento confiável, a comunidade deve desenvolver métodos que quebrem essas simetrias geométricas através de restrições estruturais explícitas.