On the Non-Identifiability of Steering Vectors in Large Language Models

Este artigo demonstra que os vetores de direção usados para controlar o comportamento de grandes modelos de linguagem são fundamentalmente não identificáveis, pois perturbações ortogonais produzem efeitos equivalentes, revelando assim limites intrínsecos na interpretabilidade dessas intervenções.

Sohan Venkatesh, Ashish Mahendran Kurapath

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um grande orquestra (o Modelo de Linguagem) e quer mudar a "personalidade" da música que ela toca. Talvez você queira que a música soe mais séria, mais educada ou mais engraçada.

Para fazer isso, os pesquisadores usam uma técnica chamada "Direcionamento de Ativação" (Steering). Eles pegam um "bastão mágico" (um vetor matemático) e o adicionam à música no meio da execução para mudar o tom.

Até agora, todos achavam que esse bastão mágico era único. Acreditavam que, se você encontrasse o bastão perfeito para "sério", ele seria o único bastão que funcionava, e que ele revelava um segredo profundo sobre como a mente da IA funciona.

A grande descoberta deste papel é: Isso não é verdade.

Aqui está a explicação simples do que os autores descobriram:

1. O Mistério do "Bastão Invisível" (A Não-Identificabilidade)

Os autores provaram matematicamente que não existe um único bastão mágico. Na verdade, existem infinitos bastões diferentes que produzem exatamente o mesmo resultado na música final.

A Analogia do Projetor de Cinema:
Imagine que você tem um projetor de cinema (o Modelo de IA) e uma tela (a resposta final).

  • Você está segurando um objeto (o vetor de direção) na frente do projetor para mudar a imagem na tela.
  • O que a tela vê é apenas a sombra do objeto.
  • O problema é que você pode segurar o objeto de lado, de frente, ou adicionar uma peça extra que fica escondida atrás do objeto (no "espaço nulo"), e a sombra na tela continua exatamente a mesma.

O papel diz que os pesquisadores estão tentando adivinhar a forma exata do objeto apenas olhando para a sombra. É impossível! Você pode ter um objeto cúbico, um objeto esférico ou um objeto com um rabo escondido, e se a sombra for a mesma, a IA não consegue distinguir a diferença.

2. A Prova Experimental: O "Toque de Toque"

Para provar isso na prática, os pesquisadores fizeram um teste simples:

  1. Eles encontraram um vetor (bastão) que fazia a IA falar de forma educada.
  2. Em seguida, eles pegaram um pedaço aleatório de "barulho" (uma direção matemática perpendicular) e o adicionaram ao bastão original.
  3. O resultado? A IA continuou falando exatamente da mesma forma educada.

Foi como se você tivesse uma receita de bolo perfeita. Alguém adicionou uma pitada de sal extra que, teoricamente, deveria mudar o gosto. Mas o bolo saiu com o mesmo sabor exato. Isso significa que a "pitada de sal" (a parte do vetor que os pesquisadores achavam que era importante) não estava realmente controlando o sabor; era apenas um detalhe invisível para o paladar da IA.

3. Por que isso é importante? (O Perigo da Ilusão)

Muitas pessoas acham que, ao encontrar esses vetores, elas estão descobrindo a "verdadeira essência" da IA (como se a IA tivesse um "cérebro" onde a honestidade é um botão específico).

Este papel diz: Cuidado!

  • Não é uma descoberta única: Você pode estar apenas explorando um caminho aleatório que funciona por sorte, não porque é o "caminho da verdade".
  • É frágil: Se você mudar um pouco o contexto (pedir para a IA ser educada em um e-mail médico vs. em uma piada), o vetor que funcionava antes pode falhar, porque ele não era uma "verdadeira" representação, apenas uma coincidência geométrica.
  • Ilusão de Controle: A IA obedece ao comando, mas não significa que entendemos como ela obedece. É como se você pudesse abrir a porta da casa com 10 chaves diferentes, mas você não sabe qual delas realmente destranca a fechadura e qual apenas empurra a porta (que já estava trincada).

Resumo em uma frase:

Este estudo mostra que tentar entender a "mente" da Inteligência Artificial apenas observando como ela responde a comandos é como tentar adivinhar a forma de um objeto olhando apenas para sua sombra: você pode estar vendo o resultado certo, mas a explicação por trás dele é fundamentalmente ambígua e pode ser infinitamente diferente.

Para confiar realmente no que estamos fazendo com a IA, precisamos de mais do que apenas testar se a resposta mudou; precisamos de regras estruturais que garantam que estamos tocando no botão certo, e não apenas empurrando a porta.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →