Belief Dynamics Reveal the Dual Nature of In-Context Learning and Activation Steering

Each language version is independently generated for its own context, not a direct translation.

Imagine que um Modelo de Linguagem (como o ChatGPT) é como um chef de cozinha extremamente talentoso, mas que segue receitas muito rígidas e tem uma personalidade fixa. Às vezes, queremos que ele mude de comportamento: que seja mais gentil, que fale como um vilão de filme, ou que ignore regras de segurança.

Existem duas maneiras principais de fazer isso acontecer, e este artigo descobre que elas são, na verdade, duas faces da mesma moeda.

1. As Duas Formas de "Mandar" no Chef

O artigo compara duas técnicas que os pesquisadores usam para controlar a IA:

Aprendizado em Contexto (ICL) - "O Menu de Exemplos":
Imagine que você chega ao restaurante e diz ao chef: "Olha, aqui estão 100 receitas onde eu comi apenas frutas. Agora, faça uma receita para mim."
Você não muda a mente do chef; você apenas fornece evidências no momento. Quanto mais exemplos você mostra (quanto mais "shots" ou tiros de contexto), mais o chef entende que, neste momento, ele deve agir como um amante de frutas.
- A descoberta: No início, mostrar 1 ou 2 exemplos não muda nada. O chef ignora. Mas, de repente, depois de passar de um certo número (digamos, 30 exemplos), o chef muda drasticamente e começa a agir como um expert em frutas. É como um interruptor que só acende depois de muita pressão.
Direcionamento de Ativação (Activation Steering) - "O Botão Secreto":
Agora, imagine que, em vez de dar exemplos, você tem um botão secreto na cozinha que controla o tempero da personalidade do chef. Se você girar esse botão para a direita, o chef fica mais "feliz". Se girar para a esquerda, ele fica mais "triste".
Você não precisa dar exemplos; você apenas ajusta a prioridade interna dele. É como dizer ao chef: "Não importa o que você viu antes, hoje você é obrigado a ser feliz."

2. A Grande Descoberta: A "Crença" do Chef

O artigo diz que essas duas coisas funcionam da mesma forma: elas mudam a "crença" do modelo sobre o que é o mundo.

Pense na "crença" como a probabilidade que o chef tem de que "hoje é dia de frutas".

Com os exemplos (ICL): O chef acumula evidências. Cada exemplo é uma prova. No começo, ele duvida. Depois de muitas provas, ele fica 100% convencido.
Com o botão (Steering): Você não dá provas; você muda o ponto de partida. Você diz: "Vamos começar com a certeza de que hoje é dia de frutas".

O artigo cria uma fórmula matemática (baseada em Bayes, que é a ciência de atualizar crenças com novas informações) que une essas duas coisas. Eles mostram que:

A curva de aprendizado é S: O chef não muda devagarinho. Ele fica estático, depois muda de repente (como um interruptor) e depois estabiliza.
Eles se somam: Se você usar o botão para ajudar um pouco e der alguns exemplos, o efeito se soma. Você pode usar um botão fraco e poucos exemplos para conseguir o mesmo resultado que um botão forte e muitos exemplos.

3. O Perigo e a Utilidade: O "Ponto de Virada"

A parte mais interessante (e um pouco assustadora) é que eles conseguem prever exatamente quando o chef vai mudar de comportamento.

Imagine que você está tentando fazer o chef obedecer a uma regra perigosa (como um "jailbreak" ou quebra de segurança).

Se você der 10 exemplos, ele ignora.
Se der 20, ele ainda ignora.
Se der 30, BAM! Ele muda completamente e começa a obedecer.

O artigo diz que podemos calcular matematicamente esse ponto exato (o "ponto de virada"). Isso é crucial para a segurança da IA. Se sabemos que, com 32 exemplos, o modelo quebra, podemos evitar chegar a esse número ou usar o "botão" para manter a segurança mesmo com muitos exemplos.

Resumo em Metáfora Final

Pense no Modelo de Linguagem como um piloto de avião.

Aprendizado em Contexto é como o copiloto mostrando ao piloto: "Olhe, aqui estão 50 mapas mostrando que o caminho A é o correto." O piloto começa a duvidar do caminho B e, de repente, muda a rota.
Direcionamento de Ativação é como alguém que trava o leme do avião para forçá-lo a ir para o caminho A, independentemente dos mapas.

O artigo prova que, no fundo, ambos os métodos estão apenas mudando a confiança do piloto de que o caminho A é o certo. E, o mais importante, eles criaram um mapa que diz exatamente quantos "mapas" (exemplos) ou quanto "travamento" (botão) são necessários para fazer o avião mudar de direção de repente.

Isso ajuda a entender como a IA "pensa" e como podemos controlá-la de forma mais segura e previsível, evitando surpresas indesejadas.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Dinâmicas de Crença Revelam a Natureza Dual da Aprendizagem em Contexto e do Direcionamento de Ativação

1. O Problema

Os Grandes Modelos de Linguagem (LLMs) podem ser controlados durante a inferência por meio de duas metodologias distintas:

Aprendizagem em Contexto (ICL - In-Context Learning): Modificação do comportamento através de prompts (exemplos, instruções, diálogos) inseridos na entrada.
Direcionamento de Ativação (Activation Steering): Modulação direta das representações internas (atividades ocultas) do modelo, geralmente através da adição de vetores de direcionamento (steering vectors).

Embora essas abordagens pareçam disparate (uma baseada em entrada de texto, a outra em manipulação de representações internas), ambas visam o mesmo objetivo: controlar o comportamento do modelo. A questão central é se existe um quadro teórico unificado que explique como ambas as intervenções impactam a distribuição de saída do modelo. Até o momento, não havia uma explicação formal que conectasse a acumulação de evidências no contexto (ICL) com a alteração direta das representações internas (Steering).

2. Metodologia e Abordagem Teórica

Os autores propõem uma teoria unificada baseada em Bayesiana, onde tanto o ICL quanto o Steering são entendidos como mecanismos de atualização de crenças em conceitos latentes ( $c$ ) dentro do espaço de representação do modelo.

O Modelo de Dinâmica de Crença:
O comportamento do modelo $p(y|x)$ é formalizado como a crença posterior em um conceito $c$ dado um contexto $x$ . A lógica segue a inferência bayesiana:
$\log o(c|x) = \log \frac{p(c)}{p(c')} + \log \frac{p(x|c)}{p(x|c')}$
Onde $o(c|x)$ são as odds posteriores, $p(c)$ é o prior, e $p(x|c)$ é a verossimilhança.

ICL como Acumulação de Evidência: O contexto ( $x$ ) atua como evidência que atualiza a verossimilhança. O modelo acumula evidências de exemplos em contexto ( $N$ ), mas de forma sub-linear (segundo uma lei de potência), capturada por um termo de desconto $\tau(N) = N^{1-\alpha}$ .
Steering como Alteração de Prior: O direcionamento de ativação atua alterando diretamente os priors do conceito. Ao adicionar um vetor de direcionamento com magnitude $m$ na direção do conceito, o modelo altera suas crenças iniciais (priors) de forma aditiva no espaço logarítmico.

Equação Final do Modelo:
A combinação das duas intervenções resulta na seguinte equação para as odds logarítmicas:
$\log o(c|x) = a \cdot m + b + \gamma N^{1-\alpha}$
Onde:

$m$ : Magnitude do vetor de direcionamento.
$N$ : Número de exemplos em contexto (shots).
$a, b, \gamma, \alpha$ : Parâmetros aprendidos.

3. Principais Contribuições

Unificação Teórica: Demonstra que ICL e Activation Steering são instâncias do mesmo mecanismo de atualização de crenças bayesiana, operando em componentes diferentes da equação de Bayes (verossimilhança vs. prior).
Modelo Preditivo de Forma Fechada: Desenvolve um modelo matemático simples que prevê o comportamento do LLM com alta precisão, capturando a interação não trivial entre o número de exemplos e a magnitude do direcionamento.
Descoberta de "Fases" e Transições Súbitas: Identifica que a interação entre ICL e Steering cria fronteiras de fase. Pequenas mudanças nos controles de intervenção podem levar a transições súbitas e dramáticas no comportamento do modelo (ex: jailbreaking de muitos tiros).
Validação Empírica em Múltiplos Modelos: O modelo foi testado e validado em diversos LLMs (Llama-3.1-8B, Gemma-2-9B, Qwen-2.5-7B, Llama-3.1-70B) e em diferentes domínios (personalidades "Dark Triad", niilismo moral, análise de sentimento com rótulos invertidos).

4. Resultados Chave

Os experimentos validaram três previsões principais do modelo:

Curvas de Aprendizado Sigmoidais (ICL): A probabilidade de adotar um comportamento (ex: persona) segue uma curva sigmoide em função de $N^{1-\alpha}$ . O modelo explica por que o aprendizado em contexto parece "súbito" após um certo número de exemplos.
Efeito Aditivo no Espaço Log-Belief: O ICL e o Steering têm efeitos aditivos no espaço de log-odds. O direcionamento desloca a curva de aprendizado do ICL para a esquerda (facilitando a adoção do comportamento com menos exemplos) ou para a direita (inibindo-o).
Previsão de Pontos de Transição ( $N^*$ ): O modelo consegue prever com alta precisão ( $r = 0.98$ $r = 0.98$ ) o ponto exato onde o comportamento do modelo muda de fase (ex: de "recusa" para "aceitação" de uma persona maliciosa) em função da magnitude do steering e do número de shots.
- Exemplo: Em tarefas de jailbreaking, o modelo prevê quantos exemplos são necessários para que um modelo aceite uma instrução maliciosa, dependendo da força do vetor de direcionamento aplicado.

Limitações Observadas:

A hipótese de representação linear (LRH) e a eficácia do steering funcionam bem dentro de uma faixa de magnitudes. Magnitudes excessivamente altas levam a comportamentos incoerentes ou convergência para o acaso (probabilidade de 0.5), indicando que a representação linear não é infinita.
Em alguns modelos menores ou para certos conceitos, o steering pode não ter efeito, sugerindo que a representação do conceito pode não ser linear ou acessível naquele espaço.

5. Significado e Impacto

Segurança de IA (AI Safety): A descoberta de fronteiras de fase e pontos de transição súbita é crucial para a segurança. Permite prever quando um modelo pode ser "quebrado" (jailbroken) combinando prompts longos com intervenções internas, permitindo a criação de protocolos de defesa mais robustos.
Interpretabilidade Mecanística: O trabalho oferece uma ponte entre teorias de alto nível (comportamento, crenças) e baixo nível (representações vetoriais, camadas de rede neural), validando a hipótese de que conceitos são representados linearmente em camadas específicas.
Controle de Modelos: Fornece uma metodologia quantitativa para engenheiros combinarem prompt engineering e intervenções mecânicas de forma otimizada, prevendo o resultado antes da execução.
Fundamento Teórico: Estabelece princípios bayesianos como uma base teórica sólida para entender como os LLMs aprendem e raciocinam durante a inferência, alinhando a inteligência artificial com modelos de desenvolvimento cognitivo humano.

Em resumo, o artigo demonstra que, sob a ótica bayesiana, a manipulação de prompts e a manipulação de pesos internos não são técnicas rivais, mas sim duas faces da mesma moeda: a atualização da crença do modelo sobre conceitos latentes.

Belief Dynamics Reveal the Dual Nature of In-Context Learning and Activation Steering

1. As Duas Formas de "Mandar" no Chef

2. A Grande Descoberta: A "Crença" do Chef

3. O Perigo e a Utilidade: O "Ponto de Virada"

Resumo em Metáfora Final

Resumo Técnico: Dinâmicas de Crença Revelam a Natureza Dual da Aprendizagem em Contexto e do Direcionamento de Ativação

1. O Problema

2. Metodologia e Abordagem Teórica

3. Principais Contribuições

4. Resultados Chave

5. Significado e Impacto

Mais como este

Efficient semiparametric estimation of marginal treatment effects with genetic instrumental variables

Functional Bias and Tangent-Space Geometry in Variational Inference

Shape-constrained density estimation with Wasserstein projection

Estimation of heterogeneous principal effects under principal ignorability

Uncertainty quantification for critical energy systems during compound extremes via BMW-GAM