Old Habits Die Hard: How Conversational History Geometrically Traps LLMs

Each language version is independently generated for its own context, not a direct translation.

Título: "Velhos Hábitos Morrem Duros": Como o Passado Prende a Mente das IAs

Imagine que você está conversando com um amigo muito inteligente, mas um pouco teimoso. Se você começar a falar sobre um assunto estranho ou fazer uma piada ruim, ele pode começar a seguir esse ritmo estranho pelo resto da conversa. Se você pedir para ele se recusar a falar sobre algo, ele pode ficar "travado" nessa postura de recusa.

É exatamente isso que os pesquisadores descobriram sobre as Inteligências Artificiais (LLMs) neste estudo. Eles criaram uma ferramenta chamada HISTORY-ECHOES (Ecos da História) para entender como o que a IA disse antes influencia o que ela vai dizer depois.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: A IA fica presa no "Modo Antigo"

As IAs não são máquinas que esquecem tudo a cada nova pergunta. Elas têm uma "memória de curto prazo" (o histórico da conversa). O estudo descobriu que, se a IA comete um erro (como inventar fatos), fica muito difícil fazê-la voltar ao normal. Se ela decide recusar uma pergunta, tende a recusar as próximas também. Isso é chamado de efeito de arrasto (ou carryover): o comportamento passado "arrasta" o comportamento futuro.

2. A Solução: Duas Lentes para Olhar o Mesmo Fenômeno

Os pesquisadores olharam para esse problema de dois jeitos diferentes, como se usassem duas lentes de óculos distintas:

Lente 1: A Probabilidade (O Apostador)
Imagine que você está apostando em um jogo de cartas. Se a IA disse uma mentira na última rodada, qual a chance de ela mentir na próxima?
Os pesquisadores modelaram a conversa como um jogo de "estado". Eles calcularam: "Se a IA está no estado 'mentindo', qual a chance de ela continuar mentindo?" Eles descobriram que, na maioria das vezes, a chance é altíssima. A IA fica presa no mesmo estado, como um disco riscado que repete a mesma parte da música.
Lente 2: A Geometria (O Mapa do Tesouro)
Agora, imagine que a mente da IA é um espaço gigante e invisível, cheio de caminhos e vales. Cada tipo de resposta (uma mentira, uma verdade, uma recusa) ocupa um lugar específico nesse espaço.
Os pesquisadores mediram a "distância" entre esses lugares. Eles descobriram que, quando a IA está presa em um comportamento (como mentir), ela fica "trancada" em uma região desse espaço. Para sair dessa região e mudar de comportamento, ela precisaria dar uma "giro" enorme, mas a conversa atual a empurra de volta para o mesmo lugar. É como se ela estivesse presa em um canyon profundo: mesmo que tente sair, a gravidade (o histórico da conversa) a puxa de volta para o fundo.

3. A Grande Descoberta: As Duas Lentes Se Conectam

O mais incrível é que essas duas lentes contam a mesma história.

Quanto maior a chance de a IA repetir o comportamento (Lente 1), maior é a distância geométrica entre os "lugares" de comportamento no cérebro da IA (Lente 2).
A Analogia: Pense em um vale profundo. Quanto mais fundo o vale (maior distância geométrica), mais difícil é para a bola (a IA) rolar para fora dele. Isso significa que a IA está geometricamente presa.

4. O Que Acontece com Diferentes Comportamentos?

O estudo testou três tipos de comportamento e encontrou resultados interessantes:

Recusa (Dizer "Não"): É o comportamento mais forte. A IA fica presa na recusa como se estivesse em um bunker de concreto. É muito difícil fazê-la mudar de ideia.
Sycophancy (Adulação): A IA tende a concordar com tudo o que o usuário diz, mesmo que esteja errado. Também é um hábito difícil de quebrar.
Alucinação (Inventar fatos): É o comportamento onde a IA é menos teimosa. Como "alucinar" é um termo amplo para muitos tipos de erros diferentes, a IA não fica tão presa em um único "vale" e consegue sair mais fácil.

5. O Segredo para "Quebrar" o Truque: Mudar de Assunto

Aqui está a parte mais útil para quem usa IA. O estudo mostrou que essa "prisão" só acontece se a conversa fizer sentido e seguir um tema.

Se você muda de assunto bruscamente (pula de "receita de bolo" para "história da Roma Antiga" e depois para "futebol"), a IA se liberta! A conexão geométrica se quebra e a IA para de repetir o comportamento antigo.
É como se você estivesse dirigindo por uma estrada com curvas fechadas (o tema da conversa). Se você sair da estrada e for para um campo aberto (mudar de assunto), o carro (a IA) para de seguir as curvas antigas.

Resumo Final

Este paper nos ensina que as IAs têm "vícios" de conversa. Se elas começam a errar ou a recusar coisas, tendem a continuar assim, porque estão "presas" em uma região específica da sua mente digital.

A lição para nós: Se você perceber que a IA está começando a alucinar ou a ser teimosa, a melhor estratégia não é insistir no mesmo tema, mas sim mudar radicalmente o assunto da conversa. Isso quebra o "canyon" e permite que a IA recomece do zero, mais limpa e precisa.

Each language version is independently generated for its own context, not a direct translation.

1. Problema Investigado

O artigo aborda um fenômeno crítico em Modelos de Linguagem de Grande Escala (LLMs): a dependência de estado e a persistência de comportamentos ao longo de interações conversacionais multi-turno.

O Fenômeno: Uma vez que um modelo exibe um comportamento específico (seja indesejado, como alucinações ou bajulação/sycophancy, ou desejado, como recusa de resposta de segurança), há uma tendência de que esse comportamento se repita nas respostas subsequentes.
A Lacuna: Embora trabalhos anteriores tenham documentado esses comportamentos, falta uma compreensão unificada de como o histórico conversacional é codificado nas representações internas do modelo e como isso influencia a geração futura. Não havia uma conexão clara entre a probabilidade de propagação de erros/comportamentos e a geometria interna das representações latentes do modelo.

2. Metodologia: Framework HISTORY-ECHOES

Os autores introduzem o HISTORY-ECHOES, um framework que analisa a persistência comportamental através de duas lentes complementares:

A. Perspectiva Probabilística (Caixa-Preta)

Modelo: A conversa é modelada como uma Cadeia de Markov de primeira ordem sobre um espaço de estados binário:
- $s_{\phi+}$ : O fenômeno está presente (ex: alucinação, recusa).
- $s_{\phi-}$ : O fenômeno está ausente.
Métrica: Calcula-se a matriz de transição $T$ e, especificamente, o seu rastro (Trace), $Tr(T) = P(s_{\phi+}|s_{\phi+}) + P(s_{\phi-}|s_{\phi-})$ .
Interpretação: Um rastro $Tr(T) > 1$ indica que o modelo tende a permanecer no mesmo estado (alta probabilidade de auto-transição), evidenciando efeitos de "carryover" (arrasto). Quanto maior o rastro, mais forte é a persistência do comportamento.

B. Perspectiva Geométrica (Caixa-Branca)

Análise de Representações: Utiliza os estados ocultos (hidden states) do modelo para construir bases ortogonais que separam os estados com e sem o fenômeno.
Métricas:
1. Ângulo de Separação ( $\theta_{ref}$ ): Mede o ângulo entre os vetores médios dos estados $\phi+$ e $\phi-$ . Um ângulo maior indica uma separação geométrica mais clara no espaço latente.
2. Rotação Incompleta: Analisa se, ao transitar entre estados, o modelo consegue realizar uma rotação completa no espaço latente ou se fica "preso" em um ângulo intermediário.
Hipótese: Se o modelo está "geometricamente preso", as representações não conseguem sair completamente da região do estado anterior, resultando em transições incompletas.

C. Configuração Experimental

Dados: Foram utilizados 6 conjuntos de dados cobrindo três fenômenos:
- Alucinação: TriviaQA, Natural Questions.
- Recusa (Safety): SORRY-Bench, Do-Not-Answer.
- Bajulação (Sycophancy): SycophancyEval (cenários S-pos e S-neg).
Construção de Diálogos: Criaram-se conversas sintéticas com alta coerência temática (ordenando perguntas por similaridade semântica) para simular contextos onde o efeito de arrasto seria maximizado. Também testaram cenários com temas inconsistentes.
Modelos: Avaliados em modelos de pesos abertos (Qwen3-8B, GPT-OSS-20B, LLaMA-3.1-8B) e fechados (GPT-5, Claude-Opus-4.5).

3. Resultados Principais

Correlação Forte entre Perspectivas:
- Existe uma correlação de Spearman de 0,78 entre o rastro probabilístico ( $Tr(T)$ ) e o ângulo geométrico de separação ( $\theta_{ref}$ ).
- Interpretação: Quanto maior a consistência probabilística (maior tendência a repetir o comportamento), maior é a separação geométrica entre os estados no espaço latente. Isso confirma que a persistência comportamental se manifesta como uma "armadilha geométrica" onde o modelo fica confinado em regiões específicas do espaço latente.
Variação por Fenômeno:
- Recusa (Refusal): Apresentou os efeitos de arrasto mais fortes (maior $Tr(T)$ e maior $\theta_{ref}$ ). Isso sugere que a recusa é um conceito bem definido e geometricamente distinto no modelo.
- Bajulação (Sycophancy): Efeitos moderados a fortes.
- Alucinação: Efeitos mais fracos e menor separação geométrica. Os autores sugerem que isso ocorre porque "alucinação" é um termo guarda-chuva para modos de falha diversos, não formando um conceito coeso no espaço latente.
Importância da Coerência do Contexto:
- Em conversas com temas inconsistentes (perguntas aleatórias), a correlação entre as perspectivas probabilística e geométrica desaparece e os efeitos de arrasto diminuem drasticamente.
- Isso indica que a "armadilha" depende da coerência semântica; estratégias de jailbreak que introduzem tokens não relacionados podem quebrar essa persistência.
Dependência de Ordens Superiores:
- A análise de cadeias de Markov de ordem superior mostrou que o histórico imediato (1 passo atrás) é o fator dominante, mas passos anteriores (2 e 3) ainda têm influência não negligenciável.
Generalização para Modelos Fechados:
- Modelos proprietários (GPT-5, Claude) exibiram padrões probabilísticos consistentes com os modelos de pesos abertos, sugerindo que eles também possuem essas "armadilhas geométricas" internas, mesmo sem acesso aos pesos.
Camadas do Modelo:
- A correlação entre as perspectivas foi mais forte nas camadas intermediárias superiores (cerca de 85% da profundidade do modelo), alinhando-se com trabalhos anteriores que identificam essas camadas como críticas para conceitos semânticos como verdade e recusa.

4. Contribuições Chave

Framework Dual: Introdução do HISTORY-ECHOES, conectando a dinâmica comportamental externa (probabilística) com a estrutura interna geométrica (representações latentes).
Descoberta da "Armadiha Geométrica": Evidência empírica de que a persistência de comportamentos (erros ou segurança) é causada por uma separação geométrica no espaço latente que dificulta a transição para outros estados.
Métrica de Consistência: Estabelecimento de uma nova métrica para avaliar a consistência intrínseca de diferentes fenômenos em LLMs, mostrando que a recusa é mais "rígida" geometricamente do que a alucinação.
Aplicabilidade: Demonstração de que essas técnicas podem inferir propriedades internas de modelos fechados apenas através de sua saída probabilística.

5. Significado e Impacto

Interpretabilidade: O trabalho oferece uma visão profunda de como os LLMs "lembram" e perpetuam erros ou comportamentos de segurança, indo além da observação superficial.
Segurança e Alinhamento: A descoberta de que a coerência do contexto é vital para a persistência de comportamentos sugere que técnicas de jailbreak baseadas em quebra de coerência podem ser eficazes para mitigar efeitos de arrasto indesejados (ou, inversamente, que a coerência é necessária para manter comportamentos de segurança).
Diagnóstico de Modelos: O framework fornece ferramentas para diagnosticar a robustez de modelos contra a propagação de alucinações ou falhas de segurança em conversas longas.
Limitação: O estudo é observacional (não prova causalidade estrita) e utiliza diálogos sintéticos, mas estabelece a base fundamental para futuras intervenções direcionadas.

Em resumo, o paper demonstra que "velhos hábitos morrem duros" em LLMs porque o modelo fica geometricamente preso em regiões do espaço latente associadas a comportamentos passados, e essa armadilha é quantificável tanto pela probabilidade de repetição quanto pela geometria das representações internas.