Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal

Este artigo revela que, em Modelos de Raciocínio Avançado, os mecanismos de recusa são codificados conjuntamente tanto nas ativações do fluxo residual quanto nos rastros de Cadeia de Pensamento, tornando o direcionamento simples de ativações menos eficaz a menos que o próprio processo de raciocínio também seja manipulado.

Autores originais: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

Publicado 2026-05-27✓ Author reviewed
📖 4 min de leitura☕ Leitura rápida

Autores originais: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine um modelo de linguagem grande (como a IA neste artigo) como um bibliotecário muito inteligente, mas um pouco teimoso. Quando você faz uma pergunta, esse bibliotecário não apenas dispara uma resposta. Primeiro, ele vai para uma sala dos fundos para refletir, rabiscando anotações em um bloco de notas (isso é a Cadeia de Pensamento, ou CoT). Somente após terminar suas anotações, ele sai e lhe dá a resposta final.

Por muito tempo, os pesquisadores acreditaram que podiam controlar o comportamento desse bibliotecário simplesmente "ajustando" seu cérebro (a memória interna do computador) no momento em que você fazia a pergunta. Eles acreditavam que havia um único "Interruptor de Recusa" no cérebro do bibliotecário. Se eles pressionassem esse interruptor, o bibliotecário diria "Não" para pedidos ruins. Se o desligassem, o bibliotecário diria "Sim".

A Grande Descoberta:
Este artigo descobriu que, para os modelos modernos de "Raciocínio" (os bibliotecários inteligentes que escrevem anotações primeiro), aquele único interruptor não funciona sozinho. A recusa não está apenas no cérebro; ela também está escrita no bloco de notas.

Aqui está a explicação de seus experimentos usando analogias simples:

1. O "Ajuste Cerebral" Sozinho (O Interruptor Fraco)

Os pesquisadores tentaram pressionar o "Interruptor de Recusa" no cérebro do bibliotecário enquanto o forçavam a usar suas anotações originais.

  • O Resultado: Funcionou apenas cerca de 39% das vezes.
  • A Analogia: Imagine tentar convencer uma pessoa teimosa a mudar de ideia sussurrando em seu ouvido, mas ela ainda está lendo um roteiro que diz "Não faça isso". O roteiro (as anotações) está lutando contra seu sussurro. As anotações reforçam ativamente a recusa.

2. Tirando as Anotações (Sem CoT)

Em seguida, eles tentaram o mesmo ajuste cerebral, mas disseram ao bibliotecário: "Não escreva nenhuma anotação desta vez. Apenas me dê a resposta."

  • O Resultado: A taxa de sucesso saltou para 70%.
  • A Analogia: Sem as anotações para argumentar contra eles, o bibliotecário foi muito mais fácil de persuadir. Isso provou que as próprias anotações estavam fazendo grande parte do trabalho pesado para manter a recusa ativa.

3. Deixando o Bibliotecário Reescrever as Anotações (Regeneração)

Finalmente, eles aplicaram o ajuste cerebral e permitiram que o bibliotecário escrevesse novas anotações do zero com base nessa nova mentalidade.

  • O Resultado: A taxa de sucesso disparou para 94%.
  • A Analogia: Isso é como sussurrar a nova ideia no ouvido do bibliotecário enquanto ele está escrevendo suas anotações. Ele escreve anotações que dizem: "Ok, essa é uma boa ideia", e então lhe dá a resposta com confiança. As anotações e o cérebro agora estão trabalhando juntos para dizer "Sim".

4. A "Nota Fantasma" (Persistência)

A parte mais interessante: Eles pegaram as anotações de "Sim" do experimento anterior, jogaram fora o ajuste cerebral e apenas deram ao bibliotecário essas novas anotações para ler.

  • O Resultado: O bibliotecário ainda disse "Sim" cerca de 48% das vezes.
  • A Analogia: Mesmo sem o sussurro no ouvido, as próprias anotações carregavam sinal suficiente de "Sim" para convencer o bibliotecário a cumprir. As anotações têm seu próprio poder.

A Principal Conclusão

Em modelos de IA mais antigos, você podia impedi-los de fazer coisas ruins apenas invertendo um interruptor em seu cérebro. Mas, nestes novos modelos inteligentes que "pensam" antes de falar, a recusa é um sistema de duas partes:

  1. O Cérebro: O estado de memória interna.
  2. As Anotações: O raciocínio da Cadeia de Pensamento.

Se você tentar apenas consertar o cérebro, as anotações lutarão de volta e manterão a recusa viva. Se você apenas consertar as anotações, o cérebro ainda pode resistir. Para realmente mudar a mente da IA, você precisa alterar ambos: o estado interno e o processo de raciocínio.

Por que isso importa para a segurança:
O artigo sugere que, se alguém quiser enganar esses modelos de IA para fazer coisas ruins (um "jailbreak"), talvez não precise hackear o cérebro diretamente. Eles podem apenas precisar enganar a IA para escrever "anotações ruins" (um rastro de raciocínio que justifica a ação ruim), e a IA seguirá essas anotações mesmo que seu cérebro esteja tentando dizer não. Por outro lado, para proteger esses modelos, você não pode olhar apenas para o cérebro; precisa observar o que a IA está escrevendo enquanto pensa.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →