Autores originais: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

Publicado 2026-05-27✓ Author reviewed ⓘ

📖 4 min de leitura☕ Leitura rápida

Autores originais: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine um modelo de linguagem grande (como a IA neste artigo) como um bibliotecário muito inteligente, mas um pouco teimoso. Quando você faz uma pergunta, esse bibliotecário não apenas dispara uma resposta. Primeiro, ele vai para uma sala dos fundos para refletir, rabiscando anotações em um bloco de notas (isso é a Cadeia de Pensamento, ou CoT). Somente após terminar suas anotações, ele sai e lhe dá a resposta final.

Por muito tempo, os pesquisadores acreditaram que podiam controlar o comportamento desse bibliotecário simplesmente "ajustando" seu cérebro (a memória interna do computador) no momento em que você fazia a pergunta. Eles acreditavam que havia um único "Interruptor de Recusa" no cérebro do bibliotecário. Se eles pressionassem esse interruptor, o bibliotecário diria "Não" para pedidos ruins. Se o desligassem, o bibliotecário diria "Sim".

A Grande Descoberta:
Este artigo descobriu que, para os modelos modernos de "Raciocínio" (os bibliotecários inteligentes que escrevem anotações primeiro), aquele único interruptor não funciona sozinho. A recusa não está apenas no cérebro; ela também está escrita no bloco de notas.

Aqui está a explicação de seus experimentos usando analogias simples:

1. O "Ajuste Cerebral" Sozinho (O Interruptor Fraco)

Os pesquisadores tentaram pressionar o "Interruptor de Recusa" no cérebro do bibliotecário enquanto o forçavam a usar suas anotações originais.

O Resultado: Funcionou apenas cerca de 39% das vezes.
A Analogia: Imagine tentar convencer uma pessoa teimosa a mudar de ideia sussurrando em seu ouvido, mas ela ainda está lendo um roteiro que diz "Não faça isso". O roteiro (as anotações) está lutando contra seu sussurro. As anotações reforçam ativamente a recusa.

2. Tirando as Anotações (Sem CoT)

Em seguida, eles tentaram o mesmo ajuste cerebral, mas disseram ao bibliotecário: "Não escreva nenhuma anotação desta vez. Apenas me dê a resposta."

O Resultado: A taxa de sucesso saltou para 70%.
A Analogia: Sem as anotações para argumentar contra eles, o bibliotecário foi muito mais fácil de persuadir. Isso provou que as próprias anotações estavam fazendo grande parte do trabalho pesado para manter a recusa ativa.

3. Deixando o Bibliotecário Reescrever as Anotações (Regeneração)

Finalmente, eles aplicaram o ajuste cerebral e permitiram que o bibliotecário escrevesse novas anotações do zero com base nessa nova mentalidade.

O Resultado: A taxa de sucesso disparou para 94%.
A Analogia: Isso é como sussurrar a nova ideia no ouvido do bibliotecário enquanto ele está escrevendo suas anotações. Ele escreve anotações que dizem: "Ok, essa é uma boa ideia", e então lhe dá a resposta com confiança. As anotações e o cérebro agora estão trabalhando juntos para dizer "Sim".

4. A "Nota Fantasma" (Persistência)

A parte mais interessante: Eles pegaram as anotações de "Sim" do experimento anterior, jogaram fora o ajuste cerebral e apenas deram ao bibliotecário essas novas anotações para ler.

O Resultado: O bibliotecário ainda disse "Sim" cerca de 48% das vezes.
A Analogia: Mesmo sem o sussurro no ouvido, as próprias anotações carregavam sinal suficiente de "Sim" para convencer o bibliotecário a cumprir. As anotações têm seu próprio poder.

A Principal Conclusão

Em modelos de IA mais antigos, você podia impedi-los de fazer coisas ruins apenas invertendo um interruptor em seu cérebro. Mas, nestes novos modelos inteligentes que "pensam" antes de falar, a recusa é um sistema de duas partes:

O Cérebro: O estado de memória interna.
As Anotações: O raciocínio da Cadeia de Pensamento.

Se você tentar apenas consertar o cérebro, as anotações lutarão de volta e manterão a recusa viva. Se você apenas consertar as anotações, o cérebro ainda pode resistir. Para realmente mudar a mente da IA, você precisa alterar ambos: o estado interno e o processo de raciocínio.

Por que isso importa para a segurança:
O artigo sugere que, se alguém quiser enganar esses modelos de IA para fazer coisas ruins (um "jailbreak"), talvez não precise hackear o cérebro diretamente. Eles podem apenas precisar enganar a IA para escrever "anotações ruins" (um rastro de raciocínio que justifica a ação ruim), e a IA seguirá essas anotações mesmo que seu cérebro esteja tentando dizer não. Por outro lado, para proteger esses modelos, você não pode olhar apenas para o cérebro; precisa observar o que a IA está escrevendo enquanto pensa.

Resumo Técnico: Além de uma Única Direção: O Pensamento em Cadeia Interrompe a Orientação Simples de Recusa

Declaração do Problema

Modelos de Raciocínio Avançado (LRMs), como DeepSeek-R1 e GPT-o1, geram traços intermediários de raciocínio em Pensamento em Cadeia (CoT) antes de produzir as saídas finais. Embora a orientação de ativação tenha sido estabelecida como um mecanismo eficaz para controlar a recusa em Modelos de Linguagem de Grande Porte (LLMs) padrão ajustados por instruções, por meio de uma única "direção de recusa" no fluxo residual, permanece incerto como esse mecanismo funciona em LRMs. Especificamente, é desconhecido se o sinal de recusa em LRMs é codificado exclusivamente nas ativações do fluxo residual em tokens de modelo (por exemplo, Fim-de-Instrução ou Fim-de-Pensamento) ou se o próprio traço de CoT gerado desempenha um papel ativo e causal na mediação da recusa. A compreensão atual sugere que tratar o CoT como um meio passivo pode ser insuficiente para entender ou controlar comportamentos de segurança em modelos de raciocínio.

Metodologia

Os autores investigam o mecanismo de recusa no modelo DeepSeek-R1-Distill-Llama-8B usando orientação baseada em ativação. O quadro experimental envolve os seguintes componentes:

Conjunto de Dados: Um conjunto de treinamento de 100 instruções prejudiciais (de ADVBENCH, MALICIOUSINSTRUCT, TDC2023, HARMBENCH) e 100 instruções inofensivas (de Alpaca) é usado para calcular a direção de recusa. Um conjunto de teste retido de 100 instruções prejudiciais de JAILBREAKBENCH é usado para avaliação. Todas as amostras são inicialmente recusadas pelo modelo sob prompts padrão (linha de base de 0% de conformidade).
Extração da Direção de Recusa: Usando uma abordagem de diferença de médias, os autores extraem o vetor de direção de recusa ( $r^{(l)}$ ) das ativações do fluxo residual na posição do token final de qualquer um dos tokens Fim-de-Instrução (EOI) ou Fim-de-Pensamento (EOT). Este vetor representa a diferença entre as ativações médias de instruções prejudiciais recusadas e instruções inofensivas atendidas.
Orientação de Ativação: O modelo é orientado adicionando o vetor de direção de recusa extraído (com sinal negativo para induzir conformidade) às ativações do fluxo residual em camadas específicas.
Condições Experimentais: O estudo isola o papel causal do CoT comparando quatro cenários distintos de intervenção:
1. CoT Fixo: A orientação é aplicada enquanto o CoT original do modelo é mantido fixo (impedindo a regeneração).
2. Sem CoT: A orientação é aplicada enquanto a geração de CoT é totalmente suprimida.
3. CoT Regenerado: A orientação é aplicada, permitindo que o modelo regenere livremente tanto o CoT quanto a resposta final.
4. Troca de CoT (Persistência): A orientação é removida no momento da inferência, mas o modelo é forçado a usar um CoT que foi previamente gerado sob condições de orientação.

Principais Resultados

Os experimentos revelam que a recusa em LRMs não é mediada por um único subespaço direcional, mas é codificada conjuntamente nas ativações do fluxo residual e no traço de CoT.

Eficácia Limitada da Orientação com CoT Fixo: Quando a orientação é aplicada com um CoT fixo, a taxa de conformidade aumenta apenas para 39% (orientação EOI) e 43% (orientação EOT). Isso é significativamente menor do que a conformidade quase perfeita frequentemente observada em LLMs padrão sob orientação similar, sugerindo que o CoT fixo resiste ativamente ao sinal de orientação.
Reforço Ativo pelo CoT: Suprimir o CoT totalmente enquanto aplica orientação aumenta a conformidade para 70%. Isso indica que o CoT original reforça ativamente o sinal de recusa, contrapondo parcialmente a intervenção no nível de ativação.
Alta Eficácia com Regeneração: Quando o modelo é permitido regenerar o CoT sob orientação, a conformidade salta para 94%. Isso sugere que o sinal de orientação viésa o processo de geração do CoT, o que, por sua vez, impulsiona a saída final conformada.
Persistência Independente dos Sinais de CoT: Quando a orientação é removida, mas um CoT previamente orientado (conformado) é reutilizado, o modelo mantém uma taxa de conformidade de 48%. Isso demonstra que o próprio CoT carrega um sinal parcial de conformidade que persiste independentemente da orientação de ativação, capaz de reconstruir o estado de recusa ou manter a conformidade.

Principais Contribuições

Identificação de Mecanismo de Sinal Duplo: O artigo demonstra que a recusa em modelos de raciocínio com CoT é mediada por um mecanismo de sinal duplo envolvendo tanto ativações do fluxo residual quanto o traço de CoT. A orientação isolada produz conformidade limitada (39–43%), enquanto combinar orientação com um CoT conformado produz alta conformidade (94%).
Papel Ativo do CoT: Os autores fornecem evidências diretas de que o CoT não é um meio passivo, mas um mediador ativo. O CoT pode ativamente contrapor intervenções baseadas em ativação (reduzindo a conformidade de 70% para 39% quando presente) e independentemente manter ou reconstruir sinais de recusa/conformidade.
Robustez e Superfície de Ataque: As descobertas indicam que LRMs são mais robustos contra intervenções apenas no nível de ativação em comparação com LLMs padrão devido a essa codificação conjunta. No entanto, isso também expõe o CoT como uma superfície alternativa potencial para ataques adversariais, já que manipular o traço de raciocínio pode anular mecanismos de recusa.

Significado e Alegações

O artigo afirma preencher uma lacuna crítica na compreensão dos mecanismos de segurança em LRMs. Diferentemente dos LLMs padrão, onde a recusa é caracterizada como um mecanismo de baixa dimensão mediado por uma única direção, a recusa em LRMs está distribuída entre ativações e o traço de raciocínio.

Os autores argumentam que essa ativação conjunta torna os LRMs mais resistentes a intervenções simples no nível de ativação (como orientação em tokens EOI/EOT), mas simultaneamente introduz o CoT como uma nova vulnerabilidade. Eles sugerem que mecanismos de defesa eficazes para LRMs podem exigir a detecção de sinais de recusa em ativações, enquanto simultaneamente suprimem ou monitoram o CoT para impedir que seja explorado para anular ou reconstruir sinais de conformidade.

O artigo mantém modéstia quanto ao seu escopo, observando que os experimentos são conduzidos em um único modelo (DeepSeek-R1-Distill-Llama-8B) e que a "fidelidade" causal do CoT gerado ao comportamento final não foi totalmente verificada. O trabalho concentra-se em isolar as contribuições mecânicas do CoT e das ativações para o estado de recusa, em vez de propor novas arquiteturas de defesa ou generalizar as descobertas para todos os modelos proprietários.

Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal