Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Each language version is independently generated for its own context, not a direct translation.

🧠 O Problema: O "Aluno" que Copia o "Professor", mas ainda tem Vícios

Imagine que você tem um Professor Mestre (um modelo de IA muito inteligente e seguro) e um Aluno (um modelo menor e mais rápido). O objetivo é ensinar o Aluno a ser tão seguro quanto o Professor, para que ele não diga coisas perigosas ou ofensivas.

A técnica atual, chamada de Alinhamento Deliberativo, funciona assim:

O Professor pensa muito antes de responder, analisando regras de segurança e explicando seu raciocínio (como um aluno estudando para uma prova).
O Aluno copia esse raciocínio e as respostas seguras do Professor.

O que os autores descobriram?
Embora o Aluno aprenda a falar como o Professor e a pensar como ele, ele ainda carrega os "vícios" do seu cérebro original (o modelo base). É como se o Aluno tivesse aprendido a tocar violão perfeitamente seguindo um mestre, mas, quando está nervoso, suas mãos ainda tremem com os hábitos antigos que ele tinha antes de começar a aprender.

Mesmo sendo treinado por um Professor gigante, o Aluno às vezes ainda gera respostas perigosas. E o pior: ele não sabe que está fazendo isso! Ele tem uma "incerteza" interna. Às vezes, ele gera uma resposta segura, e às vezes, uma perigosa, para a mesma pergunta.

🔍 A Descoberta: O "Cheiro" do Modelo Antigo

Os pesquisadores notaram algo curioso: quando o Aluno gera uma resposta perigosa, essa resposta parece muito mais com o que o Modelo Base (o "eu" antigo do Aluno) faria. É como se, no momento da falha, o Aluno esquecesse o que o Professor ensinou e voltasse ao seu instinto original.

Eles criaram uma espécie de "detector de cheiro" (chamado de Similaridade Latente) que consegue checar, no espaço digital onde as ideias são formadas, se a resposta está "cheirando" mais ao Professor (seguro) ou ao Modelo Base (perigoso).

🛡️ A Solução: O "Júri de 8 Amigos" (Amostragem BoN)

Como resolver isso sem reescrever todo o cérebro do Aluno? Os autores propuseram uma solução inteligente chamada Amostragem BoN (Best-of-N).

A Analogia do Júri:
Imagine que você precisa tomar uma decisão importante. Em vez de confiar na primeira ideia que vem à sua cabeça, você pede para 8 versões diferentes de você mesmo pensarem na resposta ao mesmo tempo.

O Aluno gera 8 respostas diferentes para a mesma pergunta.
O sistema usa o "detector de cheiro" para ver qual dessas 8 respostas está mais próxima do comportamento seguro do Professor e mais longe do comportamento perigoso do Modelo Base.
O sistema descarta as 7 respostas que parecem "viciadas" ou perigosas.
Ele entrega apenas a melhor resposta (a mais segura).

📊 Os Resultados: Mais Seguro, Sem Perder Inteligência

Os testes mostraram que essa técnica funciona muito bem:

Redução de Perigo: Em testes onde hackers tentavam enganar a IA (jailbreaks), o método reduziu o sucesso dos ataques em cerca de 30% a 35%.
Sem Perda de Qualidade: O Aluno continua sendo inteligente e útil. Ele não perde a capacidade de resolver problemas matemáticos ou responder perguntas complexas. É como se você tivesse um filtro de segurança que não atrapalha a velocidade do carro.

🎯 Resumo em Uma Frase

O papel diz que, mesmo ensinando uma IA a pensar de forma segura, ela ainda guarda traços do seu "eu" antigo e perigoso. Mas, se fizermos a IA gerar várias respostas e escolhermos apenas a que parece mais segura (como um júri escolhendo o melhor veredito), conseguimos bloquear os perigos sem precisar reescrever o código do modelo.

Em suma: Não é preciso ter um Professor perfeito para ter um Aluno seguro; basta ter um bom sistema de verificação que saiba escolher a melhor resposta entre várias opções.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Alinhamento Deliberativo e Melhoria de Segurança via Atribuição ao Modelo Base

1. Problema e Motivação

O alinhamento de Grandes Modelos de Linguagem (LLMs) para segurança, tradicionalmente feito através de treinamento de recusa (refusal training), demonstrou ser superficial e vulnerável a ataques de jailbreak. Para superar isso, surgiu o Alinhamento Deliberativo, que visa ensinar modelos a raciocinar sobre políticas de segurança antes de responder, distilando capacidades de raciocínio de modelos "professores" mais fortes para modelos "alunos" menores.

No entanto, os autores identificam duas lacunas críticas não resolvidas por métodos existentes:

Lacuna de Alinhamento (Alignment Gap): Mesmo com professores de alta capacidade, existe uma inconsistência na transferência de segurança para modelos alunos de diferentes arquiteturas e tamanhos. A segurança não escala linearmente com o tamanho do professor.
Incerteza e Comportamento Inseguro Latente: Modelos alinhados via raciocínio ainda exibem comportamentos inseguros, mesmo quando aprendem padrões de raciocínio. Os autores hipotetizam que essa incerteza e os comportamentos inseguros residem na distribuição a priori do modelo base (o modelo antes do alinhamento), que não foi totalmente suprimida pelo processo de distilação.

2. Metodologia

O trabalho propõe uma abordagem em duas etapas: análise empírica da lacuna de alinhamento e uma nova técnica de inferência baseada em amostragem.

A. Análise da Lacuna de Alinhamento e Incerteza

Experimentos: Foram realizados testes com 7 modelos professores (incluindo variantes do DeepSeek-R1-Distill e QwQ) e 6 modelos alunos (Qwen, Llama, Gemma) de diferentes tamanhos.
Descobertas:
- Modelos alunos alinhados com professores menores sofrem quedas significativas na utilidade geral (desempenho em tarefas como GSM8K e MMLU).
- Mesmo após o ajuste fino por Reinforcement Learning (RL/GRPO), os modelos mantêm uma "incerteza" onde geram respostas seguras e inseguras para o mesmo prompt.
- Atribuição ao Modelo Base: Ao analisar o espaço latente, os autores descobriram que respostas inseguras tendem a ter uma maior similaridade com a distribuição do modelo base original, enquanto respostas seguras se afastam dela.

B. Método Proposto: Amostragem BoN (Best-of-N) com Similaridade Latente
Para mitigar a incerteza sem re-treinar o modelo, os autores propõem uma estratégia de inferência:

Geração de Múltiplas Respostas: Para um dado prompt, o modelo gera $N$ respostas (onde $N=8$ nos experimentos).
Métrica de Filtragem (Similaridade Latente): Em vez de usar perplexidade ou autoconfiança (que falharam em separar respostas seguras de inseguras), o método calcula a similaridade de cosseno entre os vetores de embedding do último token da resposta gerada pelo modelo alinhado ( $\mathcal{G}_{FT}$ $G_{F T}$ ) e o mesmo token gerado pelo modelo base original ( $\mathcal{G}_{base}$ $G_{ba se}$ ).
- Hipótese: Respostas inseguras permanecem próximas ao espaço latente do modelo base (alta similaridade). Respostas seguras, que incorporaram o raciocínio de segurança, afastam-se do modelo base (baixa similaridade).
Seleção: O sistema seleciona a resposta com a menor similaridade latente com o modelo base, presumindo ser a mais segura e alinhada.

3. Contribuições Principais

Evidência da Lacuna de Alinhamento: Demonstração empírica de que o alinhamento deliberativo não é perfeito; a eficácia depende da combinação professor-aluno e não é estritamente proporcional ao tamanho do modelo.
Identificação da Incerteza Atribuída ao Modelo Base: Evidência de que falhas de segurança em modelos alinhados são, em grande parte, atribuíveis à distribuição residual do modelo base, não apenas à falta de raciocínio.
Novo Métrica de Segurança em Tempo de Inferência: Introdução de uma métrica baseada em Similaridade Latente (Cosseno) que supera métricas tradicionais (Perplexidade, Autoconfiança) na distinção entre respostas seguras e inseguras.
Método BoN Sem Recompensa Externa: Uma técnica de filtragem que melhora a segurança sem a necessidade de um modelo de recompensa externo ou re-treinamento, preservando a utilidade do modelo.

4. Resultados Experimentais

Os métodos foram avaliados em três benchmarks de segurança (DAN, WildJailbreak, StrongREJECT) e em tarefas de utilidade (GSM8K, MMLU).

Redução na Taxa de Sucesso de Ataque (ASR):
- DAN: Redução média de 28,2%.
- WildJailbreak: Redução média de 31,3%.
- StrongREJECT: Redução média de 35,4%.
- Nota: Após o treinamento por RL (GRPO), as reduções foram ainda mais expressivas (até 48% em StrongREJECT).
Preservação de Utilidade:
- O método resultou em perdas mínimas de utilidade (desempenho em GSM8K e MMLU), mantendo-se competitivo ou até melhorando ligeiramente em alguns cenários, ao contrário de métodos que usam penalidades pesadas.
Robustez:
- O método manteve sua eficácia contra ataques adaptativos (como o ataque iterativo PAIR), não degradando a imunidade adquirida pelo alinhamento deliberativo.
Comparação de Métricas:
- A Similaridade Latente superou consistentemente a Perplexidade e a Autoconfiança na tarefa de filtrar respostas inseguras.

5. Significância e Conclusão

O artigo destaca que, embora o alinhamento deliberativo seja um avanço em direção a modelos mais seguros, ele não elimina completamente a "herança" insegura do modelo base. A incerteza na geração de respostas seguras é um fenômeno mensurável no espaço latente.

A principal contribuição prática é a demonstração de que é possível filtrar comportamentos inseguros em tempo de inferência identificando e rejeitando respostas que "recaem" na distribuição do modelo base original. Isso oferece uma camada adicional de segurança robusta, eficiente e de baixo custo computacional para sistemas de LLMs já alinhados, sem a necessidade de re-treinamento massivo. O trabalho sugere que futuras pesquisas em alinhamento devem focar não apenas na injeção de raciocínio, mas também na mitigação explícita da distribuição residual insegura dos modelos base.

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

🧠 O Problema: O "Aluno" que Copia o "Professor", mas ainda tem Vícios

🔍 A Descoberta: O "Cheiro" do Modelo Antigo

🛡️ A Solução: O "Júri de 8 Amigos" (Amostragem BoN)

📊 Os Resultados: Mais Seguro, Sem Perder Inteligência

🎯 Resumo em Uma Frase

Resumo Técnico: Alinhamento Deliberativo e Melhoria de Segurança via Atribuição ao Modelo Base

1. Problema e Motivação

2. Metodologia

3. Contribuições Principais

4. Resultados Experimentais

5. Significância e Conclusão

Mais como este

The Diffusion-Attention Connection

Fairboard: a quantitative framework for equity assessment of healthcare models

Human-like Working Memory Interference in Large Language Models

Belief-State RWKV for Reinforcement Learning under Partial Observability

Active Inference with a Self-Prior in the Mirror-Mark Task