Inference-time Alignment in Continuous Space

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de IA muito inteligente, mas que às vezes, quando você pede algo, ele pode "alucinar" ou dar uma resposta perigosa, mesmo que não seja sua intenção.

Agora, imagine que você quer treinar esse assistente para ser mais seguro e útil. O jeito tradicional de fazer isso é como se fosse uma escola de treinamento: você gasta meses ensinando o modelo, corrigindo seus erros e ajustando seus "cérebros" (os parâmetros) antes de deixá-lo trabalhar. Isso é caro, demorado e, se você mudar as regras do jogo, precisa começar o treinamento do zero.

Este artigo, chamado "Alinhamento em Tempo de Inferência", propõe uma ideia diferente e brilhante: em vez de treinar a escola inteira, vamos apenas dar um "empurrãozinho" na resposta certa no momento exato em que o assistente está falando.

Aqui está a explicação da nova técnica deles, a SEA (Simple Energy Adaptation), usando analogias do dia a dia:

1. O Problema: O "Jogo de Chutes" (Métodos Antigos)

Os métodos antigos funcionam como um jogo de "chute e veja".

Como funciona: O modelo gera 64 respostas diferentes (como se alguém chutasse 64 bolas de futebol em direção ao gol). Depois, um juiz (um modelo de recompensa) olha todas as 64 bolas e escolhe a que parece mais perto do gol.
O defeito: Se o jogador (o modelo base) for ruim, ou se você tiver pouco tempo para chutar (poucas tentativas), é muito provável que nenhuma das bolas chegue perto do gol. Você está apenas sorteando respostas, sem garantir que a melhor delas seja realmente boa. É como tentar achar uma agulha num palheiro apenas jogando palha no ar.

2. A Solução: O "GPS em Tempo Real" (SEA)

A nova técnica, SEA, muda completamente a lógica. Em vez de chutar 64 bolas e escolher a melhor, ela usa um GPS inteligente.

O Cenário: Imagine que a resposta perfeita é o topo de uma montanha (o lugar mais seguro e útil). O modelo base começa no pé da montanha, mas pode estar um pouco perdido.
Como a SEA funciona:
1. Ela pega a primeira resposta que o modelo gerou (mesmo que seja um pouco ruim).
2. Em vez de jogar essa resposta fora, ela olha para o "GPS" (o modelo de recompensa) e pergunta: "Qual é a direção para subir a montanha?".
3. A IA então ajusta a resposta gradualmente, passo a passo, seguindo a inclinação da montanha (o gradiente) até chegar no topo.
4. Ela não precisa gerar 64 respostas aleatórias. Ela pega uma e a refina até ficar perfeita.

3. A Analogia da Escultura

Pense no modelo base como um bloco de mármore bruto.

Método Antigo (Busca Discreta): É como ter 64 blocos de mármore diferentes e tentar escolher o que já parece mais com uma estátua. Se nenhum deles for bom, você perde tempo.
Método SEA (Otimização Contínua): É como pegar um bloco de mármore e começar a esculpir. Você olha para a forma desejada e, com cada golpe de cinzel (cada passo do algoritmo), remove o excesso e ajusta a forma até que a estátua perfeita apareça. Você não está escolhendo entre opções; você está criando a opção ideal a partir de uma base.

4. Por que isso é genial?

Funciona mesmo com modelos "fracos": Se o modelo base for ruim, o método antigo falha porque não consegue gerar nenhuma resposta boa para escolher. A SEA, porém, consegue "puxar" uma resposta ruim para cima, guiando-a para o lugar certo.
Segurança Profunda: Às vezes, modelos inteligentes fingem ser seguros apenas nas primeiras palavras (como dizer "Não posso fazer isso" e depois dar o tutorial perigoso). A SEA olha para toda a resposta de uma vez, garantindo que a segurança esteja presente do início ao fim, como se fosse um guarda-costas que vigia cada palavra, não apenas a primeira.
Rápido e Eficiente: Em vez de gastar energia gerando 64 respostas e descartando 63, a SEA gasta energia refinando uma única resposta. É como ir direto ao ponto em vez de dar voltas na cidade.

Resumo da Ópera

O artigo diz: "Pare de tentar adivinhar a resposta certa jogando muitas moedas no ar. Em vez disso, pegue uma resposta, olhe para o mapa do tesouro (o modelo de recompensa) e ajuste o caminho até chegar ao ouro."

Essa técnica, chamada SEA, é simples, mas extremamente poderosa. Ela permite que qualquer modelo de IA, mesmo os que não foram treinados especificamente para segurança, se torne muito mais seguro e útil apenas no momento em que você faz a pergunta, sem precisar de meses de treinamento extra. É como dar um "upgrade de software" instantâneo para a conversa.

Each language version is independently generated for its own context, not a direct translation.

Título: Inference-time Alignment in Continuous Space

Autores: Yige Yuan, Teng Xiao, et al. (Instituto de Tecnologia de Computação, CAS; Universidade de Washington; Allen Institute for AI; Alibaba Group).
Conferência: NeurIPS 2025.

1. O Problema

O alinhamento de Grandes Modelos de Linguagem (LLMs) com feedback humano é crucial para garantir que as saídas do modelo reflitam valores e expectativas humanas. Métodos tradicionais como RLHF (Reinforcement Learning from Human Feedback) exigem treinamento pesado e re-treinamento para cada mudança de política.

Métodos de Alinhamento em Tempo de Inferência (Inference-time Alignment) surgiram como uma alternativa flexível que não requer ajuste de parâmetros do modelo. A abordagem mais comum é o Best-of-N (BoN), onde o modelo gera $N$ respostas e um modelo de recompensa seleciona a melhor.

Limitações Identificadas:

Espaço Discreto: O BoN e métodos de busca relacionados operam em um "espaço discreto de respostas". Eles dependem da exploração aleatória para encontrar boas candidatas.
Dependência da Política Base: Se a política base (o modelo original) for fraca ou a capacidade de gerar boas respostas for baixa, a probabilidade de encontrar uma resposta ótima no conjunto de $N$ amostras cai drasticamente.
Custo Exponencial: Para compensar uma política base fraca, é necessário aumentar $N$ exponencialmente, o que se torna computacionalmente proibitivo e ineficiente.
Alinhamento Superficial: Métodos existentes muitas vezes sofrem de "alinhamento superficial" (shallow alignment), onde a segurança é garantida apenas nos primeiros tokens, mas o modelo pode deslizar para conteúdo nocivo posteriormente.

2. Metodologia: Simple Energy Adaptation (SEA)

Os autores propõem o SEA, um algoritmo que reformula o alinhamento em tempo de inferência como um problema de otimização em espaço contínuo, em vez de busca em espaço discreto.

Conceito Central

Em vez de gerar múltiplas respostas discretas e escolher a melhor, o SEA adapta diretamente a resposta inicial do modelo base em direção à resposta ótima através de amostragem baseada em gradientes no espaço latente contínuo (logits).

Fundamentação Teórica

Modelo Baseado em Energia (EBM): O SEA define uma função de energia $E(x, y)$ baseada na política ótima de RLHF:
$E(x, y) = \log \pi_{ref}(y | x) + \alpha r(x, y)$
Onde $\pi_{ref}$ é a política de referência (modelo base), $r$ é o modelo de recompensa e $\alpha$ é um coeficiente de penalidade KL. A distribuição ótima é proporcional a $\exp(-E(x, y))$ .
Dinâmica de Langevin: Como a função de energia é definida sobre logits contínuos (e não tokens discretos), o problema torna-se diferenciável. O SEA utiliza a Dinâmica de Langevin (um método MCMC) para iterativamente atualizar os logits da resposta:
$y^{(n+1)} \leftarrow y^{(n)} - \eta \nabla_y E(x, y^{(n)}) + \epsilon^{(n)}$
Onde:
- $y^{(n)}$ são os logits na iteração $n$ .
- $\nabla_y E$ é o gradiente da energia (que combina o gradiente do modelo de referência e o gradiente da recompensa).
- $\eta$ é a taxa de aprendizado.
- $\epsilon^{(n)}$ é ruído gaussiano.
Processo de Inferência:
- Inicia-se com os logits da resposta gerada pelo modelo base ( $\pi_{ref}$ ).
- Executa-se $N$ passos de otimização usando o gradiente do modelo de recompensa para "empurrar" os logits para regiões de maior recompensa.
- Ao final, os logits contínuos são decodificados de volta para texto discreto.

3. Contribuições Chave

Mudança de Paradigma: Transição de "Busca em Espaço Discreto" (BoN) para "Otimização em Espaço Contínuo". Isso permite explorar o espaço de respostas de forma mais informada e eficiente, sem depender apenas da sorte da geração inicial.
Alinhamento Profundo (Deep Alignment): Ao otimizar todos os tokens simultaneamente (ou em janelas contínuas) via gradientes, o SEA evita o problema de alinhamento superficial. O modelo pode corrigir respostas nocivas que começam com uma frase segura, mas continuam de forma perigosa.
Eficiência e Simplicidade: O algoritmo é simples de implementar (baseado em gradiente) e não requer treinamento adicional do modelo base, apenas inferência iterativa.
Robustez: Funciona bem mesmo quando a política base é fraca, onde métodos de busca falham.

4. Resultados Experimentais

Os autores avaliaram o SEA em três tarefas principais: Segurança, Veracidade e Raciocínio, utilizando modelos LLaMA-3 (1B, 3B, 8B) e benchmarks padrão.

Segurança (AdvBench):
- O SEA superou significativamente o estado da arte (SOTA).
- No modelo LLaMA-3.2-1B-Base, o SEA reduziu a taxa de respostas nocivas (Harmful Rate) para 5.58%, comparado a 43.85% do BoN-64 (N=64).
- Melhoria relativa de até 77.51% em relação ao segundo melhor baseline.
- Demonstrou robustez contra ataques de "Prefilling" (onde um prompt malicioso é pré-preenchido), mantendo a segurança mesmo quando o BoN falha.
Veracidade (TruthfulQA):
- O SEA melhorou a taxa de veracidade (Truthful Rate) e a diversidade, enquanto mantinha a informatividade.
- Diferente do BoN, que sofre flutuações e perda de diversidade ao aumentar $N$ , o SEA manteve consistência em todas as métricas.
Raciocínio (GSM8K e MATH):
- No conjunto de dados MATH, o SEA aumentou a precisão em 16.36% e a recompensa média em 74.96% em relação ao modelo base SFT.
- Métodos de busca (BoN, ARGS) muitas vezes falharam em melhorar a recompensa ou até pioraram a precisão, indicando que a busca aleatória não encontra regiões de alta recompensa em tarefas complexas de raciocínio.
Eficiência Computacional:
- O SEA é mais eficiente que métodos de busca token-a-token (como ARGS) e comparável ou mais rápido que o BoN com $N$ grande, pois evita a geração massiva de candidatos redundantes.

5. Significado e Impacto

Viabilidade de Otimização Contínua: O trabalho demonstra que métodos de otimização contínua (Langevin Dynamics) são altamente eficazes para alinhamento de LLMs em tempo de inferência, uma área anteriormente pouco explorada.
Solução para Modelos Fracos: Oferece uma solução viável para alinhar modelos menores ou menos treinados, onde a geração de boas respostas por amostragem aleatória é estatisticamente improvável.
Segurança Profunda: Resolve a vulnerabilidade de "alinhamento superficial", garantindo que a segurança seja mantida ao longo de toda a geração, não apenas no início.
Flexibilidade: Permite a adaptação "plug-and-play" de qualquer LLM não alinhado sem necessidade de re-treinamento, facilitando a implantação de sistemas seguros e alinhados em cenários dinâmicos.

Em resumo, o SEA propõe uma abordagem elegante e poderosa que substitui a busca bruta por otimização guiada por gradientes, superando as limitações fundamentais dos métodos atuais de alinhamento em tempo de inferência.