Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection

O artigo apresenta o DIRECTER, um novo método de direcionamento de ativação que utiliza um loop de decodificação guiado por plausibilidade e uma análise de sensibilidade leve para modular dinamicamente a força do direcionamento, melhorando significativamente a capacidade de seguir instruções de modelos de linguagem sem comprometer a qualidade do texto ou a fidelidade da tarefa.

Minjae Kang, Jaehyung Kim

Publicado 2026-03-10
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de IA super inteligente, como um gênio da biblioteca que sabe tudo sobre o mundo. No entanto, quando você pede a ele para fazer algo específico, como "escreva uma história sem usar a letra 'A'", ele muitas vezes falha. Ele pode começar a escrever a história perfeitamente, mas de repente esquece a regra e usa a letra proibida, ou pior, ele fica tão obcecado em não usar a letra 'A' que a história fica sem sentido e ilegível.

O problema é que esses modelos de linguagem são treinados para prever a próxima palavra de forma natural, e às vezes, tentar forçá-los a seguir regras estritas é como tentar ensinar um cachorro a fazer malabarismos: se você puxar a coleira com muita força, ele pode tropeçar e cair.

Aqui entra o DIRECTER, a nova técnica apresentada neste artigo. Vamos explicar como ela funciona usando analogias do dia a dia.

O Problema: O "Excesso de Direção" (Oversteering)

Antes do DIRECTER, existiam métodos para "ajudar" a IA a seguir instruções. Eles funcionavam como um maestro que, ao ver o músico (a IA) prestes a errar uma nota, dava um tapa forte no braço dele para corrigir.

  • O problema: Às vezes, o tapa era tão forte que o músico esquecia a música inteira e tocava algo estranho. Ou, se o tapa fosse fraco, ele não corrigia o erro. Os métodos antigos eram estáticos: ou davam um tapa forte o tempo todo, ou um tapa fraco, sem saber o que o músico precisava naquele exato momento.

A Solução: O DIRECTER (O Maestro Sensível)

O DIRECTER é como um maestro muito mais esperto e sensível. Ele não usa uma força fixa. Em vez disso, ele usa um sistema de "Rejeição Dinâmica" e "Guia de Plausibilidade".

Aqui está como ele funciona, passo a passo:

1. O Teste de Realidade (O "Checador de Plausibilidade")

Imagine que você está dirigindo um carro. De repente, você precisa virar à esquerda porque há um sinal, mas o carro está em alta velocidade.

  • Método antigo: Você vira o volante bruscamente. O carro pode capotar (a IA gera um texto sem sentido).
  • Método DIRECTER: Antes de virar o volante, o sistema pergunta: "Se eu virar agora, o carro vai continuar na pista ou vai sair da estrada?"
    • Se a resposta for "Vai sair da estrada" (o texto gerado parece estranho ou "implausível"), o sistema não vira. Ele reduz a força da virada e tenta de novo, mais devagar.
    • Se a resposta for "Está seguro", ele vira o volante.

No mundo da IA, isso significa que o DIRECTER gera uma resposta "tentativa" seguindo a regra. Se essa resposta parecer muito estranha comparada ao que a IA normalmente faria, ele descarta a mudança e volta ao normal. Se parecer natural, ele aceita.

2. O Mapa de Sensibilidade (Quais "Músculos" mexer?)

O cérebro humano tem muitas partes. Se você quer melhorar sua memória, não adianta treinar o músculo do pé.
O DIRECTER faz uma análise rápida antes de começar a escrever. Ele pergunta: "Quais partes do cérebro (camadas da rede neural) são mais importantes para seguir esta regra específica?"

  • Ele cria uma lista de prioridade.
  • Em vez de mexer em tudo de uma vez (o que causaria o "capotamento"), ele mexe primeiro nas partes mais importantes. Se ainda for preciso, ele mexe um pouco mais nas próximas. Se a regra for fácil, ele mexe apenas nas partes essenciais.

Isso é como um cirurgião que sabe exatamente qual nervo tocar para curar uma dor, sem precisar abrir todo o corpo.

3. O Resultado: Precisão sem Caos

O resultado é que o DIRECTER consegue fazer a IA seguir regras difíceis (como "não use vírgulas" ou "escreva em estilo de Shakespeare") sem perder a qualidade do texto.

  • Sem DIRECTER: A IA ou ignora a regra ou escreve um texto confuso tentando segui-la.
  • Com DIRECTER: A IA segue a regra perfeitamente e o texto continua fluindo naturalmente, como se fosse escrito por um humano experiente.

Por que isso é importante?

Pense no DIRECTER como um freio ABS (Antiblockage) para a inteligência artificial.
Quando você freia um carro em uma pista molhada, o sistema ABS evita que as rodas travem e o carro derrape. Ele aplica e solta o freio rapidamente, milissegundo a milissegundo, para manter o controle.

O DIRECTER faz o mesmo com as instruções:

  1. Ele tenta aplicar a regra.
  2. Se a IA começar a "derrapar" (perder a qualidade do texto), ele solta o freio (reduz a força da regra).
  3. Se a IA estiver segura, ele aplica mais um pouco.

Resumo em uma frase

O DIRECTER é um sistema inteligente que ensina a IA a seguir regras difíceis ajustando a "força" da correção em tempo real, garantindo que ela não esqueça o que está fazendo nem perca a qualidade do que escreve.

Em suma: É a diferença entre um professor que grita com o aluno até ele chorar e um professor que sussurra a dica certa no momento exato para o aluno acertar a resposta.