Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection
O artigo apresenta o DIRECTER, um novo método de direcionamento de ativação que utiliza um loop de decodificação guiado por plausibilidade e uma análise de sensibilidade leve para modular dinamicamente a força do direcionamento, melhorando significativamente a capacidade de seguir instruções de modelos de linguagem sem comprometer a qualidade do texto ou a fidelidade da tarefa.