Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy
Este trabalho apresenta a "Energy Landscape Steering" (ELS), uma abordagem livre de ajuste fino que utiliza um modelo externo baseado em energia para orientar as ativações internas de modelos de linguagem durante a inferência, mitigando eficazmente a recusa excessiva a solicitações benignas sem comprometer a segurança.