Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection
Die Arbeit stellt DIRECTER vor, eine neue Methode zur Aktivierungssteuerung, die durch dynamische, plausibilitätsgeleitete Anpassung der Steuerungsstärke und eine KV-Cache-Skalierung die Instruktionsbefolgung von Large Language Models verbessert, ohne dabei die Textqualität oder Aufgabenfidelität zu beeinträchtigen.