Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection

Each language version is independently generated for its own context, not a direct translation.

Imaginez que les grands modèles de langage (comme ceux qui font tourner les chatbots) sont comme de super-cuisiniers. Ils sont incroyablement talentueux pour préparer des plats complexes (écrire du code, raconter des histoires, résoudre des maths). Mais parfois, si vous leur donnez une recette très précise avec des contraintes bizarres (par exemple : "Fais une recette, mais n'utilise jamais le mot 'sel'"), ils peuvent soit :

Oublier la consigne et mettre du sel partout (ils ne suivent pas les instructions).
Devenir trop zélés et arrêter de cuisiner correctement pour éviter le sel, finissant par vous servir un plat immangeable ou sans goût (c'est ce qu'on appelle le "sur-ajustement" ou oversteering).

Les chercheurs de l'Université Yonsei ont créé une nouvelle méthode appelée DIRECTER pour régler ce problème. Voici comment cela fonctionne, expliqué simplement :

1. Le problème : Le "Sur-ajustement" (Oversteering)

Avant DIRECTER, les méthodes existantes pour forcer le modèle à suivre les instructions agissaient comme un mécanicien qui serre un boulon à fond.

Si le boulon est trop serré, le moteur (le modèle) se bloque ou fait des bruits étranges (le texte devient bizarre).
Si le boulon est trop lâche, le moteur ne suit pas la route (le modèle ignore la consigne).
Le problème, c'est que les anciens mécaniciens utilisaient la même force pour chaque boulon, peu importe la situation.

2. La solution : DIRECTER, le "Chef de Cuisine Intuitif"

DIRECTER est comme un chef de cuisine très expérimenté qui surveille la préparation en temps réel. Au lieu de simplement forcer le modèle à suivre la règle, il utilise un cercle de vérification intelligent (une boucle de décodage guidée par la vraisemblance).

Voici son processus en trois étapes simples :

Étape A : La "Carte des Sensibilités" (Layer Ranking)

Avant même de commencer à cuisiner, DIRECTER fait une petite analyse rapide. Il regarde le modèle et se dit : "Quelles parties de mon cerveau sont les plus importantes pour cette tâche ?".

Imaginez que le modèle est un orchestre. DIRECTER identifie quels instruments (les couches du modèle) sont les plus sensibles pour jouer la bonne note. Il les classe par ordre d'importance.

Étape B : Le "Test de Goût" (Plausibility Check)

C'est le cœur de la méthode. À chaque mot que le modèle écrit, DIRECTER fait une simulation rapide :

Il applique la consigne (par exemple : "Pas de virgules !") en utilisant les instruments les plus sensibles.
Il compare le résultat avec ce que le modèle aurait dit naturellement sans aide.
Le test : Est-ce que le nouveau mot proposé est encore "vraisemblable" ? Est-ce que ça ressemble toujours à une phrase humaine ?

Étape C : Le "Frein Dynamique" (Dynamic Rejection)

C'est ici que la magie opère :

Si le résultat est bon (le mot est logique ET respecte la règle) : DIRECTER valide le mot et continue.
Si le résultat est bizarre (le modèle a trop forcé et produit un mot étrange) : DIRECTER dit "Non, trop fort !". Il relâche immédiatement la pression en utilisant moins d'instruments (moins de couches) pour la prochaine tentative.
Il répète ce processus jusqu'à trouver le juste milieu.

L'analogie du "Régulateur de Vitesse"

Imaginez que vous conduisez une voiture sur une route sinueuse (la tâche) avec un passager qui vous crie des consignes précises (l'instruction).

Les anciennes méthodes étaient comme un pilote automatique rigide qui braquait le volant à fond dès qu'il entendait "tourne à gauche", même si la route était trop étroite, ce qui faisait sortir la voiture de la route.
DIRECTER, lui, est comme un co-pilote expert. Il regarde la route, tourne le volant pour suivre la consigne, mais si la voiture commence à dériver ou à faire des embardées, il relâche immédiatement le volant pour stabiliser le véhicule, puis réessaie avec plus de douceur.

Pourquoi c'est génial ?

Pas de perte de qualité : Le texte reste fluide et naturel, car DIRECTER rejette les tentatives qui rendent le texte bizarre.
Pas de formation coûteuse : Il n'a pas besoin d'apprendre de nouvelles données. Il analyse le modèle une seule fois au début, puis s'adapte dynamiquement.
Efficace : Il ne ralentit pas trop la voiture (le calcul), car il a un mécanisme pour sauter les vérifications inutiles quand le modèle est déjà sûr de lui.

En résumé

DIRECTER est un régulateur de précision pour les intelligences artificielles. Il permet de leur donner des instructions strictes sans les transformer en robots maladroits qui oublient de parler correctement. C'est comme avoir un assistant qui sait exactement à quel moment pousser le modèle vers la consigne et à quel moment le laisser respirer pour garder la qualité de l'écriture.

Each language version is independently generated for its own context, not a direct translation.

Titre : Amélioration de la conformité aux instructions des LLM via le pilotage d'activation avec rejet dynamique

1. Problématique

Les Grands Modèles de Langage (LLM), malgré les avancées du fine-tuning (ajustement par instruction), éprouvent souvent des difficultés à suivre des instructions complexes ou contraignantes. Une approche prometteuse pour résoudre ce problème est le pilotage d'activation (activation steering), qui consiste à manipuler les états internes du modèle (comme les caches KV ou les distributions d'attention) lors de l'inférence pour orienter la génération.

Cependant, les méthodes existantes souffrent d'un risque majeur : le sur-pilotage (oversteering). Une emphase excessive sur l'instruction peut dégrader la précision de la tâche principale et la qualité globale du texte généré. De plus, ces méthodes reposent souvent sur des hyperparamètres fixes (manuellement réglés) qui ne s'adaptent pas à la dynamique changeante de la génération de texte à chaque étape de décodage, rendant le contrôle statique et inefficace.

2. Méthodologie : DIRECTER

Les auteurs proposent DIRECTER (Dynamic Rejection Steering), une nouvelle méthode de pilotage qui résout le problème du sur-pilotage grâce à une boucle de décodage guidée par la plausibilité et un mécanisme de rejet dynamique.

A. Pilotage par mise à l'échelle du Cache KV
DIRECTER intervient directement sur le cache des clés et des valeurs (KV Cache). Au lieu d'ajouter des vecteurs de biais, la méthode applique un facteur d'échelle ( $\alpha$ ) aux vecteurs de clés correspondant aux tokens de l'instruction. Cela modifie les scores d'attention pour renforcer l'influence de l'instruction sans nécessiter de réentraînement.

B. Boucle de décodage guidée par la plausibilité
C'est le cœur de l'innovation. À chaque étape de décodage :

Le modèle effectue d'abord une passe avant standard pour obtenir la distribution de probabilité brute ( $p_t$ ).
Il effectue ensuite une passe avant pilotée (avec le cache KV modifié) pour obtenir une distribution pilotée ( $\tilde{p}_t$ ).
Vérification de plausibilité : Le token de plus haute probabilité de la distribution pilotée ( $\tilde{i}^*_t$ ) est comparé à la distribution brute. L'intervention n'est acceptée que si la probabilité de ce token dans la distribution brute est suffisamment élevée :
$p_{t, \tilde{i}^*_t} \geq \beta \cdot p_{t, i^*_t}$
où $\beta$ est un seuil de plausibilité.
Rejet dynamique : Si la condition n'est pas remplie (le token piloté est jugé "improbable" par le modèle original), la force du pilotage est progressivement réduite en éliminant la moitié des couches les moins sensibles de la liste candidate. Ce cycle se répète jusqu'à ce qu'un token piloté soit accepté ou que le pilotage soit désactivé (retour à la distribution brute).

C. Classement des couches par sensibilité à l'attention
Pour optimiser le processus de réduction de la force de pilotage, DIRECTER effectue une analyse de sensibilité en une seule passe avant le début de la génération.

Pour chaque couche $\ell$ , le système mesure la perturbation (disturbance score) causée par le pilotage d'une seule couche sur l'ensemble des couches du modèle.
Ce score combine l'impact direct sur la sortie de la couche et l'impact propagé sur les couches suivantes.
Les couches sont ensuite classées par ordre de sensibilité. Lors du décodage, si le pilotage est trop agressif, ce sont les couches les moins sensibles qui sont retirées en premier, préservant ainsi les couches critiques pour la cohérence du texte.

D. Mécanisme de Gating (Filtrage)
Pour réduire la surcharge computationnelle, un mécanisme de gating permet de sauter l'essai de pilotage si la distribution brute montre une forte confiance (la probabilité du deuxième token est très faible par rapport au premier), garantissant que le pilotage ne changerait pas le résultat de toute façon.

3. Contributions Clés

Mécanisme de rejet dynamique : Première méthode à ajuster dynamiquement la force du pilotage à chaque étape de décodage en fonction de la plausibilité du token généré, évitant ainsi le sur-pilotage.
Stratégie de sélection de couches : Introduction d'une métrique de sensibilité basée sur l'attention pour identifier et prioriser les couches les plus influentes, permettant un contrôle fin sans recherche de grille coûteuse.
Efficacité et compatibilité : La méthode ne nécessite pas de jeu de données supplémentaire pour l'entraînement et est compatible avec les optimisations standard comme FlashAttention. Elle peut également servir de "porte de sécurité" pour améliorer d'autres méthodes de pilotage existantes.

4. Résultats Expérimentaux

Les évaluations ont été menées sur plusieurs benchmarks rigoureux, notamment IFEval (conformité stricte aux instructions), LIFBench (contexte long) et GSM8K-Format (raisonnement avec contraintes de formatage).

Performance : DIRECTER améliore la précision moyenne de 6,5 % par rapport à la ligne de base (Zero-shot) et surpasse les méthodes de pilotage précédentes (PASTA, SpotLight) d'environ 4 %.
Qualité de génération : Contrairement aux autres méthodes qui sacrifient souvent la qualité du texte ou la fidélité de la tâche pour suivre les instructions, DIRECTER maintient une fidélité de tâche élevée (≈92 %) et une qualité textuelle équivalente aux modèles non pilotés.
Robustesse : La méthode est robuste aux variations de l'échelle de clé ( $\alpha$ ) et du seuil de plausibilité ( $\beta$ ), et fonctionne efficacement sur différents modèles (Llama-3, Qwen-2.5) et échelles (de 1B à 14B paramètres).
Efficacité : Bien qu'il y ait un coût initial pour le classement des couches, le débit global (throughput) n'est réduit que d'environ 16 % par rapport au Zero-shot, et reste plus rapide que SpotLight. La surcharge mémoire est négligeable.

5. Signification et Impact

DIRECTER représente une avancée significative vers des LLM plus fiables et contrôlables. En passant d'un pilotage statique à un contrôle dynamique et auto-correctif, la méthode démontre qu'il est possible d'améliorer radicalement la capacité des modèles à suivre des instructions complexes sans dégrader leur performance intrinsèque.

Cela ouvre la voie à des applications où la conformité stricte aux contraintes (formatage, sécurité, style) est cruciale, tout en préservant la fluidité et la pertinence du contenu généré. De plus, le mécanisme de plausibilité proposé peut être généralisé comme une couche de sécurité pour d'autres techniques d'intervention sur les modèles.

Code disponible : L'implémentation est publique sur GitHub (https://github.com/mjk0618/directer).