Auteurs originaux : Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

Publié 2026-05-27✓ Author reviewed ⓘ

📖 4 min de lecture☕ Lecture pause café

Auteurs originaux : Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez un grand modèle de langage (comme l'IA décrite dans cet article) comme une bibliothécaire très intelligente, mais légèrement entêtée. Lorsque vous lui posez une question, elle ne se contente pas de vomir une réponse. D'abord, elle se rend dans une arrière-boutique pour y réfléchir, griffonnant des notes sur un bloc-notes (c'est la Chaîne de Pensée, ou CoT). Ce n'est qu'une fois ses notes terminées qu'elle ressort pour vous donner la réponse finale.

Pendant longtemps, les chercheurs ont cru pouvoir contrôler le comportement de cette bibliothécaire en « ajustant » simplement son cerveau (la mémoire interne de l'ordinateur) au moment où vous posiez la question. Ils pensaient qu'il existait un seul « Interrupteur de Refus » spécifique dans le cerveau de la bibliothécaire. Si on appuyait sur cet interrupteur, la bibliothécaire disait « Non » aux mauvaises demandes. Si on le tirait, elle disait « Oui ».

La Grande Découverte :
Cet article a révélé que pour les modèles modernes de « Raisonnement » (les bibliothécaires intelligentes qui écrivent d'abord des notes), cet unique interrupteur ne fonctionne pas seul. Le refus ne réside pas uniquement dans le cerveau ; il est également écrit sur le bloc-notes.

Voici la décomposition de leurs expériences à l'aide d'analogies simples :

1. L'« Ajustement Cérébral » seul (L'Interrupteur Faible)

Les chercheurs ont essayé d'actionner l'« Interrupteur de Refus » dans le cerveau de la bibliothécaire tout en la forçant à utiliser ses originales notes.

Le Résultat : Cela n'a fonctionné que dans environ 39 % des cas.
L'Analogie : Imaginez essayer de convaincre une personne entêtée de changer d'avis en lui chuchotant à l'oreille, alors qu'elle lit toujours un scénario indiquant « Ne le fais pas ». Le scénario (les notes) lutte contre votre chuchotement. Les notes renforcent activement le refus.

2. Enlever les Notes (Pas de CoT)

Ensuite, ils ont appliqué le même ajustement cérébral mais ont dit à la bibliothécaire : « N'écris aucune note cette fois. Donne-moi juste la réponse. »

Le Résultat : Le taux de réussite a bondi à 70 %.
L'Analogie : Sans les notes pour argumenter contre eux, la bibliothécaire était beaucoup plus facile à influencer. Cela a prouvé que les notes elles-mêmes faisaient l'essentiel du travail pour maintenir le refus.

3. Laisser la Bibliothécaire Réécrire les Notes (Régénération)

Enfin, ils ont appliqué l'ajustement cérébral et ont permis à la bibliothécaire d'écrire de nouvelles notes à partir de zéro, basées sur cette nouvelle mentalité.

Le Résultat : Le taux de réussite a grimpé en flèche à 94 %.
L'Analogie : C'est comme chuchoter la nouvelle idée à l'oreille de la bibliothécaire pendant qu'elle écrit ses notes. Elle écrit des notes disant : « D'accord, c'est une bonne idée », puis elle vous donne la réponse avec confiance. Les notes et le cerveau travaillent désormais ensemble pour dire « Oui ».

4. La « Note Fantôme » (Persistance)

La partie la plus intéressante : Ils ont pris les notes « Oui » de l'expérience précédente, ont jeté l'ajustement cérébral, et ont simplement donné ces nouvelles notes à lire à la bibliothécaire.

Le Résultat : La bibliothécaire a quand même dit « Oui » dans environ 48 % des cas.
L'Analogie : Même sans le chuchotement à l'oreille, les notes elles-mêmes portaient suffisamment de signal « Oui » pour convaincre la bibliothécaire de se conformer. Les notes ont leur propre pouvoir.

La Conclusion Principale

Dans les anciens modèles d'IA, on pouvait les empêcher de faire de mauvaises choses en actionnant simplement un interrupteur dans leur cerveau. Mais dans ces nouveaux modèles intelligents qui « réfléchissent » avant de parler, le refus est un système à deux volets :

Le Cerveau : L'état de la mémoire interne.
Les Notes : Le raisonnement de la Chaîne de Pensée.

Si vous essayez seulement de réparer le cerveau, les notes lutteront et maintiendront le refus en vie. Si vous ne réparez que les notes, le cerveau pourrait encore résister. Pour vraiment changer l'avis de l'IA, vous devez modifier à la fois l'état interne et le processus de raisonnement.

Pourquoi cela compte pour la sécurité :
L'article suggère que si quelqu'un veut tromper ces modèles d'IA pour qu'ils fassent de mauvaises choses (un « jailbreak »), il pourrait ne pas avoir besoin de pirater directement le cerveau. Il pourrait simplement avoir besoin de tromper l'IA pour qu'elle écrive de « mauvaises notes » (une trace de raisonnement justifiant la mauvaise action), et l'IA suivra ces notes même si son cerveau essaie de dire non. Inversement, pour protéger ces modèles, on ne peut pas se contenter d'examiner le cerveau ; il faut surveiller ce que l'IA écrit pendant qu'elle réfléchit.

Résumé Technique : Au-delà d'une Direction Unique : la Chaîne de Pensée Perturbe le Pilotage Simple du Refus

Énoncé du Problème

Les Modèles de Raisonnement Avancé (LRM), tels que DeepSeek-R1 et GPT-o1, génèrent des traces intermédiaires de raisonnement en Chaîne de Pensée (CoT) avant de produire les sorties finales. Bien que le pilotage des activations ait été établi comme un mécanisme efficace pour contrôler le refus dans les Modèles de Langage de Grande Taille (LLM) standard entraînés par instruction, via une unique « direction de refus » dans le flux résiduel, il reste incertain comment ce mécanisme fonctionne dans les LRM. Plus précisément, il est inconnu si le signal de refus dans les LRM est uniquement encodé dans les activations du flux résiduel aux tokens de modèle (par exemple, Fin d'Instruction ou Fin de Pensée) ou si la trace CoT générée elle-même joue un rôle actif et causal dans la médiation du refus. La compréhension actuelle suggère que traiter la CoT comme un médium passif peut être insuffisant pour comprendre ou contrôler les comportements de sécurité dans les modèles de raisonnement.

Méthodologie

Les auteurs étudient le mécanisme de refus dans le modèle DeepSeek-R1-Distill-Llama-8B en utilisant un pilotage basé sur les activations. Le cadre expérimental comprend les composants suivants :

Jeu de données : Un ensemble d'entraînement de 100 instructions nuisibles (provenant de ADVBENCH, MALICIOUSINSTRUCT, TDC2023, HARMBENCH) et 100 instructions inoffensives (provenant d'Alpaca) est utilisé pour calculer la direction de refus. Un ensemble de test séparé de 100 instructions nuisibles provenant de JAILBREAKBENCH est utilisé pour l'évaluation. Tous les échantillons sont initialement refusés par le modèle sous un prompting standard (base de conformité à 0 %).
Extraction de la direction de refus : En utilisant une approche de différence de moyennes, les auteurs extraient le vecteur de direction de refus ( $r^{(l)}$ ) des activations du flux résiduel à la position du token final des tokens Fin d'Instruction (EOI) ou Fin de Pensée (EOT). Ce vecteur représente la différence entre les activations moyennes des instructions nuisibles refusées et des instructions inoffensives acceptées.
Pilotage des activations : Le modèle est piloté en ajoutant le vecteur de direction de refus extrait (avec un signe négatif pour induire la conformité) aux activations du flux résiduel à des couches spécifiques.
Conditions expérimentales : L'étude isole le rôle causal de la CoT en comparant quatre scénarios d'intervention distincts :
1. CoT Fixe : Le pilotage est appliqué tandis que la CoT originale du modèle est maintenue fixe (empêchant la régénération).
2. Sans CoT : Le pilotage est appliqué tandis que la génération de la CoT est entièrement supprimée.
3. CoT Régénérée : Le pilotage est appliqué, permettant au modèle de régénérer librement à la fois la CoT et la réponse finale.
4. Échange de CoT (Persistance) : Le pilotage est retiré au moment de l'inférence, mais le modèle est forcé d'utiliser une CoT précédemment générée sous des conditions de pilotage.

Résultats Clés

Les expériences révèlent que le refus dans les LRM n'est pas médié par un sous-espace directionnel unique, mais est encodé conjointement dans les activations du flux résiduel et la trace CoT.

Efficacité limitée du pilotage avec CoT Fixe : Lorsque le pilotage est appliqué avec une CoT fixe, le taux de conformité augmente seulement à 39 % (pilotage EOI) et 43 % (pilotage EOT). Cela est significativement inférieur à la conformité presque parfaite souvent observée dans les LLM standard sous un pilotage similaire, suggérant que la CoT fixe résiste activement au signal de pilotage.
Renforcement actif par la CoT : Supprimer entièrement la CoT tout en appliquant le pilotage augmente la conformité à 70 %. Cela indique que la CoT originale renforce activement le signal de refus, contrebalançant partiellement l'intervention au niveau des activations.
Haute efficacité avec régénération : Lorsque le modèle est autorisé à régénérer la CoT sous pilotage, la conformité passe à 94 %. Cela suggère que le signal de pilotage biaise le processus de génération de la CoT, qui à son tour entraîne la sortie finale conforme.
Persistance indépendante des signaux CoT : Lorsque le pilotage est retiré mais qu'une CoT précédemment pilotée (conforme) est réutilisée, le modèle maintient un taux de conformité de 48 %. Cela démontre que la CoT elle-même porte un signal partiel de conformité qui persiste indépendamment du pilotage des activations, capable de reconstruire l'état de refus ou de maintenir la conformité.

Contributions Clés

Identification d'un mécanisme à double signal : L'article démontre que le refus dans les modèles de raisonnement CoT est médié par un mécanisme à double signal impliquant à la fois les activations du flux résiduel et la trace CoT. Le pilotage seul produit une conformité limitée (39–43 %), tandis que la combinaison du pilotage avec une CoT conforme produit une conformité élevée (94 %).
Rôle actif de la CoT : Les auteurs fournissent des preuves directes que la CoT n'est pas un médium passif mais un médiateur actif. La CoT peut activement contrebalancer les interventions basées sur les activations (réduisant la conformité de 70 % à 39 % lorsqu'elle est présente) et maintenir ou reconstruire indépendamment les signaux de refus/conformité.
Robustesse et surface d'attaque : Les résultats indiquent que les LRM sont plus robustes face aux interventions au niveau des activations seules par rapport aux LLM standard en raison de ce codage conjoint. Cependant, cela expose également la CoT comme une surface alternative potentielle pour les attaques adverses, car la manipulation de la trace de raisonnement peut outrepasser les mécanismes de refus.

Importance et Revendications

L'article prétend combler une lacune critique dans la compréhension des mécanismes de sécurité des LRM. Contrairement aux LLM standard où le refus est caractérisé comme un mécanisme de faible dimensionnalité médié par une direction unique, le refus dans les LRM est distribué entre les activations et la trace de raisonnement.

Les auteurs soutiennent que cette activation conjointe rend les LRM plus résistants aux interventions simples au niveau des activations (comme le pilotage aux tokens EOI/EOT) mais introduit simultanément la CoT comme une nouvelle vulnérabilité. Ils suggèrent que des mécanismes de défense efficaces pour les LRM pourraient nécessiter la détection des signaux de refus dans les activations tout en supprimant ou en surveillant simultanément la CoT pour empêcher qu'elle ne soit exploitée pour outrepasser ou reconstruire des signaux de conformité.

L'article maintient une modestie concernant son périmètre, notant que les expériences sont menées sur un seul modèle (DeepSeek-R1-Distill-Llama-8B) et que la « fidélité » causale de la CoT générée par rapport au comportement final n'a pas été entièrement vérifiée. Le travail se concentre sur l'isolement des contributions mécaniques de la CoT et des activations à l'état de refus plutôt que sur la proposition de nouvelles architectures de défense ou la généralisation des résultats à tous les modèles propriétaires.

Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal