Auteurs originaux : Keenan Pepper, Alex McKenzie, Florin Pop, Stijn Servaes, Martin Leitgab, Mike Vaiana, Judd Rosenblatt, Michael S. A. Graziano, Diogo de Lucena

Publié 2026-06-03✓ Author reviewed ⓘ

📖 6 min de lecture🧠 Analyse approfondie

CC BY 4.0

Auteurs originaux : Keenan Pepper, Alex McKenzie, Florin Pop, Stijn Servaes, Martin Leitgab, Mike Vaiana, Judd Rosenblatt, Michael S. A. Graziano, Diogo de Lucena

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez un Grand Modèle de Langage (LLM) comme une bibliothèque gigantesque et incroyablement complexe. À l'intérieur de cette bibliothèque, l'information n'est pas stockée sous forme de livres que l'on peut lire ; elle est stockée dans un réseau massif et invisible de signaux électriques (activations) qui s'activent lorsque le modèle « réfléchit ».

Pendant longtemps, des chercheurs ont tenté de jeter un coup d'œil derrière le rideau pour voir ce que signifient ces signaux. Ils ont construit des outils pour mapper ces signaux à des concepts (comme « mathématiques » ou « politesse »), mais ces outils sont capricieux. Si vous tournez un cadran, même légèrement, le modèle peut commencer à parler un charabia fluide qui semble être une explication, mais qui n'est pas réellement connecté à ce qu'il est en train de penser.

Ce papier présente une nouvelle façon de corriger cela. Voici l'idée centrale, décomposée avec des analogies simples :

1. Le Problème : Le « Traducteur » est Cassé

Imaginez que les signaux internes du modèle soient un code secret. Auparavant, les chercheurs tentaient de traduire ce code en injectant directement le signal dans la bouche du modèle et en lui demandant : « Qu'est-ce que cela signifie ? »

Le Problème : Parfois le modèle comprend, mais souvent il s'embrouille. Il pourrait dire : « Ce signal signifie "une petite colline de terre" » alors qu'il signifie en réalité « une fonction informatique ». C'est comme essayer de traduire une langue étrangère en devinant les mots ; vous avez la grammaire correcte, mais le sens est faux.

2. La Solution : Entraîner un « Adaptateur Léger »

Au lieu de tenter de réentraîner toute la bibliothèque géante (ce qui est coûteux et modifie le fonctionnement de la bibliothèque), les auteurs ont entraîné un petit adaptateur spécialisé.

L'Analogie : Considérez l'adaptateur comme un traducteur spécialisé ou une paire de lunettes.
- La bibliothèque géante (le modèle) reste exactement la même ; elle n'apprend rien de nouveau.
- L'adaptateur est un petit ajout (comme une lentille) qui se place devant les yeux du modèle.
- Les auteurs ont entraîné cette lentille en utilisant des « artefacts d'interprétabilité ». Ce sont comme des fiches de révision que les chercheurs ont déjà créées : un côté possède un vecteur de signal, et l'autre un label (ex : « Ce signal = 'Baseball' »).
- L'adaptateur apprend à ajuster le signal pour que le modèle puisse enfin « voir » ce qu'il pense et le décrire correctement.

3. L'Ingrédient Magique : Le « Biais » (Le Réglage par Défaut)

La découverte la plus surprenante est que l'adaptateur n'a pas besoin d'être un supercalculateur. Une version très simple fonctionne le mieux.

L'Analogie : Imaginez que l'adaptateur possède deux parties :
1. Le Signal : La chose spécifique à laquelle le modèle pense en ce moment (ex : « Platon »).
2. Le Biais : Un « réglage par défaut » ou une habitude mentale que l'adaptateur a apprise.
Le papier a découvert que ce « biais » effectue 85 % du travail important. Il ne dicte pas le format de la question posée (qui est fourni par l'utilisateur), mais il enseigne au modèle le style et le format de la réponse générée.
La Preuve : Les auteurs ont prouvé cela de manière amusante : lorsqu'ils ont entraîné l'adaptateur sur des étiquettes écrites en MAJUSCULES, les explications générées par le modèle sortaient aussi en MAJUSCULES. Or, la phrase de la question (ex: « Que signifie ce signal ? ») restait en minuscules car elle était fournie par le chercheur. La seule chose capable de transmettre ce style « MAJUSCULE » à la réponse était donc le vecteur de biais appris par l'adaptateur. C'est comme si l'adaptateur apprenait à l'étudiant à écrire avec un ton particulier (sérieux, humoristique, ou en majuscules) pour n'importe quel sujet.

4. Ce Qu'Ils Ont Découvert

Meilleur que les Labels Originaux : Les adaptateurs n'ont pas seulement copié les fiches de révision d'entraînement ; ils sont devenus meilleurs pour décrire les signaux que les labels originaux écrits par les chercheurs. C'est comme un étudiant qui apprend d'un manuel et qui finit par écrire un meilleur résumé que l'auteur du manuel.
Dévoiler les Pensées Cachées : Le modèle peut parfois résoudre une énigme sans énoncer ses étapes à voix haute (par exemple, répondre « Athènes » à une énigme sur Platon sans mentionner Platon). L'adaptateur entraîné peut « lire dans l'esprit du modèle » et révéler cette pensée cachée « Platon », même si le modèle ne l'a jamais dite.
Plus le Modèle est Grand = Meilleur Traducteur : À mesure que les modèles deviennent plus grands (passant de 7 milliards à 72 milliards de paramètres), l'adaptateur devient encore meilleur pour traduire ces pensées. Le modèle ne se contente pas de devenir plus intelligent pour répondre aux questions ; il devient meilleur pour expliquer comment il pense.

5. Pourquoi Cela Importe (Selon le Papier)

Le papier soutient que nous n'avons pas besoin de modifier le modèle lui-même pour le comprendre. En ajoutant simplement ce petit « traducteur » gelé, entraîné sur des données existantes, nous pouvons obtenir une fenêtre fiable sur l'état interne du modèle.

L'Avantage de l'Auto-Interprétation : La vraie force de garder le modèle principal inchangé est que le modèle interprète lui-même ses propres pensées. Comme l'explique l'auteur : « Crucialement, l'ajout renvoie ces motifs vers le même modèle, de sorte que le modèle s'interprète lui-même. Cela ouvre la porte à une future IA capable d'examiner sa propre pensée de l'intérieur. »
Scalabilité et Cohérence : Contrairement à d'autres méthodes où l'on entraîne un modèle différent pour expliquer le premier (ce qui crée une chaîne d'interprètes), ici, tout se passe dans un seul et même cerveau. Cela permet une auto-examen récursif : le modèle peut examiner une explication de ses propres pensées, puis examiner ses pensées sur cette explication, le tout sans changer de modèle.
Universalité : Cette méthode fonctionne sur différents types de modèles (Llama, Gemma, Qwen) et s'améliore à mesure que les modèles grandissent.

En bref : Le papier démontre que si vous donnez à un modèle de langage un petit « traducteur » entraîné sur des cartes existantes de son cerveau, il peut vous dire de manière fiable ce qu'il pense, même pour des pensées complexes ou cachées, sans avoir besoin d'être réentraîné ou modifié.

Résumé technique : Apprentissage de l'auto-interprétation à partir d'artefacts d'interprétabilité

1. Énoncé du problème

Les grands modèles de langage (LLM) opèrent via des activations cachées de haute dimension, mais la compréhension du contenu sémantique de ces états internes reste un défi central pour l'interprétabilité. Bien que l'interprétabilité mécaniste ait produit des connaissances structurées (par exemple, les caractéristiques d'auto-encodeurs creux [SAE] et les vecteurs d'activation contrastifs), les modèles ne peuvent pas rapporter de manière fiable leurs propres états internes.

Les méthodes d'auto-interprétation existantes, telles que celles utilisant le patch de l'activation (par exemple, SelfIE, Patchscopes), tentent d'injecter des représentations internes dans des prompts pour générer des explications en langage naturel. Cependant, ces méthodes sont fragiles :

Sensibilité aux hyperparamètres : De légers changements dans l'échelle des vecteurs injectés peuvent produire des explications fluides mais sémantiquement non fondées.
Fragilité : La plupart des vecteurs ont des plages de validité étroites pour l'échelle d'injection ; en dehors de ces plages, le modèle génère des descriptions confiantes mais incorrectes.
Limites du fine-tuning : Les approches récentes qui affinent les modèles pour répondre à des questions sur les activations modifient les poids du modèle, changeant potentiellement les représentations mêmes qui sont étudiées. Idéalement, l'interprète devrait rester identique au modèle sujet.

2. Méthodologie

Les auteurs proposent d'entraîner un adaptateur léger sur des artefacts d'interprétabilité existants pour mapper les activations internes vers le langage, tout en gardant le modèle de langage (LM) de base entièrement gelé.

2.1. Cadre d'entraînement

Entrée : La méthode utilise des « artefacts d'interprétabilité » comme données de supervision, spécifiquement des paires vecteur-étiquette $(h, y)$ $(h, y)$ .
- Source 1 : Vecteurs de décodeur SAE couplés à des étiquettes d'auto-interprétabilité.
- Source 2 : Vecteurs d'activation contrastifs (dérivés de prompts comme « Parlez-moi de [sujet] ») couplés à des descriptions de sujets synthétiques.
Processus :
1. Un vecteur d'activation $h$ est extrait d'un prompt source (par exemple, une couche spécifique du LM).
2. Une fonction d'adaptateur légère $f(h)$ transforme ce vecteur.
3. Le vecteur transformé est injecté dans un « prompt cible » (un template de recherche d'explication) au niveau de la couche d'embedding des tokens (couche 0).
4. Le LM gelé génère une description de manière autorégressive.
5. Objectif : Minimiser la perte de cross-entropy entre les tokens générés et l'étiquette de vérité terrain $y$ . Seuls les paramètres de l'adaptateur sont mis à jour ; le LM reste gelé.

2.2. Architectures d'adaptateurs

Le papier évalue des adaptateurs avec des capacités d'expression variables :

Identité : $f(h) = h$ (0 paramètre)
Échelle uniquement (Scale-only) : $f(h) = \alpha \cdot h$ (1 paramètre)
Affine scalaire : $f(h) = \alpha \cdot h + b$ ( $d_{model} + 1$ paramètres)
Affine scalaire + Bas rang (Low-Rank) : Ajoute un terme de bas rang $UV^T h$
Affine plein rang (Full-Rank) : $f(h) = Wh + b $($ d_{model}^2 + d_{model}$ paramètres)

2.3. Inférence

Lors de l'inférence, l'adaptateur entraîné mappe un vecteur d'activation non vu vers l'espace d'embedding des tokens. Pour traiter la sensibilité à l'échelle, le système évalue plusieurs échelles d'injection (à partir d'une grille logarithmique) et sélectionne la génération candidate la plus performante.

3. Contributions clés et résultats

3.1. Supériorité des adaptateurs entraînés

L'entraînement d'adaptateurs légers surpasse de manière significative les baselines non entraînées (SelfIE) et les étiquettes d'entraînement originales elles-mêmes.

Étiquetage de caractéristiques SAE : Sur Llama-3.3-70B, les adaptateurs entraînés ont atteint un taux de réussite de score de génération de 70 %, surpassant les étiquettes d'entraînement originales (50 %) et le SelfIE non entraîné (48 %).
Identification de sujets : Sur les vecteurs d'activation contrastifs, le rappel@1 est passé d'environ 1 % (non entraîné) à >90 % (entraîné).
Raisonnement implicite : La méthode a réussi à décoder des « entités ponts » dans des tâches de raisonnement multi-étapes (par exemple, identifier « Platon » dans une requête sur l'auteur de La République sans que le modèle ne verbalise l'étape intermédiaire). Les adaptateurs entraînés ont détecté les entités ponts dans 91 % des cas contre 56 % pour les baselines non entraînées.

3.2. Le rôle critique du vecteur de biais

Une découverte surprenante est qu'un adaptateur affine scalaire avec seulement $d_{model} + 1$ paramètres suffit pour la plupart des gains.

Le vecteur de biais ( $b$ ) appris représente à lui seul environ 85 % de l'amélioration par rapport aux baselines non entraînées.
Le biais agit comme un « a priori d'interprétation », orientant le modèle vers des formats de description valides et des motifs de contenu génériques, tandis que le vecteur d'entrée mis à l'échelle fournit la sémantique spécifique à l'instance.
Généralisation : Les adaptateurs plus simples (Affine scalaire) généralisent mieux à travers les jeux de données et les couches que les alternatives plus expressives.

3.3. Architecture vs Géométrie de représentation

La performance des architectures d'adaptateurs dépend fortement de la dimensionnalité intrinsèque des données d'entraînement :

Vecteurs contrastifs (Faible dimensionnalité) : Les vecteurs de sujets Wikipedia concentrent >90 % de la variance dans environ 200 dimensions. Ici, les adaptateurs Plein Rang (Full-Rank) réussissent et atteignent la meilleure performance sans surapprentissage.
Caractéristiques SAE (Haute dimensionnalité) : Les caractéristiques SAE couvrent presque tout l'espace d'activation. Ici, les adaptateurs Plein Rang font du surapprentissage catastrophique, apprenant une table de recherche de haute dimension. Des adaptateurs de type Affine scalaire ou Affine scalaire + Bas rang sont nécessaires pour éviter le surapprentissage et assurer la généralisation.

3.4. Comportement de mise à l'échelle (Scaling)

Le papier démontre que l'auto-interprétation s'améliore avec l'échelle du modèle, indépendamment des gains de capacité générale.

En utilisant une baseline « Tabou » (où le modèle décrit un sujet sans le nommer) comme plafond de connaissance, l'écart entre la connaissance du modèle et sa capacité à rapporter cette connaissance se réduit à mesure que la taille du modèle augmente (de 7B à 72B paramètres).
La performance de SelfIE entraîné croît plus vite que la capacité brute du modèle à décrire des sujets, suggérant que les modèles plus grands possèdent des structures sémantiques internes plus accessibles que l'adaptateur peut déverrouiller.

3.5. Généralisation inter-jeux de données et inter-modèles

Les adaptateurs entraînés sur un jeu de données (ex: sujets Wikipedia) se généralisent à d'autres (ex: caractéristiques SAE), bien que la performance soit maximale lorsque les distributions de données d'entraînement et d'inférence correspondent.
L'approche fonctionne à travers les familles de modèles (Llama, Gemma, Qwen) sans nécessendre de SAE spécifiques au modèle si l'on utilise des vecteurs contrastifs.

4. Signification et affirmations

Le papier affirme qu'une auto-interprétation fiable peut émerger de transformations légères sans modifier le modèle sous-jacent.

Recadrage des artefacts : L'idée centrale est que les artefacts d'interprétabilité (vecteurs étiquetés), traditionnellement vus comme des points terminaux d'analyse, peuvent être réutilisés comme données d'entraînement. Cela permet aux systèmes d'auto-interprétation de s'améliorer automatiquement à mesure que la recherche en interprétabilité progresse.
Préservation de l'accès privilégié : En gardant le modèle de base gelé, la méthode préserve l'« accès privilégié » de l'interprète aux états internes du modèle sujet, évitant les artefacts introduits par le fine-tuning.
Vérifiabilité : L'approche permet l'« apprentissage par renforcement à partir de récompenses internes » (RL from internal rewards), où les affirmations d'un modèle sur ses états internes peuvent être vérifiées par rapport au comportement (par exemple, via le scoring de génération), offrant une voie vers des modèles capables de fournir des preuves vérifiables de leurs propres internes.
Efficacité : L'entraînement de ces adaptateurs est peu coûteux en termes de calcul (environ 10 heures-GPU à l'échelle 70B), ce qui en fait une solution scalable pour l'audit des modèles de pointe.

Les auteurs concluent que bien que l'auto-interprétation offre une visibilité partielle, elle constitue un mécanisme crucial pour détecter quand les modèles encodent des concepts ou des intentions qui diffèrent de leurs sorties exprimées, contribuant ainsi à la sécurité de l'IA et à l'audit de l'alignement.

Learning Self-Interpretation from Interpretability Artifacts: Training Lightweight Adapters on Vector-Label Pairs