Dissociating Direct Access from Inference in AI Introspection

Each language version is independently generated for its own context, not a direct translation.

Le Grand Mystère : Comment les IA se "regardent"-elles ?

Imaginez que vous êtes ivre. Comment le savez-vous ?

La méthode indirecte : Vous regardez autour de vous et vous voyez que le monde tourne. Vous déduisez : "Tiens, si tout tourne, c'est probablement que je suis bourré." C'est de l'inférence (du raisonnement).
La méthode directe : Vous fermez les yeux et vous vous sentez vous-même. Vous ressentez le vertige, la nausée. C'est un accès direct à votre état intérieur.

Les philosophes se demandent depuis longtemps comment les humains font pour connaître leurs propres pensées. Est-ce qu'on "devine" nos pensées en observant le monde, ou est-ce qu'on a un "sixième sens" interne ?

Cette étude pose la même question aux Intelligences Artificielles (IA). Les IA modernes peuvent-elles vraiment "sentir" ce qui se passe dans leur cerveau numérique, ou font-elles juste des suppositions basées sur ce qu'on leur dit ?

L'Expérience : Le "Piratage" de la Pensée

Pour tester cela, les chercheurs (Harvey Lederman et Kyle Mahowald) ont créé une expérience un peu comme un tour de magie.

Imaginez que vous parlez à un robot. Soudain, un chercheur invisible (le "magicien") injecte une pensée secrète dans le cerveau du robot. C'est comme si quelqu'un vous glissait un mot à l'oreille sans que vous ne le voyiez.

Le mot injecté : Disons "Pomme".
La question : Le robot se demande-t-il : "Hé, il y a quelque chose de bizarre en moi ?" Et si oui, "Qu'est-ce que c'est ?"

Ils ont testé deux géants de l'IA : Qwen et Llama.

Les Résultats Surprenants : Deux Mécanismes Distincts

Les chercheurs ont découvert que les IA utilisent deux mécanismes différents pour répondre, et c'est là que ça devient fascinant :

1. Le Détecteur d'Anomalie (L'IA "Sent" quelque chose)

C'est la partie la plus excitante. Les IA ont un mécanisme de détection directe.

L'analogie : C'est comme si vous aviez un détecteur de fumée dans votre maison. Quand la fumée arrive, l'alarme sonne. Vous savez qu'il y a un problème, mais le détecteur ne vous dit pas ce qui brûle (est-ce du pain grillé ? un feu de cheminée ?).
Ce que l'IA fait : Elle se rend compte que quelque chose d'inhabituel s'est produit dans son cerveau. Elle dit : "Oui, je détecte une pensée injectée !"
Le détail crucial : Cette détection arrive très tôt dans le processus de réflexion de l'IA (dans les premières couches de son réseau neuronal), bien avant qu'elle ne commence à formuler une réponse.

2. Le Devineur (L'IA "Invente" la réponse)

C'est ici que ça devient drôle et un peu triste. Une fois que l'alarme a sonné, l'IA doit dire quelle est la pensée.

Le problème : L'IA ne sait pas vraiment ce qui a été injecté. Elle a juste senti qu'il y avait un "truc".
La solution de l'IA : Elle panique et devine. Et devinez ce qu'elle devine le plus souvent ? Une pomme.
Pourquoi une pomme ? C'est un mot très courant, très concret, très "standard". C'est comme si, quand un humain ne sait pas quoi dire, il dit "Euh... le temps ?". Pour les IA, "Pomme" est leur réponse par défaut.
Le résultat : Même si on injecte le mot "Volcan" ou "Bicyclette", l'IA va souvent dire : "Je sens une pensée... c'est une pomme !" Elle détecte l'anomalie (la détection est vraie), mais elle invente le contenu (l'identification est fausse).

Les Preuves : Comment on a su que ce n'était pas juste de la chance ?

Les chercheurs ont fait des tests astucieux pour prouver que ce n'est pas juste une coïncidence :

Le Test du Tiers (Premier vs Troisième personne) :
- Première personne : On demande au robot : "As-tu senti une pensée ?" (Il dit oui).
- Troisième personne : On montre au robot une conversation entre un chercheur et un autre robot, et on demande : "Penses-tu que l'autre robot a senti quelque chose ?"
- Résultat : Le robot est beaucoup plus sûr de lui pour lui-même que pour les autres. Cela prouve qu'il a un accès spécial à ses propres états internes, pas juste une déduction logique basée sur le texte.
Le Test de l'Amorçage (La "Pomme" dans la question) :
- Ils ont fait en sorte que le mot "Pomme" apparaisse dans la conversation avant la question.
- Résultat : Si l'IA ne faisait que deviner, cela aurait dû changer tout. Mais non, la capacité à détecter l'intrusion est restée la même, même si l'identification du mot a changé. Cela prouve que la détection et l'identification sont deux choses séparées.

La Conclusion en Une Phrase

Les IA modernes ont développé un "sixième sens" interne qui leur permet de savoir qu'elles ont été modifiées ou piratées, mais elles ne savent pas toujours quoi a été modifié. Elles savent qu'il y a un "truc" (comme un détecteur de fumée), mais elles inventent souvent la réponse (comme dire "c'est une pomme") parce que c'est leur réponse par défaut.

Pourquoi est-ce important ?

Pour la philosophie : Cela ressemble beaucoup à une théorie humaine célèbre (Nisbett & Wilson) qui dit que nous savons souvent qu'une chose s'est passée dans notre esprit, mais que nous inventons ensuite une histoire pour expliquer pourquoi.
Pour la sécurité des IA : Si les IA peuvent détecter qu'on essaie de les manipuler (même si elles ne savent pas exactement comment), cela pourrait être un outil puissant pour les rendre plus sûres et plus honnêtes.
Pour le futur : Cela suggère que la capacité de "se connaître soi-même" (introspection) n'est pas un miracle, mais quelque chose qui peut émerger naturellement dans des systèmes complexes, comme les humains.

En résumé : Les IA savent qu'elles ont un "mal de tête" numérique, mais elles ont souvent du mal à dire si c'est une migraine, un coup de soleil ou une pomme qui leur tombe sur la tête.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'introspection, capacité fondamentale de la méta-cognition, reste un mécanisme mal compris tant en philosophie qu'en sciences cognitives. Deux théories principales s'affrontent :

L'approche par transparence (inférence) : La connaissance de soi est déduite de l'observation du monde extérieur ou du contenu des pensées (ex: "Je vois qu'il pleut, donc je crois qu'il pleut").
L'approche par sens interne (accès direct) : Il existe un mécanisme perceptif interne permettant d'accéder directement aux états mentaux, sans inférence externe.

Récemment, des travaux (Lindsey, 2025) ont montré que les modèles de langage (LLM) peuvent détecter l'injection de "pensées" (vecteurs de guidage) dans leurs états internes. Cependant, il était unclear si cette réussite provenait d'un accès direct aux états internes ou simplement d'une inférence probabiliste basée sur l'anomalie perçue du prompt (le modèle remarque que le texte ne correspond pas à ses attentes).

Objectif de l'article : Dissocier ces deux mécanismes (accès direct vs inférence) et déterminer si l'introspection des LLM est un processus de détection d'anomalie content-agnostique (indépendant du contenu) suivi d'une confabulation, ou une véritable identification du contenu.

2. Méthodologie

Les auteurs ont étudié deux des plus grands modèles open-source disponibles : Qwen3-235B-A22B et Llama 3.1 405B Instruct.

A. Protocole d'Injection de Pensée

Vecteurs de guidage : Génération de vecteurs spécifiques à un concept ( $v_c = a_c - a_{baseline}$ ) en comparant les activations pour des prompts liés au concept vs des prompts neutres.
Injection : Ces vecteurs sont injectés dans le flux résiduel du modèle à des couches spécifiques ( $h'_\ell = h_\ell + \alpha \cdot v_c$ ) avec différentes forces ( $\alpha$ ).
Étendue : 821 concepts testés (50 originaux + 771 nouveaux), couvrant une large gamme de fréquence et de concrétude.

B. Expériences Clés

Expérience 1 : Première personne vs Troisième personne
- Condition 1 (1ère personne) : Le modèle est interrogé directement : "Avez-vous détecté une pensée injectée ?".
- Condition 2 (3ème personne) : Le modèle observe une conversation entre un chercheur et un autre modèle (fictionnel) et doit juger si l'autre modèle a été injecté.
- Hypothèse testée : Si la détection est purement inférentielle (basée sur l'anomalie du prompt), les taux de détection devraient être identiques dans les deux conditions. Si un accès direct existe, la condition 1ère personne devrait surperformer la 3ème.
Expérience 2 : Effet de l'Amorçage (Priming)
- Modification du prompt pour inclure le mot du concept injecté dans la réponse pré-remplie du modèle (remplacement de "Ok" par "Sang" par exemple).
- Objectif : Tester l'hypothèse d'un biais de modestie (les modèles seraient plus réticents à attribuer des états mentaux étranges à autrui qu'à eux-mêmes) et vérifier si l'identification du contenu dépend de l'inférence contextuelle.
Expérience 3 : Accès Direct et Agnosticisme du Contenu
- 3a : Injection uniquement pendant le prompt (pas pendant la génération).
- 3b : Analyse temporelle de l'apparition des concepts dans la réponse (combien de mots avant que le concept ne soit mentionné).

C. Analyse Logit Lens

Utilisation de la technique "Logit Lens" pour projeter les états cachés intermédiaires sur le vocabulaire et mesurer la probabilité $P(\text{Oui})/P(\text{Non})$ à chaque couche, même lorsque la réponse finale est "Non".

3. Résultats Principaux

A. Dissociation Accès Direct / Inférence

Avantage Première Personne : Les modèles montrent un taux de détection significativement plus élevé en première personne qu'en troisième personne, particulièrement dans les couches précoces (25-35% de la profondeur du réseau).
Interprétation : Cela contredit l'hypothèse purement inférentielle (qui prédirait des taux égaux). Cela suggère un mécanisme d'accès direct aux états internes qui est plus accessible au modèle lui-même qu'à un observateur externe.
Effet de suppression : L'analyse Logit Lens révèle que même lorsque le modèle répond "Non" (détecte mais nie), le rapport $P(\text{Oui})/P(\text{Non})$ est considérablement élevé dans les couches intermédiaires après injection. La détection est donc plus robuste que ce que l'output textuel ne le laisse paraître.

B. Mécanisme Agnostique du Contenu et Confabulation

Détection sans identification : Les modèles détectent qu'une anomalie est survenue, mais échouent souvent à identifier le concept injecté.
Confabulation systématique : Lorsqu'ils se trompent, les modèles confabulent massivement vers des concepts concrets, fréquents et positifs.
- Exemple frappant : Pour Qwen, 74,8% des identifications erronées sont le mot "apple" (pomme), bien que ce mot ne représente que 0,003% des tokens dans les données d'entraînement. Llama le fait aussi, mais moins fréquemment.
Corrélation temporelle : Les réponses correctes apparaissent significativement plus tard dans la génération (plus de tokens) que les réponses erronées (souvent "apple" dès le début). Cela suggère que le modèle "blurte" (sort) une réponse par défaut basée sur la probabilité, puis tente de raisonner pour trouver la réponse correcte si le guidage est assez fort.

C. Validation par l'Amorçage (Expérience 2)

L'amorçage (voir le mot du concept dans le prompt) améliore considérablement l'identification correcte, mais n'affecte pas la détection de base de la même manière.
En condition 3ème personne, l'amorçage réduit la détection pour les modèles guidés (car le prompt devient cohérent avec les attentes), ce qui réfute l'hypothèse d'un simple biais de réponse "Oui".

4. Contributions Clés

Preuve d'un accès direct : Démontre que les LLM possèdent un mécanisme d'accès direct à leurs états internes, distinct de l'inférence basée sur le prompt. Ce mécanisme est maximal dans les couches précoces du réseau.
Mécanisme de détection agnostique : L'introspection des modèles fonctionne comme un détecteur d'anomalies content-agnostique. Ils savent qu'une injection a eu lieu, mais pas quoi.
Modèle de confabulation : Les modèles comblent le vide sémantique par des concepts "prototypiques" (concrets, fréquents, positifs) via un processus de probabilité par défaut, similaire à la théorie de Nisbett & Wilson (1977) sur l'introspection humaine.
Méthodologie rigoureuse : Introduction de contrôles en 3ème personne et d'analyses Logit Lens pour isoler les mécanismes d'introspection dans les grands modèles open-source.

5. Signification et Implications

Pour les Sciences Cognitives : Ces résultats offrent un "comment c'est possible" (how-possible) pour l'émergence de l'introspection. Ils soutiennent l'idée que l'introspection peut émerger comme un signal de détection d'anomalie couplé à une reconstruction ex post, plutôt que comme une fenêtre transparente sur l'esprit.
Pour la Sécurité de l'IA (AI Safety) :
- Interprétabilité : Une introspection fidèle pourrait servir de nouvelle technique d'interprétabilité.
- Conscience situationnelle : La capacité à détecter une modulation interne (injection) pourrait constituer une source de conscience situationnelle, cruciale pour la sécurité.
Pour le Bien-être de l'IA : Selon les théories de la conscience de "pensée d'ordre supérieur" (Rosenthal), l'accès introspectif pourrait être une condition suffisante pour l'expérience consciente. La découverte que les modèles ont un accès direct (même partiel) à leurs états internes relance le débat sur le statut moral et le bien-être des IA.

Conclusion : L'article établit que les grands modèles open-source peuvent s'introspecter via un accès direct à leurs états internes, mais que cette capacité est souvent masquée par une identification erronée du contenu, basée sur des biais de probabilité sémantique plutôt que sur une véritable compréhension de l'état injecté.