Expert Selections In MoE Models Reveal (Almost) As Much As Text

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Secret des "Choix" de l'IA : Comment on peut lire vos messages sans jamais les voir

Imaginez que vous envoyez un message confidentiel à un ami via un service de messagerie ultra-sophistiqué. Vous pensez que votre message est sécurisé. Mais imaginez que, pendant le trajet, le service envoie une petite note à chaque étape du voyage disant : "J'ai pris la route A, puis la route B, puis la route C".

Ce papier de recherche (présenté à l'ICLR 2026) révèle quelque chose de troublant : ces notes de "routes prises" suffisent à reconstruire votre message original, mot par mot.

Voici comment cela fonctionne, expliqué avec des analogies du quotidien.

1. Le Contexte : L'IA "Mosaïque" (MoE)

Les grandes intelligences artificielles d'aujourd'hui sont souvent construites comme un immense restaurant avec des centaines de chefs (appelés "experts").

Quand vous posez une question, le restaurant ne fait pas travailler tous les chefs. C'est trop lent et trop cher.
À la place, un maître d'hôtel (le "routeur") regarde votre demande et décide : "Pour ce mot, on envoie le chef 4 et le chef 12. Pour le mot suivant, on envoie le chef 2 et le chef 99".
Seuls ces chefs spécifiques cuisinent le plat. C'est ce qu'on appelle un modèle "Mixture of Experts" (MoE).

2. Le Problème : La Fuite de la "Liste de Courses"

Le papier montre que le simple fait de savoir quels chefs ont été choisis pour chaque mot est une fuite d'information massive.

L'analogie : Imaginez que vous commandez un repas. Le serveur ne vous dit pas ce que vous avez mangé, mais il laisse traîner sur la table un petit ticket indiquant : "Chef 4 et Chef 12 ont travaillé sur le plat".
La découverte : Les chercheurs ont prouvé qu'un ordinateur peut regarder cette liste de chefs (les "experts") et deviner avec une précision effrayante quel plat a été commandé.
- Avec une méthode simple (comme un calcul rapide), ils devinent environ 63 % des mots juste en regardant la liste.
- Avec une méthode plus intelligente (une petite IA qui apprend les liens entre les mots), ils devinent 91 % des mots ! C'est comme si le ticket de caisse permettait de reconstruire tout le menu.

3. Comment les pirates pourraient le faire ? (Les Scénarios)

Comment un attaquant pourrait-il obtenir cette "liste de chefs" ? Le papier imagine plusieurs situations réalistes :

L'espion dans le serveur : Si l'IA tourne sur un ordinateur partagé (comme dans le cloud), un utilisateur malveillant pourrait voir quels "chefs" sont actifs sur la machine et deviner ce que vous tapez.
L'espionnage physique : Même si vous ne voyez pas l'écran, un pirate pourrait mesurer la consommation électrique ou les vibrations de l'ordinateur. Certains chefs consomment plus d'énergie que d'autres. En écoutant le "bruit" de la machine, on peut deviner quels chefs travaillent, et donc deviner votre texte.
Les logs internes : Parfois, les entreprises laissent des traces de ces choix dans leurs journaux de maintenance. Si ces journaux sont piratés, les messages sont compromis.

4. Pourquoi est-ce si grave ?

Jusqu'à présent, on pensait que ces choix de chefs étaient juste des détails techniques inoffensifs, comme le choix d'une couleur de fond sur un site web.
Ce papier dit : Non ! Ces choix sont aussi sensibles que le texte lui-même.

Si vous tapez un mot de passe, un numéro de carte bancaire ou un secret médical, l'IA choisit des chefs spécifiques.
En analysant ces choix, un pirate peut reconstituer votre secret, même s'il n'a jamais vu l'écran ni intercepté le message.

5. Que faire pour se protéger ? (Les Solutions)

Les auteurs proposent quelques idées pour boucher ces fuites, un peu comme on mettrait un rideau devant la cuisine :

Ne pas montrer le ticket : Ne jamais afficher, ni enregistrer, ni envoyer la liste des chefs choisis. Traitez cette information comme si c'était le message secret lui-même.
Ajouter du "bruit" : Faire en sorte que le choix des chefs soit un peu aléatoire ou flou. C'est comme si le maître d'hôtel choisissait parfois un chef au hasard pour brouiller les pistes. Cela rend la reconstruction du texte beaucoup plus difficile (bien que cela puisse ralentir un peu l'IA).
Masquer l'activité : Faire en sorte que tous les chefs travaillent un peu tout le temps, même s'ils ne sont pas nécessaires, pour que le pirate ne puisse pas distinguer qui travaille vraiment.

En résumé

Ce papier nous apprend que dans les IA modernes, le "qui fait quoi" est aussi révélateur que le "quoi".

C'est comme si, en regardant juste les empreintes digitales laissées par les cuisiniers sur les planches à découper, on pouvait deviner exactement quel plat vous avez mangé. C'est une nouvelle façon de penser la sécurité : il ne faut pas seulement protéger le message, il faut aussi protéger les traces invisibles laissées par la façon dont l'IA le traite.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article de recherche intitulé "Expert Selections in MoE Models Reveal (Almost) as Much as Text", présenté à l'atelier ICLR 2026 sur la conception fiable de l'IA.

1. Problématique

L'article aborde une vulnérabilité de sécurité critique dans les modèles de langage à grande échelle utilisant l'architecture Mixture-of-Experts (MoE). Dans ces modèles, chaque jeton (token) est acheminé vers un sous-ensemble spécifique de sous-réseaux d'experts (routing).

Le risque : Les auteurs démontrent que les décisions d'acheminement (les identifiants des experts sélectionnés pour chaque jeton) contiennent suffisamment d'informations pour reconstruire le texte d'origine, et ce, même sans accès aux états cachés, aux logits du routeur ou aux sorties du modèle.
L'objectif de l'attaque : Reconstruire le texte secret à partir uniquement des traces de sélection d'experts observées, transformant ainsi ces traces de routage en vecteurs d'information sensibles.

2. Modèle de Menace et Scénarios d'Attaque

Les auteurs définissent un modèle de menace où l'adversaire observe uniquement les sélections d'experts pour chaque jeton à une ou plusieurs couches du modèle.

Connaissances de l'attaquant : L'attaquant connaît le tokenizer, la configuration du routage (nombre d'experts, $k$ ), et peut obtenir des paires d'entraînement "(texte, trace de sélection)" via des modèles de la même famille ou des logs internes.
Surfaces d'attaque pratiques :
- Inférence distribuée : Un hôte malveillant dans un cluster distribué peut observer les traces de routage traversant les limites des machines.
- Canaux latéraux physiques : Des attaques par canal latéral (consommation électrique, émissions électromagnétiques, compteurs de performance GPU) peuvent inférer quels experts sont actifs.
- MoE en parallélisme de pipeline : Si les experts sont répartis sur différents nœuds, l'activité des GPU peut révéler l'identité des experts sélectionnés.

3. Méthodologie

L'étude utilise le modèle gpt-oss-20b (20 milliards de paramètres, 32 experts, routage top-4, 24 couches) entraîné sur 100 millions de jetons de OpenWebText.

Approche de Décodage

Les auteurs comparent deux approches pour inverser la trace de routage en texte :

MLP (Perceptron Multicouche) par jeton : Un réseau de 3 couches entraîné pour prédire un jeton individuellement à partir de sa trace de sélection d'experts. Cette approche traite chaque jeton de manière indépendante.
Décodeur de Séquence (Transformer) : Un modèle basé sur un Transformer (encodeur seul) qui consomme la séquence complète des traces de sélection d'experts.
- Prétraitement : Les sélections d'experts sont converties en vecteurs binaires.
- Architecture : Le modèle utilise des blocs d'attention auto-causale non causale pour exploiter les dépendances contextuelles entre les jetons, permettant une reconstruction beaucoup plus précise que l'approche jeton par jeton.

Analyse de l'Information

Les auteurs analysent l'entropie et l'information mutuelle des sélections d'experts à travers les différentes couches du modèle pour comprendre où l'information est la plus dense et comment elle se propage.

4. Résultats Clés

Performance de Reconstruction

Les résultats montrent une capacité de reconstruction exceptionnelle, surpassant largement les travaux antérieurs utilisant la régression logistique :

MLP (3 couches) : Atteint 63,1 % de précision Top-1 (80,3 % Top-5).
Décodeur de Séquence (Transformer) : Atteint 91,2 % de précision Top-1 et 94,8 % de précision Top-10 sur des séquences de 32 jetons.
- Cela signifie que l'attaquant retrouve le jeton exact dans 91 % des cas, ou l'un des 10 jetons les plus probables dans près de 95 % des cas.

Robustesse et Analyse

Impact du bruit : L'ajout de bruit (corruption aléatoire des sélections d'experts) réduit la précision, mais ne l'élimine pas totalement. Même avec un taux de bruit élevé, une reconstruction partielle reste possible.
Analyse par couche : L'entropie des sélections varie selon les couches. Les premières couches (1-7) montrent une forte corrélation mutuelle, tandis que les couches intermédiaires (autour de la couche 11) semblent avoir des régimes de routage distincts.
Fréquence des jetons : La précision de reconstruction est fortement corrélée à la fréquence des jetons dans le corpus d'entraînement (les jetons rares sont plus difficiles à reconstruire).

5. Contributions et Signification

Contributions Principales

Nouvelle vulnérabilité : Démonstration que les décisions de routage dans les modèles MoE sont une source de fuite d'information aussi critique que le texte lui-même.
Amélioration des techniques d'inversion : Passage d'une reconstruction basée sur la régression logistique à des méthodes basées sur des Transformers, multipliant par plus de 20 points la précision de reconstruction (de ~30% à >90%).
Lien théorique : Établissement d'un lien entre les sélections d'experts et la littérature sur l'inversion d'embeddings, traitant les sélections d'experts comme des "embeddings discrets".

Implications et Recommandations

Traitement des données sensibles : Les traces de sélection d'experts doivent être considérées comme des données sensibles, au même titre que les tokens ou les états cachés.
Atténuation :
- Ne pas exposer, journaliser ou exporter les traces de routage dans les déploiements de production.
- Ajouter du bruit aux décisions de routage (logit noise).
- Utiliser des techniques de "dummy compute" ou de remplissage constant pour brouiller les canaux latéraux physiques.
- Isoler les charges de travail co-résidentes et sécuriser les compteurs de performance matériels.

Limites

La reconstruction est optimisée pour des séquences courtes (32 jetons) ; la performance sur de longs contextes n'a pas été systématiquement évaluée.
L'attaque suppose un accès à des données d'entraînement compatibles (même famille de modèles), ce qui pourrait limiter la transférabilité entre architectures très différentes.

Conclusion

Cet article met en lumière un risque majeur pour la confidentialité dans l'infrastructure des LLM modernes. Il démontre que l'efficacité computationnelle apportée par les modèles MoE s'accompagne d'un risque de fuite d'information via les mécanismes de routage, nécessitant une révision des pratiques de déploiement sécurisé et de protection des canaux latéraux.