Dissecting Jet-Tagger Through Mechanistic Interpretability

Auteurs originaux : Saurabh Rai, Sanmay Ganguly

Publié 2026-05-12

📖 6 min de lecture🧠 Analyse approfondie

Auteurs originaux : Saurabh Rai, Sanmay Ganguly

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

La vue d'ensemble : Ouvrir la boîte noire

Imaginez un détective hautement qualifié (un programme informatique appelé Particle Transformer) formé pour examiner une scène de crime chaotique (un « jet » de particules créé dans un collisionneur de particules) et décider : « S'agit-il d'un Quark Top (le suspect) ou simplement d'un bruit de fond aléatoire (QCD) ? »

Pendant longtemps, nous savions que le détective était incroyablement doué pour résoudre l'affaire, mais nous ne savions pas comment il fonctionnait. C'était une « boîte noire ». Ce papier revient à engager une équipe médico-légale pour ouvrir le cerveau du détective, cartographier exactement quels neurones s'activent et expliquer la logique étape par étape qu'ils utilisent pour rendre leur verdict.

Le cerveau du détective : Une équipe de spécialistes

Les chercheurs ont découvert que le détective n'utilise pas tout son cerveau pour résoudre l'affaire. Au lieu de cela, il s'appuie sur une équipe minuscule et efficace de seulement six spécialistes (sur 16 disponibles) pour accomplir 97 % du travail lourd. Ils appellent cette équipe le « Circuit ».

Voici comment cette équipe de six personnes fonctionne, en utilisant une analogie de relais :

L'Éclaireur (Source primaire) : Un spécialiste dans la toute première couche du cerveau agit comme éclaireur. Cette personne ne cherche pas directement les « méchants ». Au lieu de cela, elle scrute la foule à la recherche du « bruit de fond » (particules douces et en collision). En comprenant le bruit, elle prépare le terrain pour tous les autres. C'est la personne la plus importante ; si vous l'enlevez, l'équipe perd presque toute sa capacité à résoudre l'affaire.
Le Second Éclaireur (Source secondaire) : Un autre spécialiste dans la première couche aide l'Éclaireur. Ils sont très similaires à l'Éclaireur mais se concentrent sur des détails légèrement différents.
Les Coureurs de relais (Couche intermédiaire) : Trois spécialistes dans les couches intermédiaires agissent comme des coureurs. Ils prennent les informations des Éclaireurs et recherchent quelque chose de spécifique : des paires de particules lourdes et énergétiques. Dans le monde de la physique des particules, un Quark Top se désintègre en un « boson W », qui se divise ensuite en deux particules lourdes. Ces coureurs sont experts pour repérer ces paires lourdes.
- Découverte cruciale : Bien que le détective soit censé trouver un « Quark Top » (qui est une structure à 3 parties), ces coureurs ne cherchent en réalité que le « boson W » (une structure à 2 parties). Le papier suggère que le détective a trouvé une astuce : « Si je peux trouver le boson W lourd à 2 parties, je peux être assez sûr qu'il s'agit d'un Quark Top. » C'est comme un détective qui résout un meurtre en trouvant l'arme du crime, plutôt qu'en essayant de reconstruire toute la scène du crime.
Le Juge (Lecture) : Un spécialiste dans la couche finale agit comme juge. Il ne regarde pas directement les particules. Au lieu de cela, il prend les rapports des Coureurs de relais, les résume et prend la décision finale : « Coupable » (Quark Top) ou « Non Coupable » (Bruit de fond).

Le moment « Eureka » : Ce n'est pas une nouvelle idée, juste un nouveau langage

L'une des découvertes les plus surprenantes du papier concerne quand le détective prend sa décision.

Habituellement, nous pensons que le détective rassemble des indices couche par couche et soudainement crie : « Je sais qui l'a fait ! » à la toute fin. Cependant, les chercheurs ont découvert que le détective connaît en fait la réponse presque immédiatement (après la première couche de balayage).

Alors, pourquoi l'étape finale semble-t-elle si dramatique ?

L'analogie : Imaginez que le détective a la réponse écrite dans un code secret (une langue différente) dans sa première couche. L'étape finale n'est pas de « réfléchir » ou de « trouver de nouveaux indices » ; c'est simplement traduire ce code secret en anglais clair afin que le juge final puisse le lire.
Le papier appelle cela une « Rotation de base ». L'information était déjà là ; elle devait simplement être tournée dans la bonne orientation pour être comprise par la sortie finale.

Qu'a réellement appris le détective ?

Les chercheurs ont également vérifié quel type de « physique » le détective a appris. Ils ont comparé les notes internes du détective aux formules physiques standard utilisées par les experts humains.

Le résultat : Le détective a ignoré les formules complexes à 3 parties que les humains utilisent habituellement. Au lieu de cela, il a naturellement découvert et préféré des formules plus simples à 2 parties (appelées Corrélateurs d'énergie).
La conclusion : L'ordinateur n'avait pas besoin qu'un humain lui dise : « Cherchez le boson W ! » Il a compris tout seul que trouver la désintégration lourde à 2 parties était le moyen le plus simple et le plus fiable de résoudre l'énigme. Il a redécouvert une vérité physique significative simplement en essayant de gagner le jeu.

Résumé

Ce papier prouve que nous pouvons prendre une IA moderne complexe utilisée en physique des hautes énergies et la rétro-ingénierier pour trouver un circuit simple et logique à l'intérieur.

C'est efficace : Une petite équipe de 6 « neurones » fait presque tout le travail.
C'est logique : L'équipe suit un chemin clair : Éclairez le bruit $\rightarrow$ Relayer les paires lourdes $\rightarrow$ Juger le résultat.
C'est intelligent : L'IA a compris que résoudre un sous-problème plus simple (trouver le boson W à 2 parties) est le meilleur moyen de résoudre le gros problème (trouver le Quark Top).
C'est une traduction : L'étape finale de l'IA consiste simplement à traduire ses connaissances secrètes précoces en une réponse finale, et non à faire une nouvelle découverte.

Les auteurs concluent que les outils que nous utilisons pour comprendre les modèles de langage IA (comme les Chatbots) fonctionnent parfaitement bien pour comprendre l'IA en physique des particules, révélant que ces machines peuvent apprendre seules des vérités physiques profondes.

Résumé technique : Disséquer Jet-Tagger par l'interprétabilité mécaniste

Énoncé du problème
Les architectures d'apprentissage profond, en particulier le Particle Transformer (ParT), ont atteint des performances de pointe dans les tâches de taggage de jets, telles que la distinction entre les désintégrations hadroniques de quarks top et les jets de fond QCD. Cependant, les mécanismes de calcul internes par lesquels ces modèles prennent des décisions de classification restent opaques. Bien que des travaux antérieurs aient utilisé des méthodes d'attribution post-hoc (par exemple, les valeurs de Shapley, les cartes de saillance) ou la visualisation de l'attention, ces approches identifient quelles entrées sont importantes mais échouent à expliquer comment le réseau les combine ou à isoler le sous-réseau causal minimal (circuit) responsable du comportement. Cet article vise à combler ce fossé en appliquant l'ensemble des outils de l'interprétabilité mécaniste — à l'origine développés pour les modèles de langage naturel — à un classificateur de physique des jets.

Méthodologie
Les auteurs ont entraîné un petit Particle Transformer (4 couches d'attention de particules, 4 têtes par couche, ~1,3 million de paramètres) sur un sous-ensemble du jeu de données de référence pour le taggage de quarks top (signal : $t \to Wb \to q\bar{q}b$ ; fond : quarks légers/gluons). L'analyse utilise une suite de techniques d'intervention et de sondage :

Ablation nulle : Mise à zéro systématique de la sortie de têtes d'attention individuelles pour mesurer leur importance structurelle via la baisse de la différence de logit moyenne.
Patchage de chemin (Path Patching) : Une intervention causale où la sortie d'une tête spécifique sur une entrée « propre » est substituée dans une entrée « corrompue » (en utilisant un remplacement de particules au sein du lot ou une permutation de jet complet). Cela isole les effets directs et les effets de chemin (flux d'information) entre les têtes.
Logit Lens et sondes par couche : Le logit lens standard projette les représentations intermédiaires à travers la dernière couche de classification entraînée. Pour résoudre le désalignement de base, les auteurs ont également entraîné des sondes de régression logistique par couche sur la représentation de chaque couche afin de déterminer l'accessibilité linéaire réelle de l'information de classe.
Sondage linéaire : Entraînement de modèles de régression Ridge pour prédire des observables classiques de sous-structure de jets (par exemple, $N$ -subjettiness, fonctions de corrélation d'énergie) à partir du flux résiduel à diverses profondeurs afin de caractériser le contenu physique des représentations internes.

Contributions et résultats clés

Identification d'un circuit parcimonieux à six têtes : Grâce à l'ablation nulle et au patchage de chemin, les auteurs ont identifié un circuit minimal de six têtes d'attention qui récupère 97,3 % de l'AUC du modèle complet. Ce circuit est significativement plus performant que des sous-ensembles de six têtes échantillonnés aléatoirement (se situant au 96e percentile d'une distribution de référence aléatoire).
Structure causale (Source-Relais-Lecture) : Le circuit présente une hiérarchie causale claire :
- Source primaire ( $L0H1$ ) : Une seule tête dans la première couche d'attention de particules qui agit comme source causale principale. Elle seule récupère 88,6 % de l'AUC du modèle complet et présente une « super-récupération » dans le patchage de chemin. Elle s'attache préférentiellement à des paires de particules douces et collinéaires, fournissant une normalisation contextuelle.
- Source secondaire ( $L0H2$ ) : Une tête dans la même couche avec un espace de représentation similaire à $L0H1$ mais un rôle causal distinct, contribuant un signal complémentaire.
- Têtes relais ( $L1H0, L1H1, L1H3$ ) : Un groupe de têtes dans la deuxième couche qui s'attache sélectivement à une sous-structure de paires dures (masse invariante élevée, $k_T$ élevé). Leur fonction est conditionnelle au signal en amont provenant des têtes sources.
- Tête de lecture ( $L3H3$ ) : Une seule tête dans la quatrième couche qui agrège les signaux relayés.
Rotation de base vs Gain d'information : L'analyse standard du logit lens suggérait que l'information de classe n'émergeait qu'au premier bloc d'attention de classe ($Cls0$), montrant un saut de AUC 0,111 à 0,973. Cependant, les sondes entraînées par couche ont révélé que le signal discriminant de classe est déjà linéairement accessible avec un AUC $\approx$ 0,97 dès la première couche d'attention de particules ( $L1$ ). Le saut dramatique à $Cls0$ est donc interprété non pas comme une génération de nouvelle information, mais comme une rotation de base qui aligne le signal latent avec la base de la couche de classification finale.
Contenu physique : Encodage 2-prong plutôt que 3-prong : Le sondage linéaire du flux résiduel contre des observables classiques a révélé que le modèle encode préférentiellement les observables de corrélateur d'énergie 2-prong (par exemple, $D^{(\beta=1)}_2$ ) plutôt que les observables 3-prong (par exemple, $C^{(\beta=1)}_3, N^{(\beta=1)}_3$ ), malgré la tâche étant le taggage de top 3-prong. Le modèle factorise implicitement le problème, se concentrant sur l'identification de la désintégration hadronique du boson $W$ (une sous-structure 2-prong) plutôt que sur la topologie complète à trois corps. Cette préférence persiste même après résiduation par rapport à la masse du jet.
Base des corrélateurs d'énergie : Le flux résiduel est préférentiellement aligné sur la base des corrélateurs d'énergie plutôt que sur la base de la $N$ -subjettiness, suggérant que le modèle a redécouvert des structures physiquement significatives par descente de gradient sans supervision explicite.

Signification et affirmations
L'article prétend démontrer que les méthodes d'interprétabilité mécaniste développées pour les modèles de langage naturel peuvent être transférées avec succès aux classificateurs de physique des jets. Les résultats indiquent que :

La descente de gradient peut redécouvrir des aspects physiquement significatifs du taggage de jets (spécifiquement la factorisation de la désintégration du top en un sous-problème de boson $W$ ) sans contraintes physiques explicites dans l'architecture.
La structure de circuit source-relais-lecture identifiée ici pourrait être un motif caractéristique des Transformers dans le domaine de la physique, distinct de la structure spécifique des modèles de langage.
L'étude met en évidence la nécessité de stratégies de corruption sur la variété (on-manifold) pour le patchage de chemin dans les jeux de données physiques cinématiquement étroits, car une corruption hors variété (Gaussienne) peut conduire à des incompatibilités structurelles avec les formulations standard des scores de récupération.

Les auteurs restent modestes quant à l'universalité de leurs résultats, notant que le circuit spécifique à six têtes a été identifié sur un petit modèle et que des modèles plus grands pourraient posséder des structures de circuit plus riches. Ils reconnaissent également que les sondes linéaires fournissent une borne inférieure sur le contenu informationnel, car les encodages non linéaires ne sont pas détectés.