Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un groupe de 200 chefs cuisiniers (nos modèles d'intelligence artificielle) qui apprennent à préparer exactement le même plat à partir du même livre de recettes (les données d'entraînement).

Le problème ? Chaque chef a un petit grain de folie différent : l'un coupe les oignons un peu plus vite, l'autre mélange les épices dans un ordre légèrement différent, et un troisième utilise une casserole qui chauffe de manière unique. Ce sont nos "aléas d'entraînement" (le randomness).

L'article de Romain Loncour et ses collègues pose une question fascinante : Si on demande à ces chefs d'expliquer pourquoi ils ont mis tel ou tel ingrédient dans le plat, vont-ils tous donner la même explication ?

La réponse est : Non, pas du tout. Et ce papier explore pourquoi et quand ces explications divergent le plus.

Voici les trois grandes découvertes de l'étude, expliquées avec des analogies simples :

1. Le Contexte (L'ordre des mots) : Le chaos dans la cuisine

L'expérience : Les chercheurs ont pris des phrases simples et ont mélangé l'ordre des mots (comme si on prenait une phrase "Le chat mange la souris" et qu'on la transformait en "La souris mange le chat" ou "Mange chat la souris").

Le résultat :

Quand les mots sont dans l'ordre logique, les chefs cuisiniers s'accordent tous pour dire : "C'est le mot 'chat' qui est important". C'est stable.
Quand on mélange les mots, les chefs se mettent à débattre. Certains disent "C'est le mot 'mange'", d'autres "C'est le mot 'la'".
La leçon : Même si le plat final (la prédiction) est correct, l'explication devient moins fiable si la structure de la phrase est confuse. C'est comme si le chef regardait trop attentivement les détails inutiles de la recette.

2. La Classe (L'absence de preuve) : Chasser le fantôme

L'expérience : Imaginez deux types de plats.

Type A : Le plat contient obligatoirement une cerise rouge (un mot clé comme "John"). Si la cerise est là, c'est le plat A.
Type B : Le plat ne contient pas de cerise. C'est le plat B.

Le résultat :

Pour le Type A (avec la cerise), tous les chefs pointent du doigt la cerise rouge. Explication claire et stable.
Pour le Type B (sans cerise), c'est le chaos. Puisqu'il n'y a pas de "preuve" visible (aucun mot clé), les chefs essaient de justifier leur choix en regardant n'importe où : "C'est parce que le mot 'le' est au début", "C'est parce que le mot 'est' est à la fin".
La leçon : Plus une décision repose sur l'absence d'un élément précis, plus les explications sont instables et dépendantes du "grain de folie" du chef. C'est comme essayer d'expliquer pourquoi vous n'avez pas vu un fantôme : tout le monde invente une histoire différente.

3. La Tâche (La difficulté du plat) : Recette simple vs Recette de grand chef

L'expérience : Les chercheurs ont comparé deux tâches très différentes :

Tâche 1 (Astro/Physique) : Distinguer des articles sur l'astrophysique de ceux sur les mathématiques. C'est facile, car les mots sont très différents (comme distinguer un gâteau au chocolat d'un gâteau aux carottes).
Tâche 2 (Info vs Opinion) : Distinguer un article de presse factuel d'un article d'opinion. C'est très dur, car les mots sont souvent les mêmes, et il faut comprendre les nuances subtiles (comme distinguer un vrai fromage d'un faux fromage qui sent pareil).

Le résultat :

Pour la tâche facile (Astro/Physique), les chefs s'accordent presque tous. Les explications sont stables.
Pour la tâche difficile (Info/Opinion), les chefs divergent énormément. Chacun a son propre raisonnement pour justifier le même choix.
La leçon : Plus la tâche est complexe et demande une compréhension fine des relations entre les mots, plus les explications sont sensibles aux petits changements aléatoires lors de l'apprentissage.

En résumé : Pourquoi est-ce important ?

Ce papier nous dit que l'explication d'une IA n'est pas une vérité absolue, mais plutôt une opinion qui dépend de trois choses :

Comment la phrase est construite (l'ordre des mots).
Ce que l'IA cherche à trouver (s'il y a un mot clé évident ou non).
La difficulté de la tâche (est-ce facile ou subtil ?).

L'analogie finale :
Si vous demandez à 200 experts de vous expliquer pourquoi ils ont choisi une route, ils seront tous d'accord si la route est barrée par un panneau "Route fermée" (tâche facile, mot clé). Mais si la route est ouverte et qu'ils doivent choisir en fonction de la météo, du trafic et de l'odeur de l'air (tâche complexe, pas de mot clé), chacun donnera une explication différente, même s'ils arrivent tous à la même destination.

Conclusion pour nous, humains :
Quand on utilise l'IA pour prendre des décisions importantes, il ne faut pas se fier à une seule explication. Il faut comprendre que cette explication peut changer selon la façon dont l'IA a été "dressée", et que certaines décisions (surtout les plus complexes) sont beaucoup plus difficiles à expliquer de manière fiable que d'autres.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé du papier de recherche en français, structuré selon les sections demandées.

Titre

Sensibilité des explications des LLMs à l'aléa d'entraînement : Dépendances au contexte, à la classe et à la tâche
Auteurs : Romain Loncour, Jérémie Bogaert et François-Xavier Standaert (UCLouvain)

1. Problématique

Les modèles de type Transformer sont devenus la pierre angulaire du Traitement Automatique du Langage Naturel (TALN). Cependant, expliquer leurs décisions reste un défi majeur, notamment en ce qui concerne la fidélité (la capacité de l'explication à refléter le comportement réel du modèle) et la plausibilité (la compréhension humaine).

Un problème récent a été mis en évidence : un même modèle entraîné sur les mêmes données mais avec une initialisation aléatoire différente (random seed) peut produire des explications radicalement différentes. Cela remet en cause la fiabilité des méthodes d'explication (XAI) si l'on ne considère que des instances isolées. Le papier vise à investiguer comment cette sensibilité à l'aléa d'entraînement varie en fonction de trois facteurs naturels :

Le contexte syntaxique (l'ordre des mots).
La classe à apprendre (présence ou absence de marqueurs discriminants).
La tâche elle-même.

2. Méthodologie

Configuration Expérimentale

Modèles : Utilisation de RoBERTa-base pour l'anglais et CamemBERT-base pour le français.
Protocole d'entraînement : 200 modèles sont fine-tunés avec les mêmes hyperparamètres (taux d'apprentissage $2 \times 10^{-5}$, taille de lot 16, 1 époque) mais avec des graines aléatoires différentes. La graine contrôle l'ordre des données, le dropout et l'initialisation de la tête de classification.
Sélection des modèles : Un sous-ensemble de $m$ modèles équivalents est sélectionné (leurs précisions sur l'ensemble de test ne diffèrent pas significativement).
Données d'entrée : Sélection de textes "compatibles" où tous les modèles $m$ prédisent la même étiquette.
Méthode d'explication : Utilisation de la Propagation de la Rélevance par Couches (LRP - Layer-wise Relevance Propagation). C'est une méthode déterministe offrant un bon compromis entre plausibilité et fidélité. Elle génère un vecteur de valeurs de rélevance pour chaque token du texte.

Métrique d'Évaluation

Pour quantifier la stabilité des explications, les auteurs utilisent la métrique MCWME (Mean Correlation With Mean Explanation) :

Elle calcule la corrélation (coefficient de Pearson) entre l'explication d'un modèle individuel et la moyenne des explications des autres modèles (validation croisée "leave-one-out").
Une valeur élevée indique une forte stabilité (faible sensibilité à l'aléa), tandis qu'une valeur faible indique une forte sensibilité.

3. Contributions Clés et Résultats

Les auteurs ont mené trois expériences distinctes pour isoler les facteurs d'influence :

A. Impact du Contexte Syntaxique (Ordre des mots)

Expérience : Comparaison de phrases ordonnées vs. phrases dont les mots sont mélangés (shuffled), tout en conservant la même distribution de mots. Les phrases contiennent un nom propre discriminant ("John" vs "James").
Résultats :
- Pour les phrases ordonnées, la stabilité est quasi parfaite (MCWME élevé). LRP identifie correctement le mot discriminant.
- Pour les phrases mélangées, la stabilité diminue significativement.
Interprétation : Le mélange perturbe les relations syntaxiques que le Transformer tente d'apprendre. LRP rapporte alors des relations de faible importance (qui devraient être nulles) en raison du mécanisme d'attention, rendant l'explication plus sensible à l'initialisation aléatoire.

B. Dépendance à la Classe (Absence de marqueurs)

Expérience : Comparaison de deux classes :
1. Une classe définie par la présence d'un mot discriminant ("John").
2. Une classe définie par l'absence de ce mot (remplacé par un mot aléatoire ou absent).
Résultats :
- La classe avec le mot discriminant montre une stabilité élevée.
- La classe sans marqueur discriminant présente un MCWME significativement plus bas (autour de 0,7, contre des valeurs proches de 0 pour un bruit aléatoire, mais nettement inférieur à la classe discriminante).
Interprétation : Lorsque la décision repose sur l'absence d'un élément, l'explication devient plus floue et dépendante de l'aléa d'entraînement. Les mots en début/fin de phrase ou autour du mot remplacé semblent capter une rélevance moyenne, mais de manière moins cohérente d'un modèle à l'autre.

C. Dépendance à la Tâche (Cas réels : ArXiv vs InfOpinions)

Expérience : Comparaison de deux tâches réelles :
1. ArXiv : Classification d'abstracts (Astrophysique vs Mathématiques). Vocabulaire très discriminant, longueur moyenne ~148 tokens. Précision ~99,8%.
2. InfOpinions : Classification d'articles de presse (Information vs Opinion). Vocabulaire moins discriminant, nécessitant une compréhension sémantique profonde, longueur moyenne ~338 tokens. Précision ~96%.
Résultats : Une différence significative de stabilité est observée entre les deux tâches. La tâche ArXiv (vocabulaire discriminant) est plus stable que la tâche InfOpinions.
Interprétation : Plus la tâche repose sur des marqueurs lexicaux clairs, plus l'explication est robuste face à l'aléa. Les tâches nécessitant une compréhension relationnelle complexe sont plus sensibles.

4. Signification et Conclusion

Constat Principal :
La sensibilité des explications à l'aléa d'entraînement n'est pas uniforme. Elle suit une hiérarchie d'impact statistiquement significative :

Contexte syntaxique : Impact le plus faible (mais présent).
Classes : Impact moyen (dépendance forte à la présence de marqueurs).
Tâches : Impact le plus fort (nature de la tâche et complexité sémantique).

Implications :

Cadres d'explicabilité : Il est crucial d'intégrer la caractérisation de cette sensibilité dans les frameworks d'explicabilité existants, plutôt que de se fier à une seule instance d'explication.
Plausibilité et Fidélité : L'interprétation d'une distribution d'explications (plutôt que d'une seule) demande plus d'effort cognitif pour l'humain (plausibilité). De plus, il reste à déterminer si des méthodes d'explication plus complexes pourraient réduire cette dépendance à l'aléa pour les modèles complexes.
Recommandation : Pour des tâches simples où la précision n'est pas compromise, l'utilisation de modèles plus simples pourrait être préférable pour garantir une meilleure stabilité des explications.

Ce travail ouvre la voie à de nouvelles questions sur la manière dont la complexité du modèle et la nature des données influencent la fiabilité de l'IA explicable.

Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

1. Le Contexte (L'ordre des mots) : Le chaos dans la cuisine

2. La Classe (L'absence de preuve) : Chasser le fantôme

3. La Tâche (La difficulté du plat) : Recette simple vs Recette de grand chef

En résumé : Pourquoi est-ce important ?

Titre

1. Problématique

2. Méthodologie

Configuration Expérimentale

Métrique d'Évaluation

3. Contributions Clés et Résultats

A. Impact du Contexte Syntaxique (Ordre des mots)

B. Dépendance à la Classe (Absence de marqueurs)

C. Dépendance à la Tâche (Cas réels : ArXiv vs InfOpinions)

4. Signification et Conclusion

Articles similaires

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models