Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

Cette étude démontre que la sensibilité des explications des modèles de langage aux aléas d'entraînement varie statistiquement de manière significative selon le contexte syntaxique, les classes et les tâches, cette dernière ayant l'impact le plus important.

Romain Loncour, Jérémie Bogaert, François-Xavier Standaert

Publié 2026-03-10
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un groupe de 200 chefs cuisiniers (nos modèles d'intelligence artificielle) qui apprennent à préparer exactement le même plat à partir du même livre de recettes (les données d'entraînement).

Le problème ? Chaque chef a un petit grain de folie différent : l'un coupe les oignons un peu plus vite, l'autre mélange les épices dans un ordre légèrement différent, et un troisième utilise une casserole qui chauffe de manière unique. Ce sont nos "aléas d'entraînement" (le randomness).

L'article de Romain Loncour et ses collègues pose une question fascinante : Si on demande à ces chefs d'expliquer pourquoi ils ont mis tel ou tel ingrédient dans le plat, vont-ils tous donner la même explication ?

La réponse est : Non, pas du tout. Et ce papier explore pourquoi et quand ces explications divergent le plus.

Voici les trois grandes découvertes de l'étude, expliquées avec des analogies simples :

1. Le Contexte (L'ordre des mots) : Le chaos dans la cuisine

L'expérience : Les chercheurs ont pris des phrases simples et ont mélangé l'ordre des mots (comme si on prenait une phrase "Le chat mange la souris" et qu'on la transformait en "La souris mange le chat" ou "Mange chat la souris").

Le résultat :

  • Quand les mots sont dans l'ordre logique, les chefs cuisiniers s'accordent tous pour dire : "C'est le mot 'chat' qui est important". C'est stable.
  • Quand on mélange les mots, les chefs se mettent à débattre. Certains disent "C'est le mot 'mange'", d'autres "C'est le mot 'la'".
  • La leçon : Même si le plat final (la prédiction) est correct, l'explication devient moins fiable si la structure de la phrase est confuse. C'est comme si le chef regardait trop attentivement les détails inutiles de la recette.

2. La Classe (L'absence de preuve) : Chasser le fantôme

L'expérience : Imaginez deux types de plats.

  • Type A : Le plat contient obligatoirement une cerise rouge (un mot clé comme "John"). Si la cerise est là, c'est le plat A.
  • Type B : Le plat ne contient pas de cerise. C'est le plat B.

Le résultat :

  • Pour le Type A (avec la cerise), tous les chefs pointent du doigt la cerise rouge. Explication claire et stable.
  • Pour le Type B (sans cerise), c'est le chaos. Puisqu'il n'y a pas de "preuve" visible (aucun mot clé), les chefs essaient de justifier leur choix en regardant n'importe où : "C'est parce que le mot 'le' est au début", "C'est parce que le mot 'est' est à la fin".
  • La leçon : Plus une décision repose sur l'absence d'un élément précis, plus les explications sont instables et dépendantes du "grain de folie" du chef. C'est comme essayer d'expliquer pourquoi vous n'avez pas vu un fantôme : tout le monde invente une histoire différente.

3. La Tâche (La difficulté du plat) : Recette simple vs Recette de grand chef

L'expérience : Les chercheurs ont comparé deux tâches très différentes :

  • Tâche 1 (Astro/Physique) : Distinguer des articles sur l'astrophysique de ceux sur les mathématiques. C'est facile, car les mots sont très différents (comme distinguer un gâteau au chocolat d'un gâteau aux carottes).
  • Tâche 2 (Info vs Opinion) : Distinguer un article de presse factuel d'un article d'opinion. C'est très dur, car les mots sont souvent les mêmes, et il faut comprendre les nuances subtiles (comme distinguer un vrai fromage d'un faux fromage qui sent pareil).

Le résultat :

  • Pour la tâche facile (Astro/Physique), les chefs s'accordent presque tous. Les explications sont stables.
  • Pour la tâche difficile (Info/Opinion), les chefs divergent énormément. Chacun a son propre raisonnement pour justifier le même choix.
  • La leçon : Plus la tâche est complexe et demande une compréhension fine des relations entre les mots, plus les explications sont sensibles aux petits changements aléatoires lors de l'apprentissage.

En résumé : Pourquoi est-ce important ?

Ce papier nous dit que l'explication d'une IA n'est pas une vérité absolue, mais plutôt une opinion qui dépend de trois choses :

  1. Comment la phrase est construite (l'ordre des mots).
  2. Ce que l'IA cherche à trouver (s'il y a un mot clé évident ou non).
  3. La difficulté de la tâche (est-ce facile ou subtil ?).

L'analogie finale :
Si vous demandez à 200 experts de vous expliquer pourquoi ils ont choisi une route, ils seront tous d'accord si la route est barrée par un panneau "Route fermée" (tâche facile, mot clé). Mais si la route est ouverte et qu'ils doivent choisir en fonction de la météo, du trafic et de l'odeur de l'air (tâche complexe, pas de mot clé), chacun donnera une explication différente, même s'ils arrivent tous à la même destination.

Conclusion pour nous, humains :
Quand on utilise l'IA pour prendre des décisions importantes, il ne faut pas se fier à une seule explication. Il faut comprendre que cette explication peut changer selon la façon dont l'IA a été "dressée", et que certaines décisions (surtout les plus complexes) sont beaucoup plus difficiles à expliquer de manière fiable que d'autres.