Rigidity in LLM Bandits with Implications for Human-AI Dyads

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de cette recherche, comme si nous en parlions autour d'un café.

🎩 Le Titre : « La Raideur des IA dans les Jeux de Hasard »

Imaginez que vous donnez à un super-intelligent (une IA) un jeu très simple : choisir entre deux portes, la Porte X et la Porte Y. Derrière l'une, il y a de l'or ; derrière l'autre, rien. Votre but est de gagner le plus d'or possible.

Les chercheurs ont demandé à plusieurs IA (comme DeepSeek, GPT-4 et Gemini) de jouer à ce jeu des centaines de fois. Ils voulaient voir si ces IA étaient de bons joueurs, capables d'apprendre et de s'adapter, ou si elles avaient des défauts cachés.

🎲 Le Jeu : Deux Scénarios

Les chercheurs ont créé deux situations différentes :

Le Scénario Égalitaire (50/50) : Les deux portes donnent de l'or exactement aussi souvent. Un bon joueur devrait choisir au hasard, moitié l'un, moitié l'autre.
Le Scénario Inégal (75/25) : La Porte X donne de l'or 3 fois sur 4, et la Porte Y seulement 1 fois sur 4. Un bon joueur devrait vite comprendre qu'il faut choisir X, mais garder un petit œil sur Y au cas où les règles changeraient.

🤖 Ce que les IA ont fait (La Révélation)

C'est ici que ça devient intéressant. Les IA n'ont pas joué comme des humains rationnels. Elles ont montré une raideur incroyable.

Dans le jeu égalitaire : Si l'IA choisissait la Porte X la première fois et trouvait un peu d'or, elle devenait obsédée par la Porte X. Même si la Porte Y était tout aussi bonne, elle refusait de l'essayer. C'est comme si elle disait : « J'ai choisi X, donc je vais choisir X pour toujours ! »
- L'analogie : Imaginez un enfant qui, après avoir mangé une glace à la vanille, refuse catégoriquement d'essayer le chocolat, même si le chocolat est aussi bon. Il reste bloqué sur sa première idée.
Dans le jeu inégal : Les IA ont vite compris que X était meilleure, mais elles l'ont fait de manière trop rigide. Elles ont choisi X à chaque fois, sans jamais vérifier si la Porte Y ne donnait pas soudainement plus d'or. Elles ont manqué de flexibilité.
- L'analogie : C'est comme un chauffeur qui voit un feu vert et continue de rouler à 100 km/h sans jamais regarder s'il y a un piéton qui traverse, parce qu'il est trop sûr de lui.

🔧 Le Secret : Les "Boutons de Réglage"

Les chercheurs ont essayé de "dérégler" les IA en changeant deux boutons techniques (la température et le top-p), qui servent normalement à rendre les réponses de l'IA plus créatives ou plus aléatoires.

Le résultat surprenant : Même en changeant ces boutons, les IA sont restées aussi rigides.
L'analogie : C'est comme si vous essayiez de rendre un robot plus flexible en lui donnant un café ou une tisane, mais qu'il restait aussi raide qu'une planche à repasser. Le problème ne venait pas de la surface, mais de la façon dont son cerveau (son algorithme) prenait ses décisions.

🧠 Ce qui se passe dans la "tête" de l'IA

En utilisant des modèles mathématiques, les chercheurs ont découvert deux choses sur le fonctionnement interne de l'IA :

Elle apprend très lentement : Une fois qu'elle a une idée, il faut beaucoup de preuves pour la faire changer d'avis.
Elle est trop sûre d'elle : Elle prend ses décisions de manière très déterministe (comme un robot), sans laisser place au doute ou à l'exploration.

⚠️ Pourquoi c'est important pour nous (Humains + IA)

C'est là que ça devient crucial pour notre quotidien. Nous utilisons de plus en plus ces IA comme conseillers (pour la finance, la santé, les voyages, etc.).

Le Danger : Si une IA est trop rigide, elle peut vous donner un conseil très confiant, mais basé sur une première impression erronée.
- Exemple : Si vous demandez à une IA quel restaurant choisir, et qu'elle a "pensé" au premier nom qu'elle a vu, elle vous dira : "C'est le meilleur, allez-y !", même s'il y a un restaurant meilleur juste à côté. Elle ne vérifiera pas les autres options.
L'Effet de Boule de Neige : Comme les humains ont tendance à faire confiance aux IA, nous risquons de nous bloquer nous aussi dans de mauvaises décisions, simplement parce que l'IA a été "têtue".

💡 En résumé

Cette étude nous dit que les IA actuelles ne sont pas de parfaits joueurs d'échecs ou de scientifiques. Elles ont une tendance naturelle à s'accrocher à leur première idée, même quand il faudrait être flexible.

C'est comme si elles avaient un frein à main trop serré : elles ne lâchent jamais prise. Pour les humains qui travaillent avec elles, c'est un avertissement : ne faites pas confiance aveuglément à la certitude d'une IA. Parfois, il faut lui dire : "Attends, vérifie encore une fois les autres options !"

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les grands modèles de langage (LLM) sont de plus en plus intégrés dans des environnements interactifs où leurs sorties guident les choix humains. Cependant, les évaluations de benchmark actuelles se concentrent principalement sur la précision des réponses, négligeant les tendances décisionnelles sous-jacentes que les LLM apportent aux interactions.

L'article pose l'hypothèse que les LLM, lorsqu'ils sont placés dans des situations d'incertitude, ne se comportent pas comme des agents rationnels adaptatifs, mais développent des biais décisionnels robustes (rigidité, amplification des biais de position, manque d'exploration). Ces biais pourraient se transférer aux utilisateurs humains, faussant leurs jugements sans qu'ils en aient conscience. L'objectif est de caractériser ces biais en utilisant des tâches décisionnelles minimales.

2. Méthodologie

Conception Expérimentale

Les auteurs ont traité les LLM comme des participants à des expériences de bandits à deux bras (two-arm bandits), un paradigme classique de la psychologie cognitive pour étudier l'exploration et l'exploitation.

Modèles testés : DeepSeek, GPT-4.1 et Gemini-2.5 (versions API).
Protocole : Pour chaque modèle, 200 simulations indépendantes ont été exécutées, chacune comportant 100 essais (trials).
Conditions de récompense :
- Symétrique : $p_X = 0.25, p_Y = 0.25$ . Un apprenant idéal devrait choisir aléatoirement (50/50).
- Asymétrique : $p_X = 0.75, p_Y = 0.25$ . Un apprenant idéal doit exploiter l'option supérieure tout en vérifiant occasionnellement l'autre pour éviter la certitude prématurée.
Configurations de décodage : Quatre combinaisons de paramètres ont été testées pour manipuler la stochasticité :
- Strict (Température = 0.0, Top-p = 0.5)
- Modéré (Température = 1.0, Top-p = 0.5)
- Par défaut (Température = 1.0, Top-p = 1.0)
- Exploratoire (Température = 2.0, Top-p = 1.0)
- Note : Le paramètre top-k est resté fixe par défaut.

Modélisation Computationnelle

Pour expliquer les comportements observés, les auteurs ont ajusté un modèle hiérarchique Rescorla-Wagner avec une politique softmax (implémenté en Stan).

Apprentissage : La valeur d'un bras est mise à jour selon : $V_{t+1}(a) = V_t(a) + A_i(r_t - V_t(a))$ , où $A_i$ est le taux d'apprentissage.
Choix : La probabilité de choix suit une fonction softmax : $P(Y_t = 1) = \text{logit}^{-1}(\tau_i [V_t(Y) - V_t(X)])$ , où $\tau_i$ est l'inverse de la température (déterminisme).
Inférence : Les paramètres individuels ( $A_i, \tau_i$ ) sont tirés de distributions de groupe (hyper-moyennes $\mu$ et écarts-types $\sigma$ ).

3. Résultats Clés

Comportement dans la condition Symétrique (Ambiguïté)

Amplification du biais de position : Contrairement aux humains qui choisissent aléatoirement, les LLM amplifient le premier choix (souvent "X" en raison de l'ordre de la prompt) en une politique obstinée.
Rigidité : Même avec des récompenses égales, les modèles s'enferment dans un seul bras. Le taux de "Stubbornness" (obstination) est très élevé (ex: 0.97 pour DeepSeek en mode strict).
Manque de flexibilité : Le taux de changement après une perte (Loss-Shift) est proche de zéro, indiquant une incapacité à réévaluer les options même en l'absence de gain.

Comportement dans la condition Asymétrique (Clarté)

Exploitation rigide : Les LLM convergent rapidement vers le bras supérieur, mais de manière excessive. Ils ne vérifient presque jamais l'option inférieure, même si cela pourrait améliorer l'efficacité à long terme.
Sous-performance par rapport à l'oracle : Bien qu'ils trouvent le bon bras, leur rigidité les empêche d'atteindre le rendement optimal théorique, car ils ne s'adaptent pas aux variations stochastiques.
Effet des paramètres de décodage : L'augmentation de la température ou du top-p réduit légèrement la rigidité mais augmente le taux d'erreurs de format (réponses invalides) sans générer une véritable exploration cognitive.

Résultats de la Modélisation

L'ajustement du modèle hiérarchique révèle les mécanismes sous-jacents :

Taux d'apprentissage faible ( $\mu_A$ ) : Les modèles mettent à jour leurs croyances très lentement (valeurs comprises entre 0.09 et 0.33).
Inverse de température très élevé ( $\mu_\tau$ ) : Les valeurs sont proches du plafond (autour de 5.0), indiquant un comportement quasi-déterministe.

Conclusion du modèle : La combinaison d'un apprentissage lent et d'un choix extrêmement déterministe explique pourquoi les fluctuations initiales sont figées en biais permanents.

4. Contributions Principales

Validation des Bandits comme sonde : L'article démontre que les tâches de bandits à deux bras sont des outils tractables et interprétables pour révéler les biais décisionnels des LLM, au-delà des métriques de précision textuelle.
Découverte de la "Rigidité" : Identification d'un biais systémique où les LLM transforment l'ambiguïté en choix obstinés et la clarté en exploitation rigide, indépendamment des ajustements courants des paramètres de décodage (température, top-p).
Modélisation Mécaniste : Utilisation réussie de modèles cognitifs (Rescorla-Wagner) pour quantifier les stratégies internes des LLM, révélant un "déséquilibre" fondamental : une faible capacité d'adaptation couplée à une sur-détermination dans l'action.
Implications pour les Dyades Humain-IA : Mise en garde contre l'utilisation des LLM comme conseillers. Leur confiance déterministe et leur rigidité peuvent amplifier les biais humains, conduisant à des certitudes prématurées ou à l'ignorance d'alternatives rares mais cruciales.

5. Signification et Perspectives

Ce travail remet en question l'idée que l'ajustement des paramètres de décodage (comme augmenter la température) suffit à rendre les LLM plus "explorateurs" ou adaptatifs. Les auteurs suggèrent que ces modèles souffrent d'une inertie épistémique : ils traitent l'incertitude comme du bruit à éliminer plutôt que comme une information à récolter.

Pour les applications pratiques, cela signifie que les interactions Humain-IA peuvent sembler efficaces mais sont vulnérables : un utilisateur peut être induit en erreur par la confiance apparente du modèle, qui ne remet jamais en question ses hypothèses initiales. Les futures recherches devraient explorer des tâches non stationnaires et mesurer l'impact réel de ces biais sur la prise de décision humaine dans des dyades contrôlées.