Humans use a dual policy to improve inferences during… — Explication vulgarisée

Auteurs originaux : Cao, Y., Almeras, C., Lee, J. K., Maye, I., Wyart, V.

Publié 2026-02-16

📖 4 min de lecture☕ Lecture pause café

Auteurs originaux : Cao, Y., Almeras, C., Lee, J. K., Maye, I., Wyart, V.

Article original sous licence CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Ceci est une explication générée par l'IA d'un preprint qui n'a pas été évalué par des pairs. Ce n'est pas un avis médical. Ne prenez pas de décisions de santé basées sur ce contenu. Lire la clause de non-responsabilité complète

🧠 L'histoire : Comment notre cerveau apprend sans récompense

Imaginez que vous êtes dans une grande salle remplie de deux machines à sous mystérieuses.

Le jeu classique (Condition "MATCH") : On vous dit : "Gagnez de l'argent !". Vous devez trouver quelle machine donne le plus de pièces. Votre cerveau va vite tester les deux, puis se concentrer sur celle qui paie le mieux. C'est le mode "gagner".
Le jeu de curiosité (Condition "GUESS") : On vous dit : "Ne cherchez pas l'argent. Votre seul but est de comprendre comment fonctionnent ces machines. À la fin, je vais vous demander de deviner la couleur dominante de l'une d'elles." Ici, il n'y a pas de pièces à gagner pendant le jeu, juste la satisfaction de comprendre. C'est le mode "apprendre".

Les chercheurs ont observé comment les humains se comportent dans ces deux situations.

🌪️ La découverte surprenante : La stratégie du "Streaking"

Dans le jeu classique (gagner de l'argent), les gens agissent de manière logique : ils testent un peu, puis choisissent la meilleure option.

Mais dans le jeu de curiosité (apprendre), les humains font quelque chose d'étrange et de très humain : ils "streakent".

L'analogie du détective :
Imaginez que vous êtes un détective qui enquête sur deux suspects.

La logique parfaite (comme un robot) : Vous alternez constamment entre les deux suspects pour avoir une vue d'ensemble équilibrée.
La logique humaine (le "Streaking") : Vous décidez de harcèlement le premier suspect pendant un moment. Vous lui posez 5 questions d'affilée. Vous ne le lâchez pas. Vous voulez être sûr de votre hypothèse sur lui. Une fois que vous avez assez de preuves (ou que vous êtes convaincu), vous changez de camp et vous harcelez le deuxième suspect pendant 5 questions.

C'est ce qu'on appelle le streaking (faire une série). Les gens ne font pas des allers-retours constants (A-B-A-B). Ils font des blocs (A-A-A-A-B-B-B-B).

🤖 Le test avec les robots (Réseaux de neurones)

Pour voir si c'est une "bêtise" humaine ou une stratégie intelligente, les chercheurs ont entraîné des intelligences artificielles (des robots) sur le même jeu.

Résultat 1 : Les robots sont devenus excellents pour choisir l'option la plus incertaine (ce qui est la meilleure stratégie pour apprendre).
Résultat 2 : Les robots n'ont jamais appris à faire du "streaking". Ils ont toujours alterné de manière trop rationnelle.

La conclusion ? Le "streaking" n'est pas une erreur de calcul. C'est une stratégie humaine spécifique. Pourquoi ? Parce que notre cerveau est "bruyant" (il fait des erreurs de mémoire, il oublie un peu). En se concentrant sur une seule option pendant un moment, on "nettoie" le bruit et on consolide notre croyance avant de passer à la suite. C'est comme si, pour bien comprendre une idée complexe, il faut s'y accrocher fermement avant de changer de sujet.

🧩 Qui fait quoi ? (Les traits de personnalité)

L'étude a aussi regardé les différences entre les gens :

Le besoin de fermer la discussion (NFCS) : Les gens qui détestent l'incertitude et veulent une réponse rapide font moins de "streaking". Ils veulent trancher vite, donc ils ne prennent pas le temps de "harceler" une option pour bien la comprendre.
L'intelligence de raisonnement (ICAR) : Les gens avec de bonnes capacités de raisonnement sont meilleurs pour utiliser la stratégie de l'incertitude (choisir ce qu'ils ne savent pas encore).

Le paradoxe : Les gens qui font le plus de "streaking" (qui prennent le temps de se concentrer sur une option) sont paradoxalement ceux qui réussissent le mieux le test final, surtout si leur cerveau a du "bruit" (des oublis).

🎯 En résumé

Cette étude nous dit que l'apprentissage humain n'est pas une machine à calculer parfaite.

Quand on cherche de l'argent, on optimise pour gagner.
Quand on cherche à comprendre (sans argent), on utilise une stratégie en deux temps :
1. Le "Streaking" : On se focalise intensément sur une idée pour la valider (comme un détective qui pose 5 questions d'affilée).
2. L'exploration : Ensuite, on va chercher ce qu'on ne sait pas encore.

C'est cette capacité à "s'entêter" un moment sur une option, même si cela semble irrationnel, qui nous aide à mieux apprendre dans un monde bruyant et incertain. C'est une preuve que nos "défauts" de mémoire et notre besoin de certitude sont en fait des outils d'apprentissage très puissants.

Titre : Les humains utilisent une politique duale pour améliorer les inférences lors de la recherche d'information épistémique

1. Problématique et Contexte

La littérature psychologique et neuroscientifique sur la prise de décision se concentre traditionnellement sur le dilemme « explorer-exploiter » dans des contextes de recherche de récompense (tâches de type "bandit"). Dans ces scénarios, l'exploration est souvent vue comme un compromis coûteux pour maximiser les gains futurs. Cependant, de nombreuses activités humaines (apprentissage, jeu, navigation) sont motivées par la recherche d'information épistémique pure, où l'objectif est d'acquérir une connaissance structurelle de l'environnement sans lien direct avec une récompense immédiate ou prospective.

L'étude vise à répondre à la question suivante : Quelles stratégies (politiques) les humains adoptent-ils pour collecter de l'information purement épistémique, et comment ces stratégies diffèrent-elles de celles utilisées pour maximiser une récompense ? Les auteurs cherchent à identifier les mécanismes cognitifs sous-jacents à ces comportements et à déterminer si les stratégies observées sont optimales ou le fruit de contraintes cognitives spécifiques.

2. Méthodologie

A. Design Expérimental (Trois études, N = 702)
Les auteurs ont conçu une tâche de prélèvement séquentiel où les participants devaient inférer la couleur dominante (bleue ou orange) de deux "sacs" contenant des gemmes de formes différentes.

Condition MATCH (Récompense) : Les participants devaient sélectionner les gemmes correspondant à une couleur cible donnée pour maximiser leur score. C'est une tâche classique d'exploitation de récompense.
Condition GUESS (Épistémique) : Il n'y avait pas de couleur cible. Les participants devaient échantillonner les sacs pour apprendre la carte forme-couleur. À la fin de chaque séquence (8 à 20 essais), ils devaient deviner la couleur dominante d'un sac choisi au hasard. La performance était évaluée uniquement par la précision de cette inférence finale.
Contrôle : Les statistiques génératives des deux conditions étaient identiques ; seule l'instruction (récompense vs apprentissage) différait.

B. Modélisation Computationnelle
Les auteurs ont développé un modèle d'accumulation de preuves suboptimal pour capturer les comportements humains :

Apprentissage : Intégration bruitée et "fuyante" (leaky) des preuves (log-vraisemblance).
Politique Globale : Choix guidés par la récompense (condition MATCH) ou par l'incertitude (condition GUESS), pondérés par des paramètres de sensibilité ( $\beta_v$ et $\beta_c$ ).
Politique Locale (Streaking) : Un mécanisme de seuil ( $\theta$ ) et de force de répétition ( $\varepsilon$ ) force l'agent à répéter le même choix tant que la croyance accumulée n'a pas dépassé un certain seuil de confiance.
Comparaison : Fitting du modèle sur les données humaines et comparaison avec des Réseaux de Neurones Récurrents (RNN) entraînés avec des objectifs similaires.

C. Mesures Individuelles
Des questionnaires psychométriques ont été administrés, notamment l'échelle de Besoin de Clôture Cognitive (NFCS) et un test de capacité cognitive générale (ICAR), pour corréler les traits de personnalité avec les paramètres du modèle.

3. Résultats Clés

A. Découverte de la "Streaking" (Séries de choix)
L'analyse comportementale a révélé une stratégie duale dans la condition GUESS :

Phase de Streaking (Précoce) : Au début de la tâche, les humains répètent le choix d'un même sac plusieurs fois de suite (ex: AAAAA) avant de basculer vers l'autre option (BBBBB). Ce comportement, appelé "streaking", sert à tester une hypothèse provisoire jusqu'à obtenir une confirmation suffisante.
Exploration guidée par l'incertitude (Tardive) : Une fois les hypothèses initiales testées, les participants passent à une exploration optimale guidée par l'incertitude (choisir l'option la moins certaine).

Contraste : Cette phase de streaking est absente dans la condition MATCH, où les participants convergent directement vers l'option la plus récompensante.

B. Performance et Optimisation

Bien que le "streaking" soit sous-optimal d'un point de vue bayésien pur (il réduit l'efficacité de l'échantillonnage global), il est positivement corrélé à la précision finale des inférences dans la condition GUESS.
Les simulations montrent que le streaking améliore la précision des inférences spécifiquement en présence de bruit d'apprentissage (imprécision dans la mise à jour des croyances). Il stabilise les croyances faibles en accumulant des preuves cohérentes avant de changer d'hypothèse.

C. Dissociation Humains vs RNN

Les RNN entraînés pour maximiser la précision de l'inférence (ou la réduction de l'incertitude métagnitive) ont appris l'exploration guidée par l'incertitude mais n'ont jamais développé de streaking.
Cela suggère que le streaking n'est pas une solution optimale émergente de l'optimisation de la tâche, mais une stratégie spécifique aux contraintes cognitives humaines (ex: coût de commutation, bruit neuronal).

D. Corrélats Psychologiques (Dissociation des traits)
Une analyse des différences individuelles a révélé une double dissociation :

Le Besoin de Clôture Cognitive (NFCS) prédit négativement la tendance au streaking (les individus ayant un fort besoin de clôture font moins de streaking).
La Capacité Cognitive Générale (ICAR) prédit positivement l'efficacité de l'exploration guidée par l'incertitude ( $\beta_c$ ).
Ces deux stratégies (streaking et exploration d'incertitude) sont co-exprimées chez les mêmes individus mais reposent sur des substrats computationnels et des traits distincts.

4. Contributions Majeures

Identification d'une politique duale : L'article établit que la recherche d'information épistémique ne suit pas une seule règle, mais combine une stratégie globale (exploration d'incertitude) et une stratégie locale structurée (streaking).
Justification adaptative du sous-optimal : Il démontre que des comportements apparemment sous-optimaux (comme le streaking) peuvent être adaptatifs dans des environnements réels caractérisés par un bruit cognitif et des limites de mémoire de travail.
Dissociation Humain/IA : La comparaison avec les RNN met en lumière que les stratégies humaines ne sont pas uniquement dictées par l'optimisation de la tâche, mais sont façonnées par des biais inductifs et des contraintes biologiques absentes chez les machines.
Cadre computationnel des traits de personnalité : L'étude relie des traits psychologiques stables (NFCS, ICAR) à des processus computationnels latents spécifiques (seuils de confiance, sensibilité à l'incertitude), offrant une explication mécaniste aux différences individuelles.

5. Signification et Implications

Ce travail remet en question la vision purement "récompense-centrée" de l'exploration. Il suggère que l'esprit humain utilise des heuristiques locales (comme le streaking) pour compenser le bruit interne et stabiliser les inférences dans des contextes d'incertitude pure.

Théorique : Cela propose un nouveau cadre où les politiques globales (normatives) sont complétées par des règles d'échantillonnage locales, modelées par les traits individuels et les limites computationnelles.
Pratique : Ces résultats peuvent éclairer la conception d'algorithmes d'apprentissage actif plus robustes (en intégrant des phases de "streaking" pour stabiliser l'apprentissage) et aider à comprendre les variations individuelles dans les processus d'apprentissage et de prise de décision.
Neuroscientifique : L'étude ouvre la voie à l'investigation des substrats neuronaux distincts soutenant la stratégie de clôture rapide (streaking) versus l'exploration stratégique à long terme.

En résumé, l'article démontre que l'humain n'est pas simplement un agent rationnel maximisant l'information, mais un agent contraint qui développe des stratégies structurées (streaking) pour naviguer efficacement dans un monde incertain et bruyant.

Humans use a dual policy to improve inferences during epistemic information seeking