Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation

Cet article propose une définition précise et une méthodologie standardisée pour classifier et évaluer les capacités de mémoire des agents d'apprentissage par renforcement, en s'inspirant des sciences cognitives afin de remédier au manque de clarté actuel et d'éviter des jugements erronés.

Egor Cherepanov, Nikita Kachaev, Artem Zholus, Alexey K. Kovalev, Aleksandr I. Panov

Publié 2026-03-05
📖 6 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Problème : "La Mémoire" est un mot fourre-tout

Imaginez que vous êtes dans une grande salle de réunion où tout le monde parle de "mémoire".

  • L'un dit : "J'ai une mémoire incroyable, je me souviens de tout ce qui s'est passé il y a 5 minutes !" (C'est la mémoire à court terme).
  • L'autre dit : "Moi, je me souviens de comment faire du vélo, même si je n'en ai pas fait depuis 10 ans !" (C'est la mémoire procédurale).
  • Un troisième dit : "Je me rappelle exactement où j'ai rangé mes clés hier soir !" (C'est la mémoire déclarative).

Le problème, c'est que dans le monde de l'Intelligence Artificielle (IA), et plus précisément de l'Apprentissage par Renforcement (où l'IA apprend en faisant des essais et des erreurs), tout le monde utilise le mot "mémoire" pour dire n'importe quoi.

Parfois, les chercheurs disent : "Mon IA a une mémoire !" alors qu'elle se contente juste de regarder les 3 dernières images de son écran. D'autres fois, ils disent la même chose alors que leur IA a appris un truc sur un jeu et l'applique à un autre jeu totalement différent.

Résultat ? On compare des pommes et des oranges. On croit qu'une IA est géniale, alors qu'elle est juste très bonne pour un petit truc précis, et on ne sait pas vraiment comment elle fonctionne.

🛠️ La Solution : Un nouveau dictionnaire et une règle du jeu

Les auteurs de ce papier (Cherepanov et son équipe) disent : "Stop ! Arrêtons de mélanger les choses. Nous allons créer un dictionnaire précis et une règle du jeu pour tester la mémoire des IA, inspirée de la façon dont le cerveau humain fonctionne."

Ils utilisent deux grandes catégories, comme des lunettes pour mieux voir :

1. De quoi se souvient l'IA ? (Le "Quoi")

  • Mémoire Déclarative (Le "Fait") : C'est comme se souvenir d'un fait précis. Exemple : "Il y a 10 minutes, j'ai vu un chat rouge." L'IA utilise cette info pour prendre une décision tout de suite dans la même situation.
  • Mémoire Procédurale (Le "Savoir-faire") : C'est comme apprendre à faire du vélo. L'IA ne se souvient pas de chaque virage précis, elle a appris une compétence qu'elle réutilise dans de nouvelles situations. C'est ce qu'on appelle souvent le "Meta-Apprentissage".

2. Jusqu'où va sa mémoire ? (Le "Quand")

C'est ici que ça devient intéressant. Ils introduisent une notion clé : la distance entre l'événement et le souvenir.

Imaginez que vous jouez à un jeu de labyrinthe.

  • Mémoire à Court Terme (STM) : Vous voyez un mur à votre gauche, et 2 secondes plus tard, vous devez tourner à gauche. Votre cerveau (ou l'IA) garde l'info "mur" juste le temps de faire le tour. C'est facile, c'est comme tenir une phrase en tête pendant que vous lisez.
  • Mémoire à Long Terme (LTM) : Vous voyez une clé au début du labyrinthe (au tout début du niveau). Vous marchez pendant 1000 pas, dans le brouillard, et au tout bout, vous devez utiliser cette clé. Si votre "mémoire" ne peut pas retenir l'info pendant 1000 pas, vous échouez.

🚧 Le Piège des "Faux Tests"

Les auteurs montrent avec des expériences que beaucoup de tests actuels sont des pièges.

L'analogie du miroir :
Imaginez que vous testez la mémoire d'un élève en lui donnant un texte de 10 lignes, puis en lui posant une question sur la ligne 2. Si l'élève a lu tout le texte d'un coup, il a "la réponse" sous les yeux. Ce n'est pas de la mémoire, c'est de la lecture !

Dans les tests d'IA, si on ne fait pas attention, on donne à l'IA un contexte (une fenêtre de temps) trop grand. L'IA n'a pas besoin de "se souvenir" de ce qui s'est passé il y a 1000 pas, car l'IA "voit" encore les 1000 pas passés dans sa fenêtre de vision.

  • Le résultat trompeur : On dit "Regardez, notre IA a une super mémoire !"
  • La réalité : "Non, elle a juste une fenêtre de vision très large, mais elle ne sait pas retenir les infos sur le long terme."

🔍 La Méthode des Auteurs : Le "Test de Vérité"

Pour savoir si une IA a vraiment une mémoire à long terme, les auteurs proposent une méthode simple (l'Algorithme 1 dans le papier) :

  1. Mesurer la distance : Combien de temps sépare l'événement important (la clé) de l'action (ouvrir la porte) ? Appelons cela la "distance de rappel".
  2. Rétrécir la fenêtre : On force l'IA à ne voir que les 10 dernières secondes.
  3. Le Test :
    • Si l'événement est dans les 10 dernières secondes -> L'IA peut réussir avec une mémoire à court terme.
    • Si l'événement est il y a 1000 secondes -> L'IA doit utiliser une mémoire à long terme. Si elle échoue, c'est qu'elle n'a pas la vraie mémoire, juste une fenêtre de vision.

🏆 Ce qu'ils ont découvert

En appliquant cette méthode rigoureuse sur plusieurs IA célèbres (comme les modèles basés sur des Transformers, type GPT, ou des réseaux de neurones récurrents) :

  • Les Transformers (comme les grands modèles de langage) : Ils sont excellents pour la mémoire à court terme. Ils peuvent retenir un contexte large, mais dès qu'on dépasse leur "fenêtre" ou qu'il faut retenir une info très loin dans le passé, ils oublient tout. C'est comme quelqu'un avec une très bonne mémoire immédiate mais qui oublie tout après 5 minutes.
  • Les modèles Récurrents (RNN/LSTM) : Eux, ils sont capables de mémoire à long terme. Ils peuvent retenir l'info même si elle est très loin dans le passé, car ils ont un mécanisme interne qui "porte" l'info avec eux, comme un sac à dos.

💡 En résumé

Ce papier dit : "Arrêtons de faire semblant."

Pour construire de vraies IA intelligentes capables de naviguer dans des mondes complexes, on ne peut pas juste dire "elle a de la mémoire". Il faut dire :

  • "Elle a une mémoire à court terme ?" (Elle voit ce qui se passe autour d'elle maintenant).
  • "Elle a une mémoire à long terme ?" (Elle se souvient de ce qui s'est passé il y a longtemps).
  • "Elle a appris une compétence ?" (Elle sait faire du vélo).

Sans ces définitions claires, on continue de construire des IA qui semblent intelligentes mais qui échouent dès qu'on change un peu les règles du jeu. Les auteurs nous donnent la boussole pour ne plus nous perdre dans le brouillard de la "mémoire".