Bounded State in an Infinite Horizon: Proactive Hierarchical Memory for Ad-Hoc Recall over Streaming Dialogues

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un ami très intelligent, mais qui a un problème : il a une mémoire de poisson rouge. Dès qu'une nouvelle conversation commence, il oublie tout ce qui s'est dit il y a 10 minutes. Ou alors, il essaie de se souvenir de tout ce qui s'est dit depuis le début de sa vie, mais son cerveau devient si encombré qu'il met des heures à répondre, et il finit par se tromper car il ne sait plus où chercher l'information importante.

C'est exactement le défi que les chercheurs de ce papier (Wang, Li et Xu) ont voulu résoudre pour les intelligences artificielles (IA) qui discutent avec nous en temps réel.

Voici les trois grandes idées de leur travail, expliquées avec des métaphores :

1. Le Problème : La "Mémoire de Poisson Rouge" vs. Le "Tas de Papier"

Dans le monde réel, une conversation ne s'arrête jamais vraiment. C'est un flux infini.

L'ancienne méthode (Read-then-think) : C'est comme si l'IA devait relire tous les livres qu'elle a jamais lus avant de pouvoir répondre à une question simple. C'est lent, épuisant, et elle risque de se perdre dans les détails inutiles.
Le problème actuel : Si on lui donne juste un résumé, elle oublie les détails importants. Si on lui donne tout le texte, elle est submergée et lente. C'est le dilemme : Précision ou Vitesse ?

2. La Solution : STEM-Bench (Le Terrain de Jeu)

Pour tester leurs idées, ils ont créé un nouveau terrain d'entraînement appelé STEM-Bench.

L'analogie : Imaginez un simulateur de vol pour pilotes d'avion. Au lieu de simplement lire un manuel, l'IA doit gérer un dialogue audio qui dure des heures, avec des bruits de fond, des changements de sujets et des questions pièges qui arrivent n'importe quand.
Le but : Vérifier si l'IA peut se souvenir d'un détail précis dit il y a 2 heures (faisabilité), comprendre la logique entre deux événements (raisonnement), et garder une vue d'ensemble de la conversation (conscience globale).

3. L'Innovation : ProStream (Le Chef de Cuisine Organisé)

C'est le cœur de leur invention. Au lieu de laisser les informations s'accumuler en vrac, ils ont créé ProStream, une nouvelle façon de gérer la mémoire.

Imaginez un Chef de Cuisine dans une cuisine très occupée (la conversation en flux) :

Le Buffer à Court Terme (La Planche à Découper) :
Quand les ingrédients arrivent (les mots de la conversation), le chef les pose sur une planche à découper. Il ne les jette pas tout de suite. Il attend de voir si le plat est fini. Cela permet de garder le contexte immédiat sans encombrer le frigo.
La Distillation Hiérarchique (Le Tri des Ingrédients) :
Au lieu de garder chaque grain de sel individuellement, le chef organise les ingrédients :
1. La Scène (Le Rayon du Supermarché) : "C'est une discussion sur le travail" ou "C'est une blague entre amis".
2. L'Événement (Le Panier) : "On a parlé de la réunion de 14h".
3. L'Unité Atomique (L'Ingrédient précis) : "Pierre a dit qu'il était malade".
  L'IA ne stocke pas tout le texte, elle crée un arbre de connaissances très organisé.
L'Optimisation Adaptative (Le Tri des Ordures Intelligent) :
Le frigo (la mémoire) a une taille limitée. Le Chef ProStream a une règle magique : il garde ce qui est utile et récent.
- Si un sujet revient souvent, il le garde bien en vue.
- Si un sujet est vieux et qu'on n'en parle plus depuis longtemps, il le "met au fond" ou le jette pour faire de la place.
- C'est comme un tri sélectif dynamique : il ne garde que ce qui a de la valeur pour le futur.
La Réponse (Le Plat Servi) :
Quand on pose une question, le Chef ne fouille pas dans tout le frigo. Il va directement chercher sur l'étagère où il a rangé l'information pertinente, combine cela avec ce qu'il a sur la planche à découper, et sert une réponse rapide et précise.

Pourquoi c'est génial ?

Vitesse : L'IA répond en temps réel, même après des heures de conversation, car elle ne relit pas tout.
Précision : Elle ne perd pas les détails importants car elle les a rangés intelligemment, pas juste effacés.
Économie : Elle utilise moins d'énergie et de puissance de calcul, ce qui la rend plus facile à installer sur des appareils réels (comme des assistants personnels).

En résumé

Ce papier nous dit : "Arrêtons de faire lire des encyclopédies entières à nos IA pour chaque question. Donnons-leur un système de rangement intelligent, comme un bibliothécaire qui classe les livres par sujet et jette ceux qu'on ne lit plus, pour pouvoir trouver la réponse instantanément."

C'est une étape majeure pour rendre les conversations avec les robots plus naturelles, plus rapides et plus humaines, sans qu'ils ne deviennent fous à force de trop se souvenir de tout.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : Le Dilemme Fidélité-Efficacité dans les Dialogues en Flux

Les systèmes de dialogue réels fonctionnent comme des flux infinis de données (infinite horizon). Les mécanismes de mémoire actuels, basés sur le paradigme « lire puis réfléchir » (read-then-think), supposent un contexte statique et entièrement accessible. Cette approche est fondamentalement inadaptée aux dialogues en flux pour deux raisons principales :

Coût computationnel et latence : L'attention sur un contexte complet (Full-Context) entraîne des coûts prohibitifs et une latence qui croît de manière non bornée à mesure que le dialogue s'allonge.
Dégradation de la fidélité : Les méthodes de récupération (RAG) basées sur la similarité vectorielle fragmentent le contexte, ce qui empêche la reconstruction de chaînes de raisonnement globales et conduit à des échecs de raisonnement (phénomène de « Lost-in-the-Middle »).

L'objectif est de concevoir un système capable de rappel de mémoire ad-hoc (récupération à la demande de contextes historiques spécifiques) tout en maintenant un état de mémoire borné (bounded state) pour garantir une latence constante, sans sacrifier la fidélité du raisonnement.

2. Méthodologie : Le Framework ProStream

Pour résoudre ce dilemme, les auteurs proposent ProStream, un framework de mémoire hiérarchique proactive. Il transforme la maintenance de la mémoire en un processus d'évolution d'état borné via quatre composants clés :

A. Perceptron Sémantique de Flux Proactif (Proactive Semantic Stream Perception)

Au lieu de mettre à jour la mémoire globale à chaque tour de dialogue, le système utilise un Tampon de Détection à Court Terme (STSB).

Il accumule les unités d'interaction (audio transcrit + identité du locuteur).
Il détecte les limites sémantiques en surveillant la continuité (via la similarité cosinus des embeddings).
Lorsque la cohérence locale chute ou que le tampon est plein, le flux est consolidé en un bloc sémantique prêt pour la distillation.

B. Distillation Hiérarchique Multi-Granulaire

Les blocs sémantiques non structurés sont transformés en une topologie arborescente hiérarchique ( $H$ ) à trois niveaux :

Scène ( $c$ ) : Regroupement thématique grossier.
Événement ( $e$ ) : Segmentation contextuelle temporelle.
Unité de Mémoire Atomique (AMU, $o$ ) : Rétention factuelle fine (triplets relationnels sujet-verbe-objet).
Ce processus utilise un modèle instructif pour la résumation et GLiNER pour l'extraction d'entités, créant une structure organisée plutôt qu'une simple liste de tokens.

C. Optimisation Spatio-Temporelle Adaptative (Adaptive Spatiotemporal Optimization)

Pour gérer la contrainte de capacité stricte ( $T_{max}$ ), le système résout un problème d'optimisation de type « sac à dos en ligne » avec des valeurs décroissantes.

Fonction d'utilité : Chaque nœud de la mémoire se voit attribuer une utilité $u_{v,t}$ basée sur sa fréquence d'accès et sa récence (décroissance temporelle).
Politique de pruning : Lorsque la capacité est dépassée, le système élimine itérativement les nœuds ayant la plus faible densité d'utilité marginale. Il applique également une fusion sémantique et une abstraction en cascade pour maintenir la cohérence de la hiérarchie.

D. Génération de Réponse Fondée sur des Preuves Probabilistes

Lors d'une requête, le système effectue une recherche descendante (top-down) dans l'arbre hiérarchique, pondérée par l'utilité temporelle. Il synthétise un contexte unifié composé du tampon court terme, d'un tampon intermédiaire et des chemins sémantiques pertinents extraits de la mémoire à long terme pour générer la réponse.

3. Contributions Clés

STEM-Bench : Le premier benchmark pour l'évaluation de la mémoire en flux (STreaming Evaluation of Memory). Il contient plus de 14 000 paires Q/R issues de dialogues audio synthétisés (basés sur The Big Bang Theory, Friends, The Office). Il évalue trois capacités :
- Perception Haute Fidélité (HFP) : Résistance aux hallucinations et au bruit.
- Raisonnement Logique Structurel (SLR) : Capacité à relier des événements fragmentés.
- Conscience Globale Dynamique (DGA) : Suivi d'états statistiques et de causalité temporelle sans rétroaction.
Framework ProStream : Une nouvelle architecture qui remplace la complexité quadratique des méthodes existantes par une complexité constante, permettant un déploiement temps réel.
Analyse du Dilemme : Une démonstration empirique que le raisonnement optimal en flux infini nécessite une organisation proactive de la mémoire plutôt qu'un simple balayage réactif du contexte.

4. Résultats Expérimentaux

Les expériences sur STEM-Bench montrent que ProStream surpasse significativement les méthodes de référence (RAG, Full-Context, GraphRAG, MemGAS, etc.) :

Précision : ProStream atteint des performances de pointe (SOTA) en termes de fidélité de raisonnement (mesurée par Gemini-2.5-Pro) et de qualité de génération (BLEU-4), surpassant même l'oracle Full-Context dans certains scénarios de raisonnement complexe.
Efficacité : La latence d'inférence reste constante et faible (environ 0.3 - 0.4 secondes) indépendamment de la longueur du dialogue, contrairement aux méthodes Full-Context dont la latence croît linéairement ou quadratiquement.
Études d'ablation : La suppression du tampon court terme (STSB) ou de l'arbre hiérarchique entraîne une dégradation catastrophique, confirmant la nécessité de l'architecture complète.
Évolutivité : Le framework s'adapte bien à différentes tailles de modèles (Qwen 3B, 7B, 14B), bien que les modèles plus grands bénéficient davantage de la structure dense et organisée.

5. Signification et Impact

Ce travail marque un changement de paradigme dans la gestion de la mémoire pour les agents conversationnels :

Dépassement des limites actuelles : Il résout le compromis entre la précision du raisonnement et l'efficacité computationnelle, rendant possible des assistants IA capables de dialoguer indéfiniment avec une latence stable.
Gouvernance des données : En transformant la mémoire en un mécanisme explicite, borné et auditable (plutôt qu'une accumulation opaque de données), il offre une meilleure gestion de la vie privée et permet un oubli contrôlé.
Applications réelles : Les résultats ouvrent la voie à des applications critiques nécessitant une mémoire à long terme et une réactivité immédiate, telles que l'éducation personnalisée, l'assistance aux personnes âgées et le service client automatisé.

En conclusion, ProStream démontre qu'une topologie de mémoire structurée et proactive est supérieure à l'accumulation brute de contexte pour le raisonnement dans des horizons infinis.