Telogenesis: Goal Is All U Need

Each language version is independently generated for its own context, not a direct translation.

🧠 Telogenèse : Le but, c'est tout ce dont vous avez besoin

Imaginez que vous êtes un explorateur dans une forêt immense et sombre. Vous ne pouvez voir qu'un seul arbre à la fois. Votre cerveau est limité : vous ne pouvez pas tout observer en même temps. La question cruciale est : Comment décidez-vous sur quel arbre regarder ?

Dans l'intelligence artificielle actuelle, on donne souvent un "but" à la machine (par exemple : "Trouve le trésor"). Mais dans la vraie vie, les animaux (et nous-mêmes) ne reçoivent pas de liste de tâches. Nous décidons nous-mêmes de ce qui est important.

Ce papier, baptisé Telogenèse (un mot qui mélange "but" et "naissance"), propose une idée révolutionnaire : un agent intelligent peut créer ses propres buts en regardant simplement ce qu'il ne comprend pas.

Voici comment cela fonctionne, avec trois analogies simples.

1. Les trois signaux d'alarme de l'intelligence

L'auteur propose que notre cerveau (ou celui de la machine) utilise trois signaux internes pour décider où porter son attention, sans avoir besoin d'un maître extérieur :

🌫️ L'Ignorance (Ce que je ne connais pas) :
Imaginez que vous avez une carte de la forêt. Certaines zones sont floues. Plus une zone est floue (vous avez peu de données), plus elle devient "urgente" à observer. C'est comme une lampe torche qui brille plus fort là où il fait le plus noir.
😲 La Surprise (Ce qui ne va pas) :
Vous attendez de voir un chêne, mais vous voyez soudain un palmier ! Votre cerveau s'arrête net. Cette "erreur de prédiction" est un signal puissant : "Attends, quelque chose a changé ici !"
⏳ La Vieillesse (Ce que j'ai oublié) :
C'est l'innovation clé du papier. Même si vous n'avez rien vu de bizarre, si vous n'avez pas regardé un coin de la forêt depuis longtemps, votre confiance en ce coin diminue. C'est comme un compte à rebours : "Je n'ai pas vérifié ce buisson depuis 10 minutes, il est peut-être devenu dangereux. Je devrais y jeter un œil."

En combinant ces trois signaux, le système crée une liste de priorités interne. Il ne suit pas une règle fixe, il réagit à son propre état mental.

2. Le grand piège : Comment on juge la performance ?

C'est ici que l'étude devient fascinante. Les chercheurs ont comparé leur méthode (la "Priorité") avec deux autres stratégies classiques :

Le Rond-point (Rotation) : Regarder les arbres un par un, dans l'ordre, sans s'arrêter.
Le Réactif (Erreur) : Regarder seulement là où l'on a vu une erreur récemment.

Le résultat surprenant dépend de la règle du jeu :

Si le juge est un dieu omniscient : S'il peut voir tout ce qui se passe dans la forêt en même temps, il préfère le Rond-point. Pourquoi ? Parce que cela garantit qu'on ne rate rien, même si c'est lent.
Si le juge est l'explorateur lui-même : Dans la vraie vie, on ne voit pas tout. On ne sait pas ce qui se passe dans les zones qu'on ne regarde pas. Dans ce cas, la Priorité gagne haut la main.
- L'analogie : Imaginez un incendie qui se déclare. Le "Rond-point" mettra 10 minutes à arriver sur le feu s'il est au début de sa liste. La "Priorité", grâce à son signal de "Vieillesse" et de "Surprise", détectera le feu en 2 minutes, car elle a senti que quelque chose n'allait pas.

La leçon : Dans un monde où l'on ne voit pas tout, la meilleure stratégie n'est pas de tout couvrir uniformément, mais de détecter les changements le plus vite possible.

3. L'apprentissage magique : Apprendre sans professeur

La dernière partie de l'étude est la plus magique. Les chercheurs ont donné à leur agent une capacité supplémentaire : apprendre à ajuster son propre compte à rebours.

Le scénario : Ils ont créé un environnement avec deux types de zones :
- Des zones "chaotiques" où les choses changent très vite (comme une ruche d'abeilles).
- Des zones "calmes" où rien ne bouge (comme un lac gelé).
Le test : L'agent ne savait pas quelles zones étaient chaotiques. Il n'avait aucune étiquette, aucun professeur, aucune récompense.
Le résultat : En observant ses propres erreurs et ses surprises, l'agent a spontanément appris à ajuster son attention.
- Pour les zones chaotiques, il a raccourci son compte à rebours (il les regarde très souvent).
- Pour les zones calmes, il a allongé son compte à rebours (il les regarde rarement).

C'est comme si un enfant, en jouant seul dans une pièce, apprenait à distinguer les jouets qui tombent souvent de ceux qui restent stables, sans que personne ne lui dise quoi faire.

🚀 En résumé

Ce papier nous dit que nous n'avons pas besoin d'un but imposé de l'extérieur pour être intelligents.

Si un agent possède :

Un modèle du monde,
La capacité de mesurer ce qu'il ignore,
Et un sens du temps qui lui dit "ceci est vieux, vérifie-le",

...alors il peut générer ses propres objectifs. Il saura où regarder, quand changer de stratégie, et même comprendre la structure cachée de son environnement, tout simplement en suivant sa propre curiosité.

Le but, c'est tout ce dont vous avez besoin. Pas besoin de maître, juste de savoir ce que vous ne savez pas encore.

Each language version is independently generated for its own context, not a direct translation.

Titre : Telogenesis : Goal Is All U Need

Auteurs : Zhuoran Deng, Yizhi Zhang, Ziyi Zhang, Wan Shen (Recherche Indépendante)

1. Problématique

Un défi central en intelligence artificielle réside dans la génération autonome de buts par les agents. Les systèmes actuels d'apprentissage par renforcement conditionné par des objectifs (Goal-Conditioned RL) dépendent presque exclusivement de spécifications externes pour définir ces objectifs. La question de l'origine endogène des buts reste largement ouverte.

Les organismes biologiques, à l'inverse, ne reçoivent pas de buts d'une fonction de récompense externe. Ils génèrent des cibles d'exploration à partir de leur état interne, dirigeant leur attention vers des aspects de l'environnement incertains, surprenants ou mal modélisés.

L'objectif de l'article est de démontrer que la génération de priorités attentionnelles (un précurseur minimal de la formation de buts) peut émerger endogènement à partir des "écarts épistémiques" (gaps) du modèle du monde de l'agent, sans aucune récompense externe.

2. Méthodologie : La Fonction de Priorité

Les auteurs proposent un cadre appelé Telogenesis (du grec telos = but, et genesis = origine). L'idée centrale est qu'un agent, maintenu dans un modèle du monde bayésien sur $N$ variables et limité à observer $b$ variables par pas de temps ( $b \ll N$ ), peut sélectionner ses observations via une fonction de priorité $\pi_i(t)$ .

Cette fonction agrège trois types d'écarts cognitifs en un score scalaire unique :

$\pi_i(t) = w_1 \tilde{\sigma}^2_i(t) + w_2 \tilde{S}_i(t) + w_3 (1 - e^{-\lambda \Delta t_i})$

Ignorance (Ignorance) : La variance postérieure normalisée $\tilde{\sigma}^2_i(t)$ . Elle est élevée lorsque les données sont insuffisantes. Elle diminue avec l'observation mais ne détecte pas les changements du monde.
Surprise (Surprise) : L'erreur de prédiction normalisée $\tilde{S}_i(t) = |x_i - \hat{x}_i|/(\hat{\sigma}_i + \epsilon)$ . Elle signale un décalage entre le modèle et la réalité (mismatch).
Rancune / Vieillissement (Staleness) : Une fonction saturante du temps écoulé depuis la dernière observation $(1 - e^{-\lambda \Delta t_i})$ . C'est l'innovation clé : cela génère une priorité pour les variables non observées basée uniquement sur le raisonnement temporel, sans besoin de signal d'erreur externe.

La sélection des cibles se fait via une compétition softmax sur ces scores, contrôlée par une température $\tau$ .

3. Contributions Clés

Fonction de priorité formelle : Unification de l'ignorance, de la surprise et du vieillissement en un seul mécanisme de sélection.
Abalation des composants : Démonstration que chaque terme (ignorance, surprise, staleness) est nécessaire pour la performance optimale.
Inversion dépendante de la métrique : Identification d'un phénomène crucial où la stratégie optimale change selon la métrique d'évaluation utilisée.
Loi de puissance : Établissement d'une relation entre la vitesse de détection et le budget d'attention.
Apprentissage structurel non supervisé : Démonstration que des taux de décroissance de "staleness" appris par variable permettent de récupérer la structure de volatilité de l'environnement sans supervision.

4. Résultats Expérimentaux

Les auteurs ont validé leur approche sur deux systèmes : un système minimal (2000 runs) et un environnement modulaire partiellement observable plus complexe, nommé "Liminal" (500 runs).

A. L'Inversion Métrique (Le résultat central)

Les résultats montrent une divergence fondamentale selon la métrique d'évaluation :

Sous l'erreur de prédiction globale : Les stratégies de couverture (comme la rotation cyclique déterministe) sont optimales car elles minimisent l'erreur moyenne sur l'ensemble de l'espace d'état. La méthode Priority est inférieure ou égale.
Sous la latence de détection de changement : C'est la métrique pertinente pour un agent partiellement observable (qui ne peut pas connaître l'erreur sur les variables non observées). Ici, la méthode Priority surpasse significativement la rotation.
- La latence de détection pour la rotation augmente linéairement avec la dimensionnalité ( $N$ ).
- La latence pour Priority reste approximativement constante, car les termes de "surprise" et "staleness" dirigent l'attention vers les variables susceptibles d'avoir changé.
- L'avantage de Priority croît monotonement avec la complexité (de $d = -0.27$ à $N=8$ jusqu'à $d = -0.95$ à $N=48$ ).

B. Loi de Puissance du Budget d'Attention

En variant le budget d'observation $b$ , la latence de détection suit une loi de puissance $L \propto b^{-\alpha}$ :

Priority : Exponent $\alpha = 0.55$ .
Rotation : Exponent $\alpha = 0.40$ .
Cela signifie que chaque unité supplémentaire de budget d'attention apporte un gain marginal plus important pour la méthode Priority que pour la rotation, car les observations supplémentaires sont dirigées vers des cibles à haute valeur ajoutée plutôt que de simplement accélérer un cycle fixe.

C. Apprentissage de Structure Émergent (Expérience 3)

Dans une expérience où le taux de décroissance de la "staleness" ( $\lambda$ ) est appris par variable via une mise à jour pondérée par la surprise :

L'environnement contient des modules à haute volatilité ( $p_{trans}=0.15$ ) et basse volatilité ( $p_{trans}=0.02$ ).
Sans aucune étiquette ou récompense externe, le système apprend spontanément à différencier ces variables.
Les valeurs apprises $\lambda_i$ se séparent en deux clusters distincts correspondant à la vérité terrain ( $\bar{\lambda}_{high} \approx 0.289$ vs $\bar{\lambda}_{low} \approx 0.202$ , $p < 10^{-6}$ ).
Cela prouve que le système peut découvrir la structure latente de l'environnement (où le changement est fréquent) uniquement en surveillant ses propres écarts épistémiques.

5. Signification et Discussion

Critique de l'évaluation standard : L'article remet en cause l'usage de l'erreur de prédiction globale comme métrique unique pour les agents partiellement observables. Cette métrique favorise des stratégies de couverture omnisciente que l'agent ne peut pas atteindre. La métrique appropriée est la vitesse de détection de changement via l'observation propre de l'agent.
Architecture Cognitive : La génération de priorités endogène constitue une couche computationnelle distincte entre le modèle du monde et la politique d'action. Cela suggère une voie vers la formation de buts autonomes.
Efficacité des ressources : Dans les systèmes à attention limitée, la structure de l'allocation d'attention est plus importante que la quantité. Une allocation structurée (basée sur les écarts épistémiques) amplifie la valeur des ressources rares.
Conclusion : Les écarts épistémiques (ignorance, surprise, rancune) sont suffisants, sans récompense externe, pour générer des structures de priorité adaptatives qui surpassent les stratégies fixes et permettent la découverte non supervisée de la structure environnementale.

En résumé, l'article démontre que "Le but est tout ce dont vous avez besoin" : un agent capable de mesurer ses propres lacunes de connaissance peut générer ses propres objectifs d'exploration et s'adapter efficacement à des environnements complexes et changeants.