Probing the Latent World: Emergent Discrete Symbols and Physical Structure in Latent Representations

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Détective du Monde Caché : Comment on a "lu" les pensées d'une IA

Imaginez que vous avez un génie très intelligent (l'IA) qui a passé des années à regarder des millions de vidéos. Ce génie a appris à comprendre comment le monde fonctionne : comment les objets tombent, comment les gens marchent, comment les choses bougent. C'est ce qu'on appelle un modèle de monde (V-JEPA 2).

Mais il y a un gros problème : ce génie pense dans une langue que nous ne comprenons pas. Il utilise des "pensées" complexes et floues (des vecteurs continus) qu'il garde pour lui. Il ne dessine pas ce qu'il voit, il ne parle pas. Il se contente de prédire ce qui va arriver ensuite dans le noir.

Le défi des chercheurs : Comment savoir ce que ce génie a vraiment appris, sans le déranger et sans lui demander de parler ? Si on lui attache un traducteur (un autre réseau de neurones), on ne saura jamais si c'est le génie qui a compris la chose, ou si c'est le traducteur qui a deviné.

🧪 La Solution : Le "Détecteur de Mots" Passif (AIM)

Les auteurs ont eu une idée brillante. Au lieu de forcer l'IA à parler, ils ont accroché un petit outil très simple et passif, qu'ils appellent AIM (AI Mother Tongue).

Imaginez que l'IA est un orchestre jouant une symphonie complexe et continue.

L'ancien problème : On essayait d'écouter la musique et de deviner les notes, ou on ajoutait un chanteur qui improvisait sur la musique (ce qui faussait le résultat).
La nouvelle méthode (AIM) : Ils ont posé un petit microphone spécial qui ne fait que transformer chaque note complexe en un symbole simple (comme un chiffre ou un mot-clé : "A", "B", "C").

Ce microphone est passif. Il ne change pas la musique. Il ne fait que la "numériser" en symboles. Si l'IA joue une mélodie triste, le microphone sortira beaucoup de symboles "Triste". Si elle joue une mélodie joyeuse, il sortira des symboles "Joyeux".

🎬 L'Expérience : Le Test des Actions

Pour voir si ce microphone fonctionne, les chercheurs ont fait une expérience avec des vidéos de mouvements humains (comme dans un jeu vidéo de sport). Ils ont comparé trois paires d'actions :

La prise en main : Tir à l'arc (doigts pincés, bras tendu) vs Bowling (poignée, mouvement de balancier).
La forme de l'objet : Faire voler un cerf-volant (objet long et fin) vs Saut en hauteur (pas d'objet, juste le corps).
Le rythme du temps : Marcher (rythme régulier, comme un métronome) vs Tir à l'arc (longue attente calme, puis un seul mouvement rapide).

Le résultat magique :
Même si l'IA ne parlait pas, le microphone AIM a produit des séquences de symboles différents selon l'action !

Quand l'IA regardait marcher, elle émettait beaucoup de symboles "Rythme".
Quand elle regardait tirer à l'arc, elle émettait des symboles "Attente" et "Explosion".

Cela prouve que l'IA a bien appris la structure physique du monde (le temps, la forme, la prise en main) et qu'on peut maintenant "lire" ces pensées en les transformant en symboles.

🧱 La Révélation : Un Monde Compact

Une découverte surprenante est apparue. Toutes les actions (tir à l'arc, bowling, marche, etc.) utilisaient principalement le même symbole dominant (disons le symbole "5").

L'analogie : Imaginez un grand hôtel (l'espace de l'IA).

On pensait que chaque action avait sa propre chambre (une pour le tir à l'arc, une pour le bowling).
En réalité, tout le monde dort dans la même grande suite (le symbole 5).
Mais, la façon dont ils s'installent dans la suite est différente !
- Le tireur à l'arc est assis sur le bord du lit.
- Le marcheur est debout près de la fenêtre.
- Le bowler est allongé sur le canapé.

L'IA a appris que tous ces mouvements partagent les mêmes lois physiques (la gravité, le corps humain), donc ils sont tous dans la même "suite". Mais les différences subtiles (le rythme, la forme) sont comme des variations dans la façon d'occuper la pièce. Le microscope AIM a réussi à voir ces petites variations de positionnement.

🚀 Pourquoi c'est important ?

On peut vérifier sans casser : On peut maintenant auditer ce que l'IA a appris sans la réentraîner ni la modifier. C'est comme faire une radiographie sans ouvrir le corps.
C'est une preuve de compréhension : L'IA ne fait pas que reconnaître des images. Elle a internalisé la physique du monde.
L'avenir (La feuille de route) : C'est la première étape (Stage 1) d'un grand projet.
- Étape 2 : On va affiner le microscope pour voir plus de détails.
- Étape 3 : On va laisser l'IA et le microscope apprendre ensemble pour mieux se comprendre.
- Étape 4 : On va permettre à l'IA de planifier des actions en utilisant ces symboles, comme un humain qui imagine une scène avant de l'agir.

En résumé

Ce papier nous dit : "Ne vous inquiétez pas de l'opacité des IA. Nous avons inventé un traducteur passif qui transforme leurs pensées floues en symboles clairs. Et surprise ! Ces symboles révèlent que l'IA a compris les lois physiques du monde, en les organisant de manière très compacte et intelligente."

C'est comme si on avait trouvé un moyen de lire les rêves d'un ordinateur sans jamais le réveiller.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : L'Opacité Représentationnelle des Modèles JEPA

Les modèles de monde vidéo modernes, basés sur l'architecture JEPA (Joint Embedding Predictive Architecture) comme V-JEPA 2, apprennent des représentations riches en prédisant des régions masquées dans l'espace latent plutôt qu'en reconstruisant les pixels. Bien que cette approche produise des encodeurs puissants capables de comprendre la physique et la kinématique, elle crée un fossé d'interprétabilité structurelle :

Contrairement aux modèles génératifs qui offrent une voie de vérification visuelle (reconstruction d'images), les modèles JEPA confinent tout l'apprentissage dans un espace latent continu.
Les méthodes d'interprétation existantes souffrent de deux limites majeures :
1. Les sondes discriminatives (classificateurs linéaires) opèrent dans un espace continu et ne fournissent pas d'interface symbolique structurée.
2. Les sondes génératives (têtes de langage, décodeurs) introduisent un problème d'attribution : il est impossible de distinguer si le comportement observé provient de l'encodeur gelé ou des paramètres appris par la sonde elle-même.

L'objectif de l'article est de déterminer si l'espace latent gelé de V-JEPA 2 contient déjà des variétés structurées (des structures physiques) qui peuvent être révélées par une sonde discrète passive, sans modifier l'encodeur.

2. Méthodologie : La Sonde Passive Discrète (AIM)

Les auteurs proposent d'attacher le cadre AI Mother Tongue (AIM) comme une sonde de quantification passive. Cette approche repose sur une architecture à trois couches :

Couche Latente (Gelé) : L'encodeur V-JEPA 2 (ViT-L) reste totalement figé ( $\nabla \phi = 0$ ). Il produit des vecteurs continus $z$ .
Couche Sémantique Discrète (AIM) : Un module de quantification vectorielle (VQ) léger, sans supervision de tâche ni vocabulaire prédéfini, convertit les vecteurs continus en séquences de symboles discrets.
- Principe clé : L'encodeur ne s'adapte pas à la sonde, et la sonde n'importe aucune structure sémantique externe. Toute structure symbolique émergente est donc attribuable à 100 % aux représentations pré-entraînées de V-JEPA 2.
- Architecture : Projection linéaire ($1024 \to 256$), normalisation (LayerNorm + L2), et mise à jour du codebook par moyenne mobile exponentielle (EMA).
Couche Interface (Non implémentée ici) : Une future couche de langage pour interpréter les symboles.

Protocole Expérimental (Kinetics-mini) :

Données : 50 vidéos de 5 catégories d'actions (tir à l'arc, bowling, cerf-volant, saut en hauteur, défilé).
Stratégie de Contraste : Les auteurs comparent des paires de catégories qui diffèrent principalement selon une dimension physique spécifique, tout en minimisant les autres facteurs visuels :
1. Angle de préhension : Tir à l'arc vs Bowling.
2. Géométrie de l'objet : Cerf-volant vs Saut en hauteur.
3. Structure temporelle (Vitesse) : Défilé (périodique) vs Tir à l'arc (apériodique).
Métriques : Tests du Chi-deux ( $\chi^2$ ), Information Mutuelle (MI), et Divergence Jensen-Shannon (JSD) entre les distributions de symboles.

3. Résultats Clés

L'expérience de Phase 1 a validé la compatibilité architecturale et la présence de structure :

Intégrité du Pipeline (H1) : La stabilité des symboles est de 100 % ( $\bar{\rho} = 1.000$ ), confirmant que le pipeline est déterministe et que les variations observées proviennent uniquement des données d'entrée.
Structure Symbolique Significative (H2) : Les distributions de symboles diffèrent de manière statistiquement significative pour les trois dimensions physiques testées :
- Significativité : Valeurs $p < 10^{-4}$ (et $< 10^{-10}$ pour la vitesse).
- Information Mutuelle : Entre 0,036 et 0,117 bits (soit 1,2 % à 3,9 % du maximum théorique de 3 bits pour un codebook de taille 8).
- Divergence (JSD) : Jusqu'à 0,342 pour la dimension temporelle.
- Ratio MI : Les rapports par rapport à un bruit gaussien dépassent $10^6$, éliminant tout biais du codebook.
Utilisation du Codebook : 62,5 % des entrées du codebook (5 sur 8) sont actives, indiquant une utilisation saine et non effondrée.
Observation de "Collision de Symbole Dominant" : Toutes les catégories d'actions tendent à mapper vers le même symbole dominant (l'entrée #5). Cependant, les variations distributionnelles secondaires (la répartition sur les autres symboles) sont suffisantes pour discriminer les actions.
- Interprétation : Cela ne signifie pas un échec de la quantification, mais révèle que l'espace latent de V-JEPA 2 est hautement compact. Les actions partagent un noyau représentatif commun (gravité, cinématique humaine) et les différences sémantiques sont encodées comme des variations graduelles de distribution plutôt que comme des frontières catégorielles disjointes.
- La dimension temporelle (marche vs tir) produit le signal le plus fort, cohérent avec l'objectif de prédiction temporelle de V-JEPA 2.

4. Contributions Principales

Sondage Passif Discrétisé : Introduction d'une distinction méthodologique entre le sondage passif (encodeur gelé, sonde sans vocabulaire) et le sondage actif. Cela résout le problème d'attribution en garantissant que la structure symbolique provient de l'encodeur.
Compatibilité Architecturale : Démonstration qu'AIM peut être attaché à un encodeur V-JEPA 2 gelé sans modification du code source original, en utilisant un quantificateur VQ léger.
Preuve de Structure Physique : Preuve statistique que l'espace latent gelé de V-JEPA 2 encode des informations structurées liées à la physique (forme, mouvement, temps) qui sont récupérables via la symbolisation discrète.
Caractérisation de la Compacité : Mise en évidence du fait que les modèles JEPA internalisent une structure physique partagée, créant un espace latent compact où les différences sémantiques sont des variations distributionnelles plutôt que des clusters séparés.

5. Signification et Perspectives

Validation de l'Hypothèse de Monde : Les résultats soutiennent l'hypothèse que V-JEPA 2 agit comme un modèle de monde interne, ayant appris des régularités physiques partagées plutôt que de simples classificateurs de catégories.
Feuille de Route en 4 Étapes : Ce travail constitue l'Étape 1 d'un programme de recherche visant à construire un modèle de monde symbolique conditionné par l'action :
- Étape 2 : Augmentation de la taille du codebook et quantification résiduelle pour résoudre les sous-structures.
- Étape 3 : Dégel de l'encodeur et entraînement conjoint pour aligner les représentations sur le vocabulaire symbolique.
- Étape 4 : Intégration d'un modèle de langage et validation causale via des interventions physiques contrôlées.
Sécurité et Auditabilité : La capacité à convertir des vecteurs latents continus en symboles discrets auditable offre une nouvelle voie pour surveiller les états internes des IA (détection de coordination cachée, audit de sécurité) sans perturber le modèle.

En conclusion, l'article démontre que la structure physique du monde réel est encodée de manière exploitable dans les représentations latentes gelées de V-JEPA 2, et que l'approche AIM fournit une interface statistiquement testable pour révéler cette structure sans biais d'attribution.

Probing the Latent World: Emergent Discrete Symbols and Physical Structure in Latent Representations

🕵️‍♂️ Le Détective du Monde Caché : Comment on a "lu" les pensées d'une IA

🧪 La Solution : Le "Détecteur de Mots" Passif (AIM)

🎬 L'Expérience : Le Test des Actions

🧱 La Révélation : Un Monde Compact

🚀 Pourquoi c'est important ?

En résumé

1. Problématique : L'Opacité Représentationnelle des Modèles JEPA

2. Méthodologie : La Sonde Passive Discrète (AIM)

3. Résultats Clés

4. Contributions Principales

5. Signification et Perspectives

Articles similaires

JointFM-0.1: A Foundation Model for Multi-Target Joint Distributional Prediction

MARLIN: Multi-Agent Reinforcement Learning for Incremental DAG Discovery

Collaborative Adaptive Curriculum for Progressive Knowledge Distillation

Transformer-Based Predictive Maintenance for Risk-Aware Instrument Calibration

Rolling-Origin Validation Reverses Model Rankings in Multi-Step PM10 Forecasting: XGBoost, SARIMA, and Persistence