Probing the Latent World: Emergent Discrete Symbols and Physical Structure in Latent Representations

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ El Misterio de la "Caja Negra" y el Traductor Mudo

Imagina que tienes un genio muy inteligente (llamémosle V-JEPA 2) que ha pasado años viendo millones de videos de YouTube. Este genio ha aprendido a entender el mundo físico: sabe cómo caen las cosas, cómo se mueven las personas y cómo funcionan las leyes de la gravedad.

El problema: Este genio es un "mudo". No habla ni escribe. Solo piensa en un lenguaje secreto de números y vectores (una "caja negra" continua) que los humanos no podemos leer. Sabemos que es inteligente porque hace cosas increíbles (como predecir qué pasará en un video), pero si le preguntas "¿qué estás pensando?", no te responde.

La solución de este paper: Los autores crearon un pequeño dispositivo llamado AIM (AI Mother Tongue) que actúa como un traductor pasivo. Su misión no es enseñarle al genio, sino simplemente "escuchar" sus pensamientos y convertirlos en una lista de símbolos simples (como números del 1 al 8) para ver si tiene sentido.

🧩 La Analogía de la "Caja de Herramientas"

Para entender cómo funciona, imagina lo siguiente:

El Genio (V-JEPA 2): Es un chef experto que cocina en una cocina invisible. Solo ves los ingredientes que entra y el plato final que sale, pero no ves lo que hace en el medio.
El Traductor (AIM): Es un camarero que se sienta en la mesa del chef. El chef no habla, pero el camarero tiene una regla simple: "Si el chef usa la cuchara, anoto un 'A'. Si usa el tenedor, anoto un 'B'".
La Innovación: Lo genial de este paper es que el chef está congelado en el tiempo. No puede cambiar su forma de cocinar para complacer al camarero. El camarero tampoco le dice al chef qué hacer. Solo observa. Si el camarero empieza a anotar patrones (ej. "siempre que hace sopa, anota 'A'"), sabemos que el chef realmente está pensando en sopa, no que el camarero se lo está inventando.

🔍 ¿Qué descubrieron?

Los investigadores probaron este "camarero" con videos de acciones humanas (como lanzar una flecha, saltar o marchar). Querían ver si el genio distinguía cosas físicas reales, como:

El ángulo de la mano: ¿Cómo se agarra un objeto?
La forma del objeto: ¿Es un objeto largo o redondo?
El ritmo del movimiento: ¿Es un movimiento rápido y explosivo o lento y constante?

Los resultados fueron sorprendentes:
Aunque el genio no habla, su "lenguaje secreto" sí tiene estructura. Cuando el genio veía a alguien marchar (ritmo constante), el traductor anotaba una secuencia de símbolos diferente a cuando veía a alguien lanzar una flecha (movimiento explosivo).

El hallazgo más curioso (La "Colisión de Símbolos"):
El traductor descubrió que, para casi todas las acciones, el genio usaba principalmente el mismo símbolo (el número 5). ¡Parecía que el traductor estaba fallando! Pero no era así.

La analogía: Imagina que el genio piensa en "movimiento humano" como una gran habitación (el símbolo 5). Dentro de esa habitación, si estás cerca de la ventana, es "marchar"; si estás cerca de la puerta, es "saltar".
El genio no separa las acciones en habitaciones distintas (como un clasificador aburrido), sino que entiende que todas comparten la misma física básica (gravedad, cuerpos humanos). Las diferencias son solo pequeños cambios de posición dentro de esa misma habitación.
El traductor (AIM) logró detectar esos pequeños cambios de posición y convertirlos en patrones estadísticos.

🚀 ¿Por qué es importante esto?

Confianza: Antes, no sabíamos si el genio realmente entendía la física o solo estaba adivinando. Ahora, gracias a este "traductor pasivo", podemos auditar sus pensamientos sin molestarlo.
El futuro: Esto es solo el Paso 1 de un plan de 4 pasos.
- Paso 1 (Este paper): Verificar que el genio tiene pensamientos estructurados. ✅ (¡Hecho!)
- Paso 2: Hacer el traductor más detallado (más símbolos).
- Paso 3: Dejar que el genio y el traductor aprendan juntos.
- Paso 4: Crear un robot que pueda planear acciones usando estos símbolos.

💡 En resumen

Este paper es como ponerle un micrófono a un genio mudo para escuchar sus pensamientos. Descubrieron que, aunque el genio piensa en un idioma extraño, sus pensamientos sobre el mundo físico están organizados de una manera lógica y predecible. No es un caos; es un mapa estructurado que ahora podemos empezar a leer.

Es un paso gigante para entender cómo las IAs "ven" y "sienten" el mundo, sin tener que obligarlas a hablar como humanos.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Sonda de Discretización Pasiva en Modelos de Mundo Latente

1. El Problema: La Opacidad Representacional en JEPA

Los modelos de mundo para video basados en la Arquitectura de Predicción de Incrustación Conjunta (JEPA), como V-JEPA 2, han logrado avances significativos al predecir regiones enmascaradas en el espacio latente en lugar de reconstruir píxeles. Si bien esto produce codificadores potentes que internalizan regularidades físicas (cinemática, geometría, continuidad temporal), introduce un problema de interpretabilidad estructural:

Falta de verificación visual: A diferencia de los modelos generativos, JEPA no tiene un decodificador de píxeles que permita "ver" lo que el modelo ha aprendido.
El problema de atribución: Los métodos de sondeo (probing) existentes fallan en dos frentes:
1. Sondas discriminativas: Operan en espacio continuo y no generan un registro simbólico auditable.
2. Sondas generativas: Al adjuntar componentes aprendidos (como cabezas de lenguaje o decodificadores), es imposible distinguir si el comportamiento observado proviene del codificador congelado o de los parámetros del componente adjunto.

El objetivo de este trabajo es determinar si el espacio latente congelado de V-JEPA 2 ya contiene estructuras simbólicas organizadas que puedan ser descubiertas sin modificar el modelo original.

2. Metodología: Sonda de Discretización Pasiva (AIM)

Los autores proponen un enfoque novedoso utilizando el marco AI Mother Tongue (AIM) como una sonda de cuantización pasiva.

Arquitectura de Tres Capas:
1. Capa de Modelo Latente: El codificador V-JEPA 2 (ViT-L) se mantiene completamente congelado ( $\nabla \theta = 0$ ). No se permite ningún gradiente hacia el codificador.
2. Capa Semántica Discreta (AIM): Un cuantizador vectorial (VQ) ligero y sin vocabulario predefinido se adjunta a la salida del codificador. Convierte los vectores latentes continuos en secuencias de símbolos discretos basándose únicamente en la geometría del espacio latente.
3. Capa de Interfaz de Lenguaje: (No implementada en esta etapa). Se deja para futuras etapas para traducir los símbolos a lenguaje natural.
Diseño Experimental (Estrategia de Contraste de Categorías):
- Dataset: Kinetics-mini (5 categorías de acción: tiro con arco, bolos, vuelo de cometa, salto de altura, marcha).
- Variables Físicas: Se seleccionaron pares de categorías que contrastan fuertemente en una dimensión física específica mientras se minimizan otras:
  1. Ángulo de agarre: Tiro con arco vs. Bolos.
  2. Geometría del objeto: Vuelo de cometa vs. Salto de altura.
  3. Estructura temporal (velocidad): Marcha (periódica) vs. Tiro con arco (aperiódica).
- Métricas de Evaluación: Se utiliza el test de Chi-cuadrado ( $\chi^2$ ), Información Mutua (MI) y Divergencia Jensen-Shannon (JSD) para medir si la distribución de símbolos cambia significativamente al variar la condición física.
Configuración Técnica:
- Se retienen todos los tokens espaciales (1,568 por video) en lugar de hacer pooling temporal, para preservar la diversidad semántica local.
- Se aplica proyección lineal + Normalización de Capa (LayerNorm) + Normalización L2 para estabilizar los vectores antes de la cuantización.
- Códigobook de tamaño $K=8$ actualizado mediante Exponential Moving Average (EMA).

3. Contribuciones Clave

Sonda Pasiva Discreta: Se formaliza la distinción entre sonda pasiva (codificador congelado, sin vocabulario predefinido) y activa. Esto resuelve el problema de atribución, garantizando que cualquier estructura simbólica emergente provenga exclusivamente del modelo preentrenado.
Compatibilidad Arquitectónica: Se demuestra que AIM puede conectarse a un codificador V-JEPA 2 congelado sin modificar sus archivos fuente, utilizando un cuantizador de una sola capa que se entrena de manera estable.
Estructura Simbólica Estadísticamente Significativa: Se prueba que las distribuciones de símbolos difieren significativamente entre condiciones físicas controladas, validando que el espacio latente contiene información estructurada recuperable.
Caracterización de la Compacidad Latente: Se descubre que el espacio latente es altamente compacto; las categorías de acción comparten un núcleo representacional común, y las diferencias semánticas se codifican como variaciones distribucionales graduales en lugar de fronteras categóricas rígidas.

4. Resultados Experimentales (Etapa 1)

El estudio se divide en dos hipótesis de validación:

H1: Estabilidad del Símbolo:
- El sistema es 100% determinista. Al ejecutar el mismo video 20 veces, el símbolo dominante es idéntico en todas las ejecuciones ( $\bar{\rho} = 1.000$ ). Esto confirma la integridad de la tubería de datos.
H2: Experimentos de Contraste de Categorías:
- Significancia Estadística: Todas las intervenciones físicas rechazaron la hipótesis nula de independencia ( $\chi^2$ p-value $< 10^{-4}$ ).
- Información Mutua (MI): Se observó una MI absoluta de 0.036 a 0.117 bits. La MI normalizada osciló entre 1.2% y 3.9% del máximo teórico (3 bits para $K=8$ ).
- Divergencia (JSD): La distancia entre distribuciones fue mayor para la variable de velocidad temporal (Marcha vs. Tiro con arco, JSD = 0.343) que para las variables geométricas o de agarre (JSD = 0.190). Esto sugiere que V-JEPA 2 es más sensible a la estructura temporal (su objetivo de preentrenamiento) que a la morfología estática.
- Colisión de Símbolo Dominante: En todas las condiciones, el símbolo dominante fue el mismo (índice #5). Sin embargo, las diferencias se detectaron en la "masa secundaria" (ej. el 10-20% de los tokens que se asignan a otros códigos). Esto indica que el modelo no separa las categorías en clusters disjuntos, sino que las mantiene en un "bolsillo" hipersférico compartido con variaciones distribucionales.
- Salud del Códigobook: Se logró una utilización del 62.5% (5 de 8 entradas activas), evitando el colapso del códigobook.

5. Significado e Implicaciones

Validación de la Hipótesis de Modelo de Mundo: Los resultados apoyan la idea de que V-JEPA 2 ha internalizado una estructura física compartida. La "compacidad" del espacio latente no es una falla, sino una característica esperada de un modelo que predice la continuidad física en lugar de maximizar la separación de clases.
Auditoría sin Perturbación: Este método permite auditar el conocimiento interno de un modelo de IA sin alterar sus pesos ni introducir sesgos de tareas específicas, lo cual es crucial para aplicaciones de seguridad y robótica.
Hoja de Ruta Futura: Este trabajo constituye la Etapa 1 de una integración de cuatro etapas. Las etapas futuras planean:
- Aumentar el tamaño del códigobook y usar cuantización residual (Etapa 2).
- Descongelar el codificador para un entrenamiento conjunto (Etapa 3).
- Validar causalidad mediante intervenciones físicas controladas y conectar la interfaz simbólica con un modelo de lenguaje (Etapa 4).

En conclusión, el paper demuestra que es posible extraer un registro simbólico auditable y estadísticamente válido de un modelo de mundo latente congelado, proporcionando una nueva herramienta para la interpretabilidad de sistemas de IA avanzados.

Probing the Latent World: Emergent Discrete Symbols and Physical Structure in Latent Representations

🕵️‍♂️ El Misterio de la "Caja Negra" y el Traductor Mudo

🧩 La Analogía de la "Caja de Herramientas"

🔍 ¿Qué descubrieron?

🚀 ¿Por qué es importante esto?

💡 En resumen

Resumen Técnico: Sonda de Discretización Pasiva en Modelos de Mundo Latente

1. El Problema: La Opacidad Representacional en JEPA

2. Metodología: Sonda de Discretización Pasiva (AIM)

3. Contribuciones Clave

4. Resultados Experimentales (Etapa 1)

5. Significado e Implicaciones

Más como este

JointFM-0.1: A Foundation Model for Multi-Target Joint Distributional Prediction

MARLIN: Multi-Agent Reinforcement Learning for Incremental DAG Discovery

Collaborative Adaptive Curriculum for Progressive Knowledge Distillation

Transformer-Based Predictive Maintenance for Risk-Aware Instrument Calibration

Rolling-Origin Validation Reverses Model Rankings in Multi-Step PM10 Forecasting: XGBoost, SARIMA, and Persistence