Probing the Latent World: Emergent Discrete Symbols and Physical Structure in Latent Representations

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio extremamente inteligente, mas que só consegue pensar em uma língua secreta e complexa que ninguém mais entende. Esse gênio é o V-JEPA 2, um modelo de inteligência artificial que assiste a vídeos e aprende como o mundo físico funciona (como objetos caem, como as pessoas se movem, a gravidade, etc.).

O problema é que esse gênio não fala português, nem inglês, nem qualquer língua humana. Ele pensa em "números flutuantes" contínuos. Se você perguntar a ele: "O que é uma pessoa correndo?", ele não responde com palavras. Ele apenas muda um pouco o valor desses números. Para nós, humanos, isso é como tentar ler um livro onde todas as letras são códigos matemáticos invisíveis. É um "gênio mudo".

Os cientistas tentavam descobrir o que esse gênio estava pensando de duas formas, mas ambas tinham defeitos:

O Detetive (Probing Discriminativo): Eles perguntavam: "Se eu olhar para esses números, consigo adivinhar se é uma corrida ou uma dança?" O detetive dizia "sim", mas não conseguia explicar como ou por que o gênio pensava assim. Era apenas um "sim" ou "não".
O Tradutor (Probing Generativo): Eles colavam um tradutor (como um modelo de linguagem) na boca do gênio. O tradutor falava bonito: "Ah, isso é uma corrida!". Mas o problema era: será que o gênio realmente sabia que era uma corrida, ou foi o tradutor que inventou a resposta usando o próprio conhecimento dele? Era impossível saber quem era o verdadeiro gênio por trás da resposta.

A Solução: O "AI Mother Tongue" (AIM)

A equipe deste artigo propôs uma ideia brilhante e simples: O Tradutor Passivo.

Eles criaram uma ferramenta chamada AIM (AI Mother Tongue). Pense no AIM como um tradutor de moedas que não sabe nada sobre o mundo. Ele não sabe o que é "corrida" ou "arremesso". Ele só sabe uma coisa: pegar um número complexo e vê-lo como um "símbolo" (uma letra do alfabeto, como A, B, C...).

A mágica acontece assim:

O gênio (V-JEPA 2) está congelado. Ele não muda nada. Ele apenas entrega seus números secretos.
O AIM pega esses números e os transforma em uma sequência de símbolos simples (ex: "AAAAABBB").
Como o gênio não mudou e o AIM não sabe nada sobre o mundo, se os símbolos mudarem quando a cena do vídeo muda, a culpa (ou o mérito) é 100% do gênio.

O Experimento: Testando o Gênio

Os pesquisadores pegaram vídeos de 5 atividades diferentes (como arremessar uma flecha, jogar boliche, voar uma pipa, etc.) e aplicaram o AIM. Eles queriam ver se o AIM criava símbolos diferentes para coisas que eram fisicamente diferentes.

Eles testaram três coisas:

Como segurar as coisas: Arremessar uma flecha (segurar com 3 dedos) vs. Jogar boliche (segurar com a mão toda).
A forma dos objetos: Voar uma pipa (objeto longo) vs. Pular alto (sem objeto, só o corpo).
O ritmo do movimento: Marchar (passos rítmicos e constantes) vs. Arremessar (parar e soltar rápido).

O Resultado:
Funcionou! O AIM começou a usar símbolos diferentes para essas situações.

Quando o vídeo era de "Marchar", o AIM usava mais o símbolo "X".
Quando era "Arremessar", usava mais o símbolo "Y".

Isso provou que, mesmo sem palavras, o cérebro do gênio (V-JEPA 2) já tinha organizado o conhecimento de forma que "marchar" e "arremessar" eram coisas distintas e separadas nos seus números secretos.

A Descoberta Surpreendente: O "Núcleo Comum"

Aqui está a parte mais interessante. Eles esperavam que cada atividade tivesse um símbolo totalmente diferente (como se "corrida" fosse a letra A e "dança" fosse a letra Z).

Mas não foi isso que aconteceu.
A maioria dos vídeos, não importa se era arremessar, jogar boliche ou voar uma pipa, acabou usando o mesmo símbolo principal (vamos chamar de "Símbolo 5").

Parece um erro? Não! É uma descoberta profunda.
Isso significa que o gênio aprendeu que, no fundo, todas essas ações humanas compartilham a mesma "física básica" (gravidade, como os braços se movem, o chão é sólido). O cérebro dele agrupou tudo isso no mesmo "quarto" (o Símbolo 5).

A diferença entre as ações não estava em mudar de "quarto", mas em como a luz se movia dentro do quarto.

"Marchar" usava o Símbolo 5, mas com uma leve "sombra" de outros símbolos (como se houvesse um pouco de "X" e "Y" misturados).
"Arremessar" usava o Símbolo 5, mas com uma sombra diferente.

Isso mostra que o modelo é muito eficiente: ele não cria um mundo novo para cada coisa, ele cria um núcleo comum e faz pequenas variações nele. É como se ele dissesse: "Tudo isso é movimento humano, mas o ritmo muda um pouquinho aqui e ali".

Por que isso é importante?

Transparência: Pela primeira vez, conseguimos "ouvir" o que esse tipo de modelo está pensando, sem alterar o modelo original e sem depender de um tradutor que inventa coisas.
Segurança: Se pudermos transformar os pensamentos secretos da IA em símbolos auditáveis, podemos monitorar se ela está pensando coisas estranhas ou perigosas antes de ela agir.
O Futuro: Isso é apenas o "Estágio 1". O plano é, no futuro, ensinar o modelo a usar esses símbolos para planejar ações (como um robô que pensa: "Se eu fizer o símbolo A, o objeto vai cair") e até traduzir esses símbolos para uma linguagem humana real.

Resumo da Ópera:
Os pesquisadores criaram um "tradutor de moedas" que transformou os pensamentos secretos e matemáticos de uma IA em uma lista de símbolos simples. Eles provaram que a IA já entende a física do mundo de forma organizada, agrupando coisas semelhantes em "núcleos comuns" e diferenciando-as por pequenas variações. É como descobrir que, embora o gênio não fale português, ele já tem um mapa mental perfeito do mundo, e agora nós temos uma chave para ler esse mapa.

Each language version is independently generated for its own context, not a direct translation.

Título: Sondando o Mundo Latente: Símbolos Discretos Emergentes e Estrutura Física em Representações Latentes

Autores: Liu Hung Ming (PARRAWA AI)
Data: 24 de março de 2026

1. O Problema: A Lacuna de Interpretabilidade Estrutural

Os modelos de mundo de vídeo baseados em Arquiteturas de Embedding Preditivo Conjuntas (JEPA), como o V-JEPA 2, alcançaram estado da arte na compreensão de movimento e antecipação de ações. Diferente de modelos generativos que reconstroem pixels, os modelos JEPA aprendem a prever regiões mascaradas diretamente no espaço latente.

Embora isso produza codificadores poderosos que internalizam regularidades físicas (cinemática, geometria, continuidade temporal), cria um problema de opacidade representacional:

Falta de Verificação Visual: Não há um caminho de saída para pixels que permita inspecionar visualmente o que o modelo aprendeu.
Limitação dos Métodos Atuais:
- Probes Discriminativos: Operam em espaço contínuo e apenas respondem "sim/não" sobre a decodificabilidade, sem criar uma interface simbólica estruturada.
- Probes Generativos: Anexam cabeças de modelos de linguagem ou decodificadores de pixels. Isso introduz o problema de atribuição: se o sistema funciona, não se sabe se o conhecimento vem do encoder (o modelo estudado) ou dos parâmetros aprendidos pelo componente anexado.

O objetivo deste trabalho é investigar se o espaço latente congelado de um modelo JEPA já contém estruturas simbólicas organizadas que possam ser descobertas sem modificar o modelo original.

2. Metodologia: Sondagem Discreta Passiva (AIM)

Os autores propõem uma abordagem inovadora chamada Sondagem Discreta Passiva, utilizando o framework AI Mother Tongue (AIM) como uma sonda de quantização.

Arquitetura de Três Camadas

O sistema é formalizado em três camadas desacopladas:

Camada de Modelo Latente (Frozen): O encoder do V-JEPA 2 (ViT-L) é mantido completamente congelado ( $\nabla \theta = 0$ ). Ele processa vídeos e produz vetores latentes contínuos.
Camada Semântica Discreta (AIM): Um quantizador vetorial (VQ) leve, sem vocabulário pré-definido, mapeia os vetores contínuos para uma sequência de símbolos discretos baseados em um código (codebook) aprendido.
- Crucial: O quantizador não possui supervisão de tarefa, rótulos de categoria ou vocabulário prévio. Qualquer estrutura simbólica que emerge deve originar-se exclusivamente das representações do encoder.
Camada de Interface de Linguagem (Não implementada nesta fase): Seria responsável por traduzir os símbolos para linguagem natural (futura).

Design Experimental (Kinetics-mini)

Para validar a metodologia, os autores realizaram experimentos de contraste de categorias em três dimensões físicas, usando pares de categorias de ação como proxies:

Ângulo de Preensão: Arco e flecha vs. Bowling.
Geometria do Objeto: Voar pipa vs. Salto em altura.
Estrutura Temporal (Velocidade): Marchar vs. Arco e flecha.

Protocolo de Treinamento (Estágio 1):

Encoder: Congelado.
Quantizador: Treinado apenas nos vetores latentes pré-computados.
Codebook: Tamanho $K=8$ , atualizado via Média Móvel Exponencial (EMA).
Pré-processamento: Projeção linear + Normalização (LayerNorm + L2) para lidar com a magnitude dos vetores latentes do V-JEPA 2.

3. Contribuições Principais

Sondagem Discreta Passiva: Estabelece uma distinção metodológica clara entre sondagem passiva (encoder congelado, probe sem viés semântico) e ativa. Isso resolve o problema de atribuição, garantindo que qualquer estrutura simbólica detectada pertença ao modelo JEPA.
Compatibilidade Arquitetural: Demonstra que o framework AIM pode ser acoplado a um encoder V-JEPA 2 congelado sem modificar arquivos fonte originais, treinando um quantizador leve de forma estável.
Estrutura Simbólica Estatisticamente Significativa: Prova que o espaço latente congelado contém informações estruturadas fisicamente que são recuperáveis através de simbolização discreta.
Caracterização de Espaço Latente Compacto: Revela que o V-JEPA 2 não separa categorias em clusters discretos, mas sim as representa como variações distribucionais graduais dentro de um núcleo representacional compartilhado.

4. Resultados Experimentais

Os resultados do Estágio 1 foram altamente positivos, atendendo a todos os critérios de aprovação:

Estabilidade do Símbolo (H1): Consistência de 100% em passagens repetidas, confirmando que o pipeline é determinístico e livre de ruído residual.
Significância Estatística (H2): Em todas as três intervenções físicas, as distribuições de símbolos diferiram significativamente:
- Teste Qui-Quadrado ( $\chi^2$ ): $p < 10^{-4}$ para todos os pares.
- Informação Mútua (MI): Absoluta entre 0,036 e 0,117 bits.
- Divergência Jensen-Shannon (JSD): Até 0,342 (para a intervenção de velocidade/marcha).
- Razão MI: Os valores experimentais superaram a linha de base (ruído gaussiano) por fatores de $10^6 $a$ 10^7$.
Saúde do Codebook: 62,5% das entradas do codebook (5 de 8) estavam ativas, indicando que o quantizador não colapsou para um único símbolo.

Observação Chave: Colisão de Símbolo Dominante
Um fenômeno notável foi que, em todas as condições, o símbolo dominante foi o mesmo (entrada #5). No entanto, as distribuições secundárias (símbolos #3 e #4) variaram significativamente entre as condições.

Interpretação: Isso não indica falha, mas sim que o espaço latente do V-JEPA 2 é altamente compacto. Diferentes ações compartilham um núcleo físico comum (gravidade, cinemática humana) e diferem apenas em variações distribucionais graduais, não em fronteiras categóricas rígidas.
Sensibilidade Temporal: A intervenção de "velocidade de movimento" (marcha vs. arco) produziu o sinal mais forte (JSD = 0,34), consistente com o objetivo de treinamento do V-JEPA 2 (previsão temporal).

5. Significado e Implicações

Validação da Hipótese de Modelo de Mundo: Os resultados sugerem que o V-JEPA 2 internalizou com sucesso estruturas físicas compartilhadas. A compactação do espaço latente é uma característica desejável de um modelo de mundo, não uma falha de capacidade representacional.
Interface Auditável: O uso de símbolos discretos cria uma interface estatisticamente testável para auditar modelos de IA sem perturbar seus pesos internos. Isso é crucial para aplicações de segurança e robótica.
Roteiro para o Futuro (4 Estágios):
- Estágio 1 (Concluído): Diagnóstico de compatibilidade com encoder congelado.
- Estágio 2: Aumento do tamanho do codebook e quantização residual para resolver sub-estruturas.
- Estágio 3: Treinamento conjunto (unfreezing do encoder) para alinhar representações e vocabulário.
- Estágio 4: Modelo de mundo simbólico condicionado a ações e validação causal.

Conclusão

O artigo demonstra que é possível extrair e auditar estruturas simbólicas significativas de modelos de mundo latente modernos (JEPA) sem retrainar o modelo ou introduzir viés semântico externo. A descoberta de que o espaço latente é "compacto" e baseado em variações distribucionais, em vez de clusters separados, oferece uma nova perspectiva sobre como os modelos de IA aprendem a física do mundo, sugerindo que eles aprendem regularidades físicas compartilhadas que transcendem categorias superficiais.