Probing the Latent World: Emergent Discrete Symbols and Physical Structure in Latent Representations

Este artigo propõe o framework AI Mother Tongue (AIM), uma sonda de quantização passiva que demonstra que o espaço latente contínuo do modelo V-JEPA 2 para vídeo possui uma estrutura simbólica discreta e interpretável, onde diferenças semânticas em ações físicas são codificadas como variações graduais na distribuição de símbolos sem a necessidade de modificar o encoder ou usar supervisão específica.

Liu hung ming

Publicado 2026-03-24
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio extremamente inteligente, mas que só consegue pensar em uma língua secreta e complexa que ninguém mais entende. Esse gênio é o V-JEPA 2, um modelo de inteligência artificial que assiste a vídeos e aprende como o mundo físico funciona (como objetos caem, como as pessoas se movem, a gravidade, etc.).

O problema é que esse gênio não fala português, nem inglês, nem qualquer língua humana. Ele pensa em "números flutuantes" contínuos. Se você perguntar a ele: "O que é uma pessoa correndo?", ele não responde com palavras. Ele apenas muda um pouco o valor desses números. Para nós, humanos, isso é como tentar ler um livro onde todas as letras são códigos matemáticos invisíveis. É um "gênio mudo".

Os cientistas tentavam descobrir o que esse gênio estava pensando de duas formas, mas ambas tinham defeitos:

  1. O Detetive (Probing Discriminativo): Eles perguntavam: "Se eu olhar para esses números, consigo adivinhar se é uma corrida ou uma dança?" O detetive dizia "sim", mas não conseguia explicar como ou por que o gênio pensava assim. Era apenas um "sim" ou "não".
  2. O Tradutor (Probing Generativo): Eles colavam um tradutor (como um modelo de linguagem) na boca do gênio. O tradutor falava bonito: "Ah, isso é uma corrida!". Mas o problema era: será que o gênio realmente sabia que era uma corrida, ou foi o tradutor que inventou a resposta usando o próprio conhecimento dele? Era impossível saber quem era o verdadeiro gênio por trás da resposta.

A Solução: O "AI Mother Tongue" (AIM)

A equipe deste artigo propôs uma ideia brilhante e simples: O Tradutor Passivo.

Eles criaram uma ferramenta chamada AIM (AI Mother Tongue). Pense no AIM como um tradutor de moedas que não sabe nada sobre o mundo. Ele não sabe o que é "corrida" ou "arremesso". Ele só sabe uma coisa: pegar um número complexo e vê-lo como um "símbolo" (uma letra do alfabeto, como A, B, C...).

A mágica acontece assim:

  • O gênio (V-JEPA 2) está congelado. Ele não muda nada. Ele apenas entrega seus números secretos.
  • O AIM pega esses números e os transforma em uma sequência de símbolos simples (ex: "AAAAABBB").
  • Como o gênio não mudou e o AIM não sabe nada sobre o mundo, se os símbolos mudarem quando a cena do vídeo muda, a culpa (ou o mérito) é 100% do gênio.

O Experimento: Testando o Gênio

Os pesquisadores pegaram vídeos de 5 atividades diferentes (como arremessar uma flecha, jogar boliche, voar uma pipa, etc.) e aplicaram o AIM. Eles queriam ver se o AIM criava símbolos diferentes para coisas que eram fisicamente diferentes.

Eles testaram três coisas:

  1. Como segurar as coisas: Arremessar uma flecha (segurar com 3 dedos) vs. Jogar boliche (segurar com a mão toda).
  2. A forma dos objetos: Voar uma pipa (objeto longo) vs. Pular alto (sem objeto, só o corpo).
  3. O ritmo do movimento: Marchar (passos rítmicos e constantes) vs. Arremessar (parar e soltar rápido).

O Resultado:
Funcionou! O AIM começou a usar símbolos diferentes para essas situações.

  • Quando o vídeo era de "Marchar", o AIM usava mais o símbolo "X".
  • Quando era "Arremessar", usava mais o símbolo "Y".

Isso provou que, mesmo sem palavras, o cérebro do gênio (V-JEPA 2) já tinha organizado o conhecimento de forma que "marchar" e "arremessar" eram coisas distintas e separadas nos seus números secretos.

A Descoberta Surpreendente: O "Núcleo Comum"

Aqui está a parte mais interessante. Eles esperavam que cada atividade tivesse um símbolo totalmente diferente (como se "corrida" fosse a letra A e "dança" fosse a letra Z).

Mas não foi isso que aconteceu.
A maioria dos vídeos, não importa se era arremessar, jogar boliche ou voar uma pipa, acabou usando o mesmo símbolo principal (vamos chamar de "Símbolo 5").

Parece um erro? Não! É uma descoberta profunda.
Isso significa que o gênio aprendeu que, no fundo, todas essas ações humanas compartilham a mesma "física básica" (gravidade, como os braços se movem, o chão é sólido). O cérebro dele agrupou tudo isso no mesmo "quarto" (o Símbolo 5).

A diferença entre as ações não estava em mudar de "quarto", mas em como a luz se movia dentro do quarto.

  • "Marchar" usava o Símbolo 5, mas com uma leve "sombra" de outros símbolos (como se houvesse um pouco de "X" e "Y" misturados).
  • "Arremessar" usava o Símbolo 5, mas com uma sombra diferente.

Isso mostra que o modelo é muito eficiente: ele não cria um mundo novo para cada coisa, ele cria um núcleo comum e faz pequenas variações nele. É como se ele dissesse: "Tudo isso é movimento humano, mas o ritmo muda um pouquinho aqui e ali".

Por que isso é importante?

  1. Transparência: Pela primeira vez, conseguimos "ouvir" o que esse tipo de modelo está pensando, sem alterar o modelo original e sem depender de um tradutor que inventa coisas.
  2. Segurança: Se pudermos transformar os pensamentos secretos da IA em símbolos auditáveis, podemos monitorar se ela está pensando coisas estranhas ou perigosas antes de ela agir.
  3. O Futuro: Isso é apenas o "Estágio 1". O plano é, no futuro, ensinar o modelo a usar esses símbolos para planejar ações (como um robô que pensa: "Se eu fizer o símbolo A, o objeto vai cair") e até traduzir esses símbolos para uma linguagem humana real.

Resumo da Ópera:
Os pesquisadores criaram um "tradutor de moedas" que transformou os pensamentos secretos e matemáticos de uma IA em uma lista de símbolos simples. Eles provaram que a IA já entende a física do mundo de forma organizada, agrupando coisas semelhantes em "núcleos comuns" e diferenciando-as por pequenas variações. É como descobrir que, embora o gênio não fale português, ele já tem um mapa mental perfeito do mundo, e agora nós temos uma chave para ler esse mapa.