Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da lâmpada (o modelo de IA) que vive dentro de uma caixa preta. Quando você pede a ele para descrever uma foto de uma mão, ele consegue "ver" os detalhes, mas quando tenta falar o que vê, ele gagueja e dá respostas imprecisas.

Este artigo, escrito por Yakov Pyotr Shkolnikov, investiga exatamente esse fenômeno: "Os modelos de IA sabem geometria, mas apenas não sabem como falar sobre isso?"

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: O "Gargalo da Fala"

Pense no modelo de IA como um engenheiro de precisão que trabalha em silêncio. Ele consegue medir o ângulo de um dedo com uma precisão incrível (como um relógio suíço). Mas, quando você pede para ele "dizer" esse ângulo em texto, ele age como um tradutor desajeitado.

A Realidade: O modelo "vê" a geometria perfeitamente.
O Erro: A parte do cérebro dele que gera texto (a "boca" da IA) é a que falha. É como ter um músico virtuoso que toca um violino perfeito, mas quando tenta cantar a melodia, sai tudo desafinado.
O Resultado: Se você pede a resposta em texto, o erro é de 20 graus. Se você "ouve" diretamente o que o modelo está pensando (usando uma sonda linear), o erro cai para apenas 6 graus. A IA sabe 3 vezes mais do que ela consegue dizer.

2. A Solução: O "Tradutor Rápido" (LoRA)

Os autores descobriram que não precisam reconstruir todo o gênio da lâmpada. Eles apenas precisam de um pequeno adaptador (chamado LoRA) que conecta a mente do engenheiro à sua boca.

A Analogia: Imagine que o modelo é um carro de Fórmula 1, mas está usando pneus de bicicleta (o texto). O carro é rápido, mas os pneus o impedem de andar.
O Truque: Ao adicionar um pequeno "tunagem" (LoRA) de apenas 2.000 imagens, eles trocaram os pneus de bicicleta por pneus de corrida. De repente, o carro (o texto) consegue transmitir a velocidade real do motor (a geometria). O erro cai de 20 para 6,5 graus.

3. O Segredo: O "Treinamento" importa mais que o "Design"

O estudo testou 14 modelos diferentes de IA, desde os mais novos até os mais antigos. A descoberta surpreendente foi que o estilo de construção do modelo não importa tanto quanto o que ele aprendeu.

A Analogia: Pense em cinco cozinheiros diferentes (modelos de IA). Um usa panelas de ferro, outro de cobre, outro de cerâmica. Se todos usarem a mesma receita de treinamento (aprender a ver sem ajuda de rótulos humanos), eles farão o mesmo prato delicioso, mesmo usando panelas diferentes.
O Resultado: Modelos que parecem muito diferentes por dentro (como um cérebro de "Visão-Linguagem" e um de "Apenas Visão") acabam tendo a mesma capacidade de medir geometria. Eles convergiram para a mesma solução funcional, mesmo sem parecerem iguais por dentro.

4. Onde a Geometria Mora?

Os pesquisadores mapearam onde essa informação vive dentro do cérebro da IA.

A Analogia: É como se a informação sobre a posição dos dedos estivesse escondida em camadas profundas da IA. Nas camadas iniciais, é apenas "cor e luz". Nas camadas do meio, vira "forma". Nas camadas finais, vira "geometria exata".
O Problema do Texto: Quando a IA tenta gerar texto, ela passa por um processo que "apaga" esses detalhes finos, como se alguém estivesse tentando descrever uma pintura complexa usando apenas palavras simples, perdendo a nuance.

5. Por que isso é importante para você?

Atualmente, para medir a posição de uma mão ou de um objeto, precisamos de programas gigantes e específicos para cada tarefa.

A Nova Abordagem: Este artigo mostra que podemos usar um único modelo de IA (já instalado no seu computador ou celular) e apenas adicionar um "adesivo" pequeno (a sonda de 6.000 parâmetros) para que ele faça qualquer medição geométrica: ângulo da mão, direção do olhar, posição de um objeto ou até mesmo a lente da câmera.
O Ganho: É como ter um canivete suíço. Em vez de carregar 10 ferramentas diferentes, você usa uma única base poderosa e muda apenas a ponta da ferramenta para a tarefa do dia.

Resumo Final

Os modelos de IA modernos já sabem medir o mundo físico com precisão cirúrgica. O problema é que eles foram treinados para "conversar", e a conversa é uma via de mão única que perde detalhes.

A descoberta é que não precisamos ensinar a IA a ver de novo; precisamos apenas ensinar a IA a falar melhor sobre o que ela já vê. Com um pequeno ajuste, podemos transformar esses gigantes da IA em sensores geométricos baratos, rápidos e extremamente precisos.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Do Foundation Models Know Geometry?

1. O Problema

Os modelos de base visuais e de linguagem (VLMs) são cada vez mais utilizados para tarefas visuais quantitativas. No entanto, há uma lacuna de entendimento sobre o quanto suas representações internas codificam medições físicas contínuas (como ângulos de juntas, pose de objetos ou direção do olhar).

A Paradoxo: Quando os usuários solicitam estimativas quantitativas via texto (prompting), os modelos frequentemente falham, apresentando erros de 20° a 39°.
A Questão Central: Essa imprecisão reflete uma limitação fundamental na representação visual do modelo (o modelo "não vê" a geometria) ou é apenas um gargalo na interface de geração de texto (o modelo "sabe", mas não consegue "dizer")?
Hipótese: O artigo propõe que a geometria contínua está presente nos recursos visuais congelados, mas o caminho de geração de texto falha em extrair e expressar essa informação.

2. Metodologia

Os autores desenvolveram um protocolo sistemático para sondar (probing) os recursos de modelos congelados sem realizar fine-tuning completo dos backbones.

Configuração de Sondagem (Probing):
- Extração de ativações ocultas ( $H^{(\ell)}$ ) de 14 modelos de base diferentes (incluindo ViTs, CNNs e VLMs generativos) em várias camadas.
- Pool Espacial: Média espacial dos tokens para obter um vetor de recurso global ( $\bar{h}_i$ ).
- Leitor Linear: Uso de regressão de rank reduzido (RRR - Reduced-Rank Regression) com regularização Ridge para mapear os recursos congelados diretamente para alvos contínuos (ângulos em graus).
- Parâmetros: Ajuste de hiperparâmetros (rank $r \in \{3..8\}$ , $\alpha$ ) e seleção da camada ótima baseada no $R^2$ de validação cruzada aninhada (10-fold).
Datasets e Tarefas:
- FreiHAND: Pose de mão (21 pontos-chave 3D, 21,000+ imagens).
- BIWI: Pose de cabeça (yaw, pitch, roll).
- YCB-Video: Pose de objetos rígidos (6DoF).
- MPIIFaceGaze: Direção do olhar.
Comparativos:
- Sondagem Congelada: Apenas o leitor linear treinado sobre recursos congelados.
- Geração de Texto: Prompts diretos, few-shot e Chain-of-Thought.
- LoRA (Low-Rank Adaptation): Fine-tuning leve (r=16, 2.000 imagens) no decodificador de texto para ver se pode "aprender" a ler a geometria já existente.

3. Principais Contribuições

O Gargalo de Texto é um Defeito de Treinamento de Caminho, não de Representação:
- As sondas lineares em recursos congelados alcançam um MAE (Erro Médio Absoluto) de 6,1° para ângulos de juntas da mão.
- A melhor saída de texto (mesmo com few-shot) atinge apenas 20,0°.
- Isso representa um gargalo de 3,3x. O fine-tuning leve com LoRA reduz o erro de texto para 6,5°, provando que a geometria está codificada, mas o caminho de texto não a utiliza nativamente.
O Objetivo de Treinamento Determina a Precisão Mais que a Arquitetura:
- Cinco encoders visuais diferentes (DINOv3, SigLIP 2, CLIP, etc.), com arquiteturas e mecanismos de atenção distintos, convergem para uma precisão estatisticamente equivalente ( $R^2 \approx 0,55$ ) na sondagem geométrica.
- Convergência Funcional sem Convergência Representacional: Modelos com baixa similaridade representacional (CKA $\approx 0,41$ ) alcançam a mesma precisão funcional. Isso estende a "Hipótese da Representação Platônica" para alvos geométricos contínuos.
- Modelos pré-treinados com objetivos auto-supervisionados ou contrastivos superam significativamente os modelos supervisionados (ex: DeiT vs. ConvNeXt), indicando que o sinal de treinamento é mais crítico que a arquitetura (ViT vs. CNN).
A Geometria é Espacialmente Dependente da Tarefa:
- A ablação de patches (remover os patches de maior norma) afeta drasticamente a pose de cabeça em imagens com moldura larga (BIWI), mas tem efeito mínimo em objetos rigidamente recortados (YCB-Video).
- Isso explica por que o pooling de atenção melhora a pose de cabeça, mas não a pose de objetos.

4. Resultados Chave

Desempenho de Sondagem vs. Texto:
- Sonda Linear (SigLIP 2): 6,14° MAE.
- Texto (Qwen-3B Few-shot): 20,0° MAE.
- Texto + LoRA: 6,51° MAE (recupera a precisão da sonda).
- Observação: O Chain-of-Thought piorou o desempenho (139,3°), gerando valores alucinados fora do alcance anatômico.
Análise de Camadas:
- Em codificadores visuais (ViTs), o sinal geométrico cresce monotonicamente das camadas iniciais até o meio/fim (pico em L16-L20).
- Em decodidores de LLM (VLMs), o sinal geométrico atinge o pico nas camadas iniciais e decai monotonicamente, indicando que o processamento autoregressivo descarta detalhes geométricos finos.
Validação Cruzada:
- Os rankings de desempenho são robustos sob validação cruzada aninhada (Friedman $\chi^2 = 94.3, p < 10^{-15}$ ).
- Modelos como SigLIP 2, DINOv3 e CLIP formam um "cluster de equivalência" estatística, sendo intercambiáveis para tarefas geométricas.
Generalização:
- A abordagem funciona para pose de mão, cabeça, objetos e até intrínsecos de câmera (foco), adicionando apenas ~6.000 parâmetros por tarefa a um backbone congelado.

5. Significado e Impacto

Para a Pesquisa: Demonstra que os modelos de fundação já contêm uma "geometria latente" rica que é ignorada pela interface de linguagem natural. A limitação não é a percepção, mas a decodificação.
Para a Prática (Engenharia):
- Sondagem Congelada como Solução de Baixo Custo: Em vez de treinar modelos específicos para cada tarefa geométrica (que exigem milhões de parâmetros e dados), é possível usar um único backbone congelado (já implantado) e adicionar sondas lineares leves (~6k parâmetros) para múltiplas tarefas geométricas simultaneamente.
- LoRA para Saída Humana: Se for necessária uma resposta em texto, o fine-tuning leve (LoRA) é suficiente para recuperar a precisão da sonda, sem necessidade de re-treinamento massivo.
Implicações Teóricas: Reforça a ideia de que diferentes arquiteturas podem aprender representações funcionalmente equivalentes para tarefas físicas, mesmo que suas representações internas (CKA) sejam estruturalmente diferentes.

Conclusão: Os modelos de base "sabem" geometria. A falha em tarefas quantitativas via texto é um problema de roteamento e treinamento do decodificador, não uma falta de informação nos recursos visuais. A sondagem linear oferece uma via eficiente e precisa para extrair essa informação física contínua.

Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

1. O Problema: O "Gargalo da Fala"

2. A Solução: O "Tradutor Rápido" (LoRA)

3. O Segredo: O "Treinamento" importa mais que o "Design"

4. Onde a Geometria Mora?

5. Por que isso é importante para você?

Resumo Final

Resumo Técnico: Do Foundation Models Know Geometry?

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

5. Significado e Impacto

Mais como este

AgenticGEO: A Self-Evolving Agentic System for Generative Engine Optimization

ProMAS: Proactive Error Forecasting for Multi-Agent Systems Using Markov Transition Dynamics

Domain-Specialized Tree of Thought through Plug-and-Play Predictors

FactorSmith: Agentic Simulation Generation via Markov Decision Process Decomposition with Planner-Designer-Critic Refinement

Me, Myself, and π\piπ : Evaluating and Explaining LLM Introspection

Me, Myself, and $\pi$ : Evaluating and Explaining LLM Introspection