SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está caminhando pela sua casa com um celular na mão, filmando tudo o que vê. Agora, imagine que esse vídeo não é apenas um arquivo de memória, mas se transforma em um mapa mental 3D inteligente que você pode conversar. É isso que o SpatialMem faz.

Aqui está uma explicação simples, usando analogias do dia a dia:

1. O Problema: A Memória de "Fotos Soltas" vs. O "Mapa Vivo"

Normalmente, quando assistimos a um vídeo, nossa memória é como uma pilha de fotos soltas. Se alguém perguntar: "Onde está a xícara vermelha que estava perto da janela?", você precisa vasculhar mentalmente cada foto, tentando lembrar de onde a câmera estava. É difícil e confuso, especialmente se a sala estiver bagunçada ou se você tiver filmado por horas.

Além disso, a maioria dos robôs ou assistentes de realidade aumentada precisa de sensores caros (como lasers ou câmeras de profundidade) para entender o espaço. O SpatialMem quer fazer isso usando apenas o vídeo comum que você tira com seu celular.

2. A Solução: O Arquiteto e o Bibliotecário

O SpatialMem funciona como uma equipe de dois especialistas trabalhando juntos para transformar seu vídeo caótico em um mapa organizado:

O Arquiteto (A Estrutura 3D): Primeiro, o sistema olha para o vídeo e "constrói" uma réplica 3D da sala. Ele não precisa de lasers; ele usa inteligência artificial para adivinhar a profundidade e a posição das paredes, portas e janelas.
- Analogia: É como se o sistema pegasse um vídeo 2D e "desdobrasse" as paredes, criando uma maquete virtual da sua sala, alinhada com a gravidade (o chão é sempre embaixo, o teto em cima).
O Bibliotecário (A Memória Hierárquica): Depois de ter a maquete, o sistema começa a organizar os objetos. Ele não apenas joga tudo numa caixa. Ele cria uma árvore de memória com três níveis:
1. Nível 1 (A Estrutura): As "raízes" são as coisas fixas: Paredes, Portas, Janelas. São os pontos de referência.
2. Nível 2 (Os Objetos): Os móveis e itens (sofá, TV, copo) são "pendurados" nessas raízes.
3. Nível 3 (As Descrições): Aqui está o truque. O sistema escreve duas coisas sobre cada objeto:
  - O que é: "Uma xícara vermelha".
  - Onde está em relação a quê: "Ao lado da janela norte, sobre a mesa".

3. Como Funciona na Prática? (A Pergunta e a Resposta)

Imagine que você, horas depois de filmar, pergunta ao sistema: "Onde está a xícara vermelha?"

Em vez de procurar em um vídeo, o sistema vai direto ao seu Mapa Mental:

Ele olha para a "árvore" e vê que a xícara está pendurada no nó "Janela".
Ele verifica a distância e a direção.
Ele responde: "A xícara vermelha está perto da janela, na parede norte."

Se você pedir para o sistema te guiar: "Vá até a xícara", ele não desenha um caminho complexo no chão. Ele te dá instruções baseadas nos pontos de referência que ele conhece: "Caminhe em direção à porta, vire à esquerda na parede azul e a xícara estará na sua frente."

4. Por que isso é especial?

Funciona sem equipamentos caros: Você só precisa do celular.
É resistente à bagunça: Mesmo que a sala esteja cheia de caixas e móveis (como um laboratório ou um quarto bagunçado), o sistema consegue manter a noção de onde as coisas estão em relação às paredes.
Entende o "Lado" e a "Distância": Diferente de outros sistemas que só reconhecem "copo" ou "mesa", o SpatialMem entende que o copo está à esquerda da porta e a 2 metros da janela.

Resumo da Ópera

O SpatialMem é como transformar um vídeo de "turista perdido" em um guia turístico local que conhece cada canto da casa. Ele pega imagens planas e chatas, constrói um mundo 3D organizado e cria um índice inteligente, permitindo que você faça perguntas sobre o passado ("O que estava na mesa ontem?") ou peça ajuda para navegar ("Como chego ao banheiro?"), tudo isso sem precisar de sensores de laser caros.

É um passo gigante para que assistentes de realidade aumentada e robôs domésticos realmente "entendam" o mundo ao nosso redor, não apenas "vejam" imagens.

SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

1. O Problema: A Memória de "Fotos Soltas" vs. O "Mapa Vivo"

2. A Solução: O Arquiteto e o Bibliotecário

3. Como Funciona na Prática? (A Pergunta e a Resposta)

4. Por que isso é especial?

Resumo da Ópera

Resumo Técnico: SpatialMem

1. Problema e Motivação

2. Metodologia: SpatialMem

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Conclusão

SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

1. O Problema: A Memória de "Fotos Soltas" vs. O "Mapa Vivo"

2. A Solução: O Arquiteto e o Bibliotecário

3. Como Funciona na Prática? (A Pergunta e a Resposta)

4. Por que isso é especial?

Resumo da Ópera

Resumo Técnico: SpatialMem

1. Problema e Motivação

2. Metodologia: SpatialMem

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning