Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo um robô doméstico inteligente, capaz de andar pela sua casa, pegar uma xícara de café e desviar de um gato. Para isso, o robô precisa de um "mapa mental" 3D do ambiente. Ele não pode apenas ver cores; ele precisa entender onde estão as paredes, o chão, a cadeira e, mais importante, o que são esses objetos.

O problema é que a maioria dos robôs hoje em dia é como um aluno que decorou apenas a lista de palavras do livro didático. Se você perguntar "onde está a cadeira?", ele sabe. Mas se você perguntar "onde está o meu chapéu de palha?", ele fica confuso, porque "chapéu de palha" não estava na lista de treinamento. Isso é o que chamamos de vocabulário fechado.

Os autores deste artigo, a equipe da LegoOcc, criaram uma nova forma de ensinar robôs a entenderem qualquer coisa, mesmo que nunca tenham visto antes. Eles chamam isso de Predição de Ocupação de Vocabulário Aberto.

Aqui está a explicação simplificada de como eles fizeram isso, usando analogias do dia a dia:

1. O Desafio: A Casa é um Labirinto

Pense em dirigir um carro na estrada (cenário externo). É fácil: há faixas, carros e árvores. Mas entrar em uma casa (cenário interno) é como entrar em um labirinto cheio de móveis, caixas, brinquedos e objetos pequenos espalhados por todo lado. A geometria é densa e os objetos se misturam.

Os métodos antigos funcionavam bem na estrada, mas falhavam dentro de casa porque não conseguiam lidar com tanta complexidade e com a infinidade de objetos diferentes que existem em um lar.

2. A Solução Mágica: "Gaussians" com Etiquetas de Idioma

A equipe usou uma técnica chamada Gaussians (que são como pequenas nuvens de luz ou "pontos de fumaça" flutuantes no espaço 3D). Em vez de apenas usar essas nuvens para desenhar a forma dos objetos, eles deram a cada nuvem uma "etiqueta de idioma".

A Analogia: Imagine que cada móvel na sua casa é feito de milhões de pequenas nuvens de fumaça. O segredo do LegoOcc é que cada nuvem não apenas sabe "onde está", mas também carrega consigo uma "etiqueta mental" que diz o que ela é (ex: "isso é parte de uma mesa", "isso é parte de um livro").
Isso permite que o robô entenda a forma (geometria) e o significado (semântica) ao mesmo tempo.

3. O Truque do "Aprendizado Cego" (Supervisão Apenas Geométrica)

Normalmente, para treinar um robô para reconhecer objetos, você precisa gastar muito dinheiro e tempo mostrando a ele milhares de fotos e dizendo: "Isso é uma cadeira", "Isso é uma mesa". Isso é caro e difícil de fazer para todos os objetos possíveis.

Os autores tiveram uma ideia brilhante: Eles ensinaram o robô a ver apenas se algo está "ocupado" ou "vazio" (preto ou branco), sem dizer o nome do objeto.

A Analogia: Imagine que você está ensinando uma criança a desenhar um mapa da sua casa. Em vez de dizer "desenhe a cama", você só diz "desenhe onde tem algo sólido". A criança desenha a forma da cama, da mesa e do sofá, mas não sabe os nomes.
Depois, o robô usa um "tradutor" (um modelo de linguagem) para conectar essas formas sólidas às palavras que você diz. Se você perguntar "onde está o sofá?", o robô olha para o mapa de formas sólidas e diz: "Ah, aquela forma ali se parece com o conceito de sofá".

4. Os Dois Grandes Problemas (e como eles os resolveram)

Ao tentar fazer isso, eles encontraram dois obstáculos principais e criaram soluções criativas:

A. O Problema da "Nuvem Fofa" (Geometria)

Quando você tenta transformar essas "nuvens de fumaça" (Gaussians) em um mapa sólido de ocupação, elas tendem a ficar muito "moles" e imprecisas se não forem tratadas corretamente.

A Solução: Eles usaram uma matemática baseada em Processos de Poisson.
A Analogia: Imagine que cada nuvem é como uma chuva de gotas. Se você apenas somar as gotas, pode ficar confuso. Mas, se você pensar em cada gota como um "evento" que cai em um balde, e a ocupação do balde for definida pela chance de pelo menos uma gota ter caído, o cálculo fica muito mais estável. Isso fez com que o mapa 3D ficasse nítido e preciso, mesmo sem saber os nomes dos objetos.

B. O Problema da "Sopa de Letras" (Semântica)

Quando o robô tenta olhar para uma imagem e dizer o que é cada parte, ele muitas vezes mistura as características. Se uma cadeira está na frente de uma mesa, o robô pode achar que a cadeira é metade cadeira e metade mesa.

A Solução: Eles criaram um cronograma de Decaimento de Temperatura Progressiva.
A Analogia: Imagine que você está cozinhando uma sopa onde os ingredientes estão misturados. No começo do treinamento, a "temperatura" é alta, e os ingredientes (as características dos objetos) estão bem misturados, o que ajuda o robô a não se frustrar. Mas, conforme o treinamento avança, eles vão "resfriando" a sopa lentamente.
Ao esfriar (diminuir a temperatura), as características se separam. O robô aprende a distinguir claramente onde termina a cadeira e onde começa a mesa, tornando as "etiquetas de idioma" muito mais precisas.

5. O Resultado Final

O robô "LegoOcc" conseguiu:

Ver a casa inteira em 3D com muita precisão (usando apenas uma câmera).
Entender qualquer objeto que você nomear, mesmo que ele nunca tenha sido treinado especificamente para aquele objeto.
Ser mais rápido e preciso do que os métodos anteriores que tentavam fazer a mesma coisa.

Em resumo: Eles ensinaram um robô a criar um mapa mental 3D da sua casa apenas olhando para a forma dos objetos, e depois ensinaram esse robô a conectar essas formas a qualquer palavra que você falar. É como dar a um robô a capacidade de ler o mundo e entender que "isso é uma cadeira" ou "isso é um vaso de flores" sem precisar decorar um dicionário inteiro antes.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Motivação

A compreensão geométrica e semântica 3D é fundamental para agentes corporificados (robôs de serviço, drones, AR/VR). A previsão de ocupação semântica unifica geometria densa e semântica em uma grade volumétrica. No entanto, a maioria dos métodos existentes opera sob um vocabulário fechado, ou seja, só reconhece categorias pré-definidas durante o treinamento. Isso limita severamente a aplicação no mundo real, onde os ambientes internos possuem distribuições de categorias de cauda longa e espaços semânticos abertos e em evolução.

Embora métodos de vocabulário aberto tenham avançado em cenários de direção autônoma (ao ar livre), eles falham ao serem transferidos para ambientes internos devido a três desafios principais:

Geometria mais densa e complexa: Maior oclusão e estruturas intricadas.
Semântica mais granular: Categorias de objetos muito mais específicas e diversas.
Falta de anotações semânticas: A curadoria de rótulos semânticos 3D é extremamente cara e difícil, enquanto dados de geometria (ocupação binária) podem ser obtidos em escala com menor esforço (ex: fusão de profundidade).

O objetivo deste trabalho é desenvolver um sistema de previsão de ocupação de vocabulário aberto para cenas internas, utilizando apenas supervisão de geometria (rótulos binários de ocupado/livre) e sem anotações semânticas voxelizadas.

2. Metodologia: LegoOcc

O framework proposto, chamado LegoOcc, utiliza Gaussians Incorporados em Linguagem (LE-Gaussians) como representação intermediária unificada. Cada Gaussiana é parametrizada por parâmetros geométricos nativos (posição, rotação, escala, opacidade) e um embedding semântico aprendível alinhado à linguagem.

O método aborda dois desafios principais através de duas inovações técnicas:

A. Lado da Geometria: Operador Gaussiano para Ocupação Baseado em Poisson

Desafio: Operadores existentes de "Gaussiano para Ocupação" (G2O) falham em convergir sob supervisão fraca (apenas binária) porque ignoram a opacidade na agregação volumétrica, criando uma incompatibilidade entre o renderizado 2D (que usa opacidade) e a agregação 3D.
Solução: Os autores introduzem um operador G2O baseado em Poisson e sensível à opacidade.
- Eles tratam a contribuição efetiva de cada Gaussiana como uma intensidade de evento não negativa ( $h_i(x) = \alpha_i \cdot p_i(x)$ ).
- A ocupação de um voxel é modelada como a probabilidade de um processo de Poisson não homogêneo ter produzido pelo menos um evento naquele local.
- Fórmula: $p(x) = 1 - \exp(-\sum \alpha_i p_i(x))$ .
- Isso permite uma agregação volumétrica estável e principial, alinhando a inferência de geometria com a opacidade usada no renderizado.

B. Lado Semântico: Decaimento Progressivo de Temperatura (Progressive Temperature Decay)

Desafio: Ao alinhar features renderizadas de Gaussians com modelos de segmentação de vocabulário aberto, ocorre mistura de características (feature mixing). Como múltiplas categorias podem se sobrepor no espaço da imagem, o sinal de supervisão tende a alinhar a mistura, e não as Gaussians individuais, dificultando a distinção de objetos finos.
Solução: Propõe-se um agendamento de Decaimento Progressivo de Temperatura.
- Utiliza-se uma função sigmoide temperada para calcular a opacidade: $\alpha_i = \sigma(\alpha_{logit} / \tau)$ .
- Durante o treinamento, a temperatura $\tau$ diminui progressivamente (de 1 para $10^{-3}$ ) usando uma escala exponencial.
- Efeito: Inicialmente, permite misturas suaves para otimização estável. Conforme o treinamento avança, a temperatura baixa, "afiando" as opacidades (tornando-as próximas de 0 ou 1). Isso reduz a mistura de características ao longo dos raios, forçando as Gaussians individuais a se alinharem melhor com as semânticas da linguagem, sem perder a diferenciabilidade end-to-end.

C. Função de Perda

O treinamento minimiza uma combinação de:

Perda de Ocupação Binária: Focal Loss e Lovász-Softmax (supervisão apenas com rótulos de ocupado/livre).
Perda de Alinhamento Semântico: Similaridade de cosseno entre as features renderizadas e as features de um segmentador de vocabulário aberto livre de treinamento (ex: Trident).
Regularizadores: Perda de profundidade (Huber) e regularização de afinidade de classe.

3. Resultados Principais

Os experimentos foram conduzidos no dataset Occ-ScanNet, focando no cenário monoculo (uma única imagem RGB de entrada).

Desempenho Geral: O LegoOcc alcançou 59.50 de IoU (Interseção sobre União) e 21.05 mIoU (IoU médio) no cenário de vocabulário aberto.
Comparação:
- Superou todos os métodos existentes de ocupação em IoU (mesmo os de vocabulário fechado com anotação completa).
- Superou abordagens anteriores de vocabulário aberto por uma margem significativa em mIoU (+11.80 pontos sobre o melhor resultado anterior, mais de 2x a melhoria).
- Métodos de base reimplantados (POP-3D, LOcc) com supervisão apenas geométrica tiveram desempenho muito pobre (mIoU < 10), destacando a eficácia das contribuições do LegoOcc.
Eficiência: O modelo opera a 22.47 FPS em uma GPU RTX 4090, superando a velocidade de métodos anteriores como EmbodiedOcc e ISO.

4. Contribuições Chave

LegoOcc: Um framework pioneiro para previsão de ocupação de vocabulário aberto em ambientes internos em grande escala, utilizando Gaussians Incorporados em Linguagem como representação intermediária.
Operador G2O Baseado em Poisson: Uma reformulação matemática que permite treinamento estável sob supervisão de geometria binária, resolvendo o desalinhamento entre renderização 2D e agregação 3D.
Decaimento Progressivo de Temperatura: Uma estratégia de agendamento que mitiga a diluição de características durante o splatting, melhorando drasticamente o alinhamento entre as características 3D e a linguagem.
Validação Experimental: Demonstração de que é possível alcançar alta precisão geométrica e semântica em cenários complexos internos sem depender de anotações semânticas 3D densas.

5. Significado e Impacto

Este trabalho é significativo porque remove a barreira da necessidade de anotações semânticas 3D caras para treinar agentes inteligentes em ambientes internos. Ao permitir que robôs e sistemas de AR/VR entendam e localizem objetos arbitrários baseados em consultas de texto (ex: "onde está o livro?" ou "encontrar um vaso"), o LegoOcc avança a capacidade de raciocínio espacial de agentes corporificados. A abordagem sugere que a combinação de representações baseadas em Gaussians com supervisão geométrica e alinhamento de linguagem é uma via viável e superior para a compreensão de cenas 3D abertas e complexas.

O código será disponibilizado publicamente, facilitando a reprodução e o avanço futuro na área de ocupação semântica.