LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

O artigo apresenta o LocateAnything3D, um modelo nativo de visão e linguagem que reformula a detecção 3D como um problema de previsão de tokens usando uma sequência de "Cadeia de Visão" (Chain-of-Sight) para inferir primeiro a localização 2D e depois as propriedades 3D, alcançando resultados state-of-the-art no benchmark Omni3D e generalização zero-shot sem cabeças especializadas.

Yunze Man, Shihao Wang, Guowen Zhang, Johan Bjorck, Zhiqi Li, Liang-Yan Gui, Jim Fan, Jan Kautz, Yu-Xiong Wang, Zhiding Yu

Publicado 2026-02-24
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô a entender o mundo 3D apenas olhando para uma foto. O desafio é enorme: o robô precisa não apenas dizer "vejo um carro", mas também saber exatamente onde ele está no espaço, qual o tamanho dele e para onde está apontando.

Até agora, os modelos de inteligência artificial (chamados de VLMs) eram ótimos em descrever imagens em 2D, mas falhavam feio quando precisavam "medir" o mundo em 3D. Eles precisavam de ferramentas extras e específicas para cada tarefa, como se tivessem que trocar de óculos para cada tipo de problema.

O novo trabalho, chamado LocateAnything3D, muda tudo isso. Ele apresenta uma ideia genial chamada "Cadeia de Visão" (Chain-of-Sight). Vamos usar uma analogia simples para entender como funciona:

1. O Problema: Tentar adivinhar o 3D sem o 2D

Imagine que você está em uma sala escura e alguém te pergunta: "Onde está a cadeira?". Se você tentar adivinhar a posição exata, o tamanho e a rotação da cadeira de uma só vez, sem primeiro vê-la claramente, você provavelmente vai errar. É como tentar desenhar um mapa do tesouro sem primeiro olhar para a paisagem.

Os métodos antigos tentavam fazer esse "pulo" direto do 2D (a foto) para o 3D (o espaço real), e muitas vezes o robô alucinava coisas que não existiam ou errava a distância.

2. A Solução: A "Cadeia de Visão" (Chain-of-Sight)

O LocateAnything3D ensina o robô a pensar como um humano faria, passo a passo, como se fosse um raciocínio em cadeia. A ideia é dividir o problema difícil em passos fáceis:

  • Passo 1: O "Onde" (2D): Primeiro, o robô aponta para a foto e diz: "Olha, tem um carro ali, no canto direito". Ele desenha uma caixa 2D na imagem. Isso é fácil e confiável. É como dizer: "Ok, encontrei o alvo na tela".
  • Passo 2: O "Como" (3D): Só depois de ter certeza de onde o objeto está na tela, o robô usa essa informação para calcular: "Se está ali, e considerando a perspectiva da câmera, ele deve estar a 5 metros de distância, com 4 metros de comprimento e virado para a esquerda".

Essa sequência (Primeiro 2D, depois 3D) é a Cadeia de Visão. É como se o robô dissesse: "Primeiro, eu vejo. Depois, eu entendo a profundidade." Isso reduz muito os erros e alucinações.

3. A Ordem das Coisas: Do Próximo para o Longe

Outra parte inteligente do sistema é a ordem em que ele aprende. Imagine que você está dirigindo. O que é mais importante? O carro que está logo à frente do seu para-choque ou o carro que está a 100 metros de distância?

O robô aprende a detectar primeiro os objetos mais próximos e depois os mais distantes.

  • Por que? Porque os objetos próximos são mais fáceis de ver e dão pistas sobre o tamanho dos objetos distantes. Se você sabe que um caminhão perto de você é grande, você pode usar isso para estimar o tamanho de um caminhão que está longe. Se tentasse adivinhar o longe primeiro, seria como tentar adivinhar o tamanho de um prédio olhando por um buraco de agulha.

4. O Resultado: Um "Super-Robô" Versátil

Com essa técnica, o LocateAnything3D consegue:

  • Entender qualquer coisa: Você pode pedir para ele encontrar "uma cadeira vermelha" ou "qualquer copo", mesmo que ele nunca tenha visto esses objetos específicos antes (chamado de zero-shot).
  • Ser preciso: Ele bateu todos os recordes anteriores em testes de detecção 3D, superando modelos que usavam informações "mágicas" (que os humanos sabem, mas o robô não deveria ter).
  • Ser simples: Não precisa de ferramentas especiais. Tudo acontece dentro de um único cérebro de IA, usando a mesma linguagem que ele usa para conversar.

Resumo em uma frase

O LocateAnything3D é como ensinar um robô a não pular etapas: ele primeiro aponta para o que vê na foto (2D) e só depois calcula onde aquilo está no mundo real (3D), fazendo isso na ordem certa (do perto para o longe) para não se perder. Isso transforma a detecção 3D em algo natural, preciso e capaz de entender o mundo como nós entendemos.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →