UGround: Towards Unified Visual Grounding with Unrolled Transformers

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô superinteligente a "apontar" para coisas em uma foto e dizer exatamente onde elas estão. Isso é o que chamamos de Visual Grounding (Ancoragem Visual).

O problema é que os robôs atuais (modelos de IA) muitas vezes cometem erros porque seguem um processo muito rígido, como se estivessem jogando o "Jogo do Telefone Sem Fio" com uma mensagem importante.

Aqui está a explicação do papel UGround de forma simples, usando analogias do dia a dia:

1. O Problema: O Jogo do Telefone Sem Fio

Imagine que você tem uma mensagem importante: "O pássaro está no galho".

Como funcionava antes: A mensagem passa por 40 pessoas (camadas de uma rede neural). A pessoa 1 ouve, passa para a 2, que passa para a 3... até chegar na pessoa 40, que finalmente mostra a foto e aponta para o pássaro.
O erro: À medida que a mensagem passa de pessoa para pessoa, ela fica distorcida. A pessoa 40 pode ter chegado com a mensagem errada ou confusa, porque ninguém corrigiu o caminho no meio do processo. Além disso, a pessoa 40 só recebe um "rascunho" da mensagem (um texto), sem coordenadas exatas de onde olhar.

2. A Solução: O UGround (O "Pulo do Gato")

Os autores criaram o UGround, que muda as regras desse jogo. Em vez de forçar a mensagem a passar por todas as 40 pessoas até o final, o UGround faz duas coisas mágicas:

A. O "Pulo do Gato" (Escolha Dinâmica de Camadas)

Imagine que, em vez de passar a mensagem sequencialmente, a pessoa que tem a mensagem pode pular para qualquer outra pessoa da fila que ela achar mais inteligente naquele momento.

O UGround usa uma técnica chamada RL (Aprendizado por Reforço) para decidir: "Será que a camada 15 é melhor para entender isso? Ou a 28?"
Ele escolhe aleatoriamente a melhor camada intermediária para conectar diretamente com o "olho" do robô (o modelo de segmentação SAM).
Analogia: É como se, em vez de esperar o relatório final ser escrito, você permitisse que o gerente consultasse um especialista que estava trabalhando no meio do projeto, pulando a burocracia das camadas anteriores. Isso evita que o erro se acumule.

B. O "Mapa de Calor" em vez de "Apenas Texto" (Máscara como Prompt)

Antes, o robô recebia apenas um texto dizendo "pássaro" e tinha que adivinhar onde estava.

O novo método: O UGround cria um Mapa de Calor (uma imagem borrada que mostra onde o robô está "olhando"). Ele usa esse mapa como um "adesivo" (prompt) para colar na foto.
Analogia: Em vez de dizer "olhe para o pássaro", o robô coloca um post-it brilhante e colorido exatamente em cima do pássaro na foto antes de pedir para o outro robô desenhar o contorno. Isso dá uma pista visual clara, não apenas uma palavra.

3. Por que isso é tão legal? (Unificação)

Antes, existiam robôs diferentes para tarefas diferentes:

Um robô para "onde está o gato?".
Outro para "onde estão os 3 gatos?".
Outro para "se não houver gato, diga que não tem".

O UGround é um Super-Robô Universal. Ele consegue fazer tudo isso em um único sistema:

Raciocínio: Entende frases complexas como "O pássaro que comeu a fruta".
Múltiplos Alvos: Pode apontar para 5 objetos diferentes de uma vez.
Segurança: Se você perguntar "Onde está o elefante?" e não houver elefante na foto, ele sabe dizer "Não tem elefante aqui" em vez de tentar inventar um.

Resumo da Ópera

O UGround é como dar um "atalho" para a inteligência artificial.

Ele não deixa a mensagem se perder no caminho (pula camadas da rede neural).
Ele dá pistas visuais claras (mapas de calor) em vez de apenas palavras.
Ele é flexível o suficiente para lidar com perguntas simples, complexas, múltiplas ou até perguntas falsas.

O resultado? O robô aponta para as coisas com muito mais precisão, entende melhor o contexto e é mais inteligente do que os modelos anteriores. É como trocar um funcionário que segue regras cegamente por um especialista que sabe exatamente onde olhar e como agir em qualquer situação.

Each language version is independently generated for its own context, not a direct translation.

Título: UGround: Rumo ao Grounding Visual Unificado com Transformers Desenrolados

1. Problema e Motivação

O Grounding Visual (alinhamento de expressões de referência a regiões em imagens) evoluiu de tarefas simples (segmentação de expressão de referência explícita) para cenários complexos que exigem raciocínio implícito, múltiplos alvos e a capacidade de rejeitar premissas falsas (objetos inexistentes na imagem).

Os autores identificam duas limitações críticas nas abordagens atuais (como LISA, GSVA, PixelLM) baseadas em Grandes Modelos Multimodais (LMMs):

Dependência da Última Camada Oculta Fixa: Os modelos existentes utilizam apenas a representação do token <SEG> da última camada do transformador (ex: camada 40 em um LLaVA de 32+ camadas) para acionar o modelo de visão (ex: SAM). Isso é análogo ao "jogo do telefone", onde o sinal é distorcido e acumula erros camada por camada sem correção intermediária.
Uso de <SEG> como Prompt: O token <SEG> é um placeholder textual que projeta embeddings textuais no espaço visual de forma implícita (via camadas totalmente conectadas), carecendo de pistas espaciais explícitas (como coordenadas ou mapas de calor) antes da geração da máscara.

2. Metodologia: UGround

O UGround propõe um paradigma unificado que "desenrola" (unrolls) os transformers empilhados, permitindo que o modelo de visão interaja dinamicamente com camadas intermediárias. O núcleo da proposta é o Mascaramento Guiado por Política (Policy-Prompted Masking - PPM), composto por dois componentes principais:

A. Conexão Estocástica (Stochastic Skip Connection - SSC)

Mecanismo: Em vez de forçar o uso da última camada, o SSC trata a seleção da camada ideal para o token <SEG> como uma tarefa de Aprendizado por Reforço (RL).
Funcionamento: Um agente de RL seleciona estocasticamente uma camada $\ell^*$ entre todas as camadas desenroladas do transformador para conectar o token <SEG> ao decodificador de visão (SAM).
Analogia: Funciona como um "Dropout" ou estimativa de incerteza de Monte Carlo. Em cada passo de forward, um caminho diferente é ativado (uma camada específica), permitindo que o modelo explore qual nível de abstração é mais benéfico para a tarefa específica, evitando a dependência de uma única trajetória.

B. Máscara como Prompt (Mask as Prompt - MasP)

Mecanismo: Ao invés de enviar apenas o embedding do token <SEG> para o SAM, o UGround gera um mapa de similaridade entre o token <SEG> (na camada selecionada $\ell^*$ ) e os tokens da imagem.
Prompt Explícito: Este mapa de similaridade é usado como uma máscara de logits suave (soft logit mask) para acionar o SAM.
Vantagem: Diferente do token <SEG>, o mapa de similaridade fornece pistas espaciais explícitas (regiões de ativação) que indicam onde o modelo deve focar.
Supervisão: O mapa de similaridade é supervisionado explicitamente contra uma máscara ground-truth suavizada (Gaussian heatmap) usando perda de Entropia Cruzada Binária (BCE) e Dice, guiando o modelo sobre "onde" atender.

3. Contribuições Principais

Unificação por Atributos: O UGround é o primeiro framework a unificar tarefas de grounding visual sob uma perspectiva de "variação de atributos" em um único modelo. Ele lida simultaneamente com:
- Expressões explícitas (RES) e implícitas (Raciocínio/RS).
- Alvos únicos e múltiplos (Multi-target).
- Consultas positivas e rejeição de premissas falsas (Empty targets).
Desenrolamento de Transformers: Introduz a ideia de conectar o decodificador de visão a camadas intermediárias do LMM de forma estocástica, superando o limite da última camada fixa e mitigando erros cumulativos de propagação.
Supervisão Espacial Explícita: Transforma o processo de prompting de uma projeção implícita de texto para um uso explícito de mapas de similaridade como máscaras, com supervisão direta para refinar a atenção espacial.

4. Resultados Experimentais

Os autores avaliaram o UGround em vários benchmarks de ponta, demonstrando superioridade sobre o estado da arte (SOTA):

ReasonSeg (Raciocínio):
- No conjunto de teste, o UGround-7B superou o RSVP-GPT em +9.0% de cIoU (Intersection over Union de classe).
- O UGround-13B superou o READ-13B em +2.7% de cIoU.
RefCOCO(+/g) (Expressão de Referência Clássica):
- O UGround-7B superou o GLaMM-7B, alcançando 76.1% de cIoU no teste RefCOCOg, uma melhoria de +1.2%.
gRefCOCO (Alvos Múltiplos e Premissas Falsas):
- No conjunto de validação, superou o GSVA-7B (ft) em +12.1% de precisão na classificação de alvos nulos (N-acc), demonstrando uma capacidade superior de rejeitar premissas falsas (dizer "não há objeto" quando o objeto não existe).
Eficiência: Embora o treinamento seja ligeiramente mais lento devido à otimização do mapa de similaridade, a inferência mantém uma velocidade comparável aos métodos SOTA (cerca de 4.12 FPS), pois apenas uma camada é ativada por vez.

5. Significado e Impacto

O UGround representa um avanço fundamental na arquitetura de modelos multimodais para visão computacional:

Mudança de Paradigma: Move-se da ideia de que "quanto mais profundo, melhor" (última camada) para uma abordagem dinâmica onde a profundidade ideal é aprendida e selecionada estocasticamente.
Robustez e Segurança: A capacidade de lidar com premissas falsas e múltiplos alvos em um único modelo torna os sistemas de grounding mais seguros e aplicáveis a cenários do mundo real, onde instruções podem ser ambíguas ou conter erros.
Interpretabilidade: A visualização dos mapas de similaridade em diferentes camadas revela que camadas intermediárias frequentemente contêm informações espaciais mais discriminativas do que a camada final, validando a escolha da metodologia.

O código e os modelos estão disponíveis publicamente, facilitando a reprodução e o avanço futuro na área de grounding visual unificado.