HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está em uma cozinha nova e vê uma faca. Mesmo sem ter usado aquela faca específica antes, você sabe imediatamente onde segurar o cabo para cortar algo e onde não colocar a mão para não se machucar. Esse "saber intuitivo" sobre como usar um objeto é chamado de afordância (affordance).

Agora, imagine tentar ensinar isso a um robô. O robô vê uma nuvem de pontos (uma representação digital 3D do objeto), mas não tem a intuição humana. O desafio é fazer o robô entender, olhando apenas para uma foto de alguém usando o objeto, onde exatamente ele deve agarrar, empurrar ou tocar.

É aqui que entra o HAMMER, o novo sistema apresentado neste artigo. Vamos explicar como ele funciona usando algumas analogias simples:

1. O Problema: O Robô Cego e o Tradutor Confuso

Antes do HAMMER, os robôs tentavam aprender de duas formas principais, e ambas tinham falhas:

O "Tradutor Exagerado": Alguns sistemas pediam a um "cérebro" de IA (chamado MLLM) para descrever o objeto em texto longo ("Esta cadeira tem pernas de madeira e um assento de tecido..."). O robô então tentava usar esse texto para encontrar o lugar. O problema? Perder detalhes visuais no meio do caminho.
O "Projetor de Máscaras": Outros sistemas tentavam desenhar uma máscara 2D na foto e projetá-la no objeto 3D. O problema? Se a foto não cobrir todo o objeto ou se a projeção estiver errada, o robô perde o foco.

2. A Solução: O HAMMER (O "Martelo" Inteligente)

O HAMMER (que significa Harnessing MLLM via Cross-Modal Integration - Aproveitando Modelos de Linguagem Multimodal via Integração Cruzada) age como um artesão experiente que une três ferramentas:

A. O "Olho que Entende a Intenção" (Embedding de Intenção)

Em vez de pedir ao robô para escrever um livro sobre o objeto, o HAMMER usa um "cérebro" de IA multimodal (o MLLM) apenas para sentir a intenção.

Analogia: Imagine que você vê uma foto de alguém segurando uma xícara. O HAMMER não pergunta "o que é isso?", ele pergunta "onde a mão está tocando e qual é a força?". Ele cria um "mapa de calor" invisível chamado embedding, que diz ao robô: "Ei, o foco aqui é a interação, não a descrição".

B. O "Casamento de Mundos" (Integração Cruzada)

O robô tem os dados 3D (a forma do objeto) e o "mapa de calor" da intenção (o que a foto diz). Mas eles falam línguas diferentes.

Analogia: É como tentar misturar óleo e água. O HAMMER cria um emulsificador (o mecanismo de integração). Ele pega as informações da foto e as "injeta" diretamente nos dados 3D do robô, como se estivesse dando um "choque de realidade" nos pontos do objeto, dizendo: "Agora você sabe que esta parte aqui é onde a mão vai tocar".

C. O "Elevador de Geometria" (Geometry Lifting)

Aqui está a mágica final. A intenção vem de uma foto 2D (plana), mas o objeto é 3D (profundo). Como transformar uma ideia plana em uma ação tridimensional precisa?

Analogia: Imagine que você tem um desenho de um prédio em um papel (2D) e precisa construir o prédio real (3D). O HAMMER usa um elevador de geometria. Ele pega o desenho da intenção e sobe, degrau por degrau, adicionando detalhes de profundidade e forma, até que a intenção plana se transforme em uma instrução 3D precisa. Ele "ensina" ao robô a espessura, a curvatura e a profundidade do local de contato.

3. Por que isso é incrível? (Os Resultados)

Os pesquisadores testaram o HAMMER em situações difíceis:

Objetos Novos: O robô nunca viu aquele tipo de cadeira antes, mas conseguiu adivinhar onde sentar.
Objetos "Sujos": Eles testaram com dados cheios de "ruído" (como se a câmera estivesse tremendo ou a imagem estivesse borrada). Enquanto outros sistemas falhavam e apontavam para o lugar errado, o HAMMER manteve a precisão, como um marinheiro experiente que mantém o barco estável mesmo em tempestade.

Resumo em uma Frase

O HAMMER é como dar a um robô uma intuição humana: ele olha para uma foto de alguém usando um objeto, entende a "vibe" da interação, mistura essa ideia com a forma 3D do objeto e diz exatamente onde tocar, mesmo que o robô nunca tenha visto aquele objeto antes ou que a imagem esteja um pouco ruim.

É um passo gigante para que robôs possam nos ajudar em tarefas do dia a dia, como montar móveis, cozinhar ou organizar a casa, entendendo não apenas o que é o objeto, mas como usá-lo.

Each language version is independently generated for its own context, not a direct translation.

Título: HAMMER: Explorando MLLMs via Integração Cross-Modal para Grounding de Affordance 3D Orientado por Intenção

1. Problema

O Grounding de Affordance 3D Orientado por Intenção visa antecipar regiões acionáveis (onde e como um objeto pode ser interagido) em nuvens de pontos 3D, baseando-se em uma imagem de interação correspondente que demonstra a intenção humana.

Os desafios principais identificados pelos autores são:

Discrepância de Modalidades: A imagem 2D contém intenções ricas e pistas contextuais, mas a nuvem de pontos 3D possui variações significativas de forma e escala. Integrar essas duas modalidades de forma coerente é difícil.
Limitações dos Métodos Atuais:
- Métodos Baseados em Geração (ex: GREAT): Geram descrições textuais explícitas como intermediárias, exigindo templates anotados manualmente e pipelines de treinamento em duas etapas, o que pode não explorar totalmente a capacidade de compreensão do modelo.
- Métodos Baseados em Renderização (ex: InteractVLM): Renderizam a nuvem de pontos em múltiplas visões 2D, geram máscaras e as projetam de volta em 3D. Isso causa perda de detalhes geométricos inevitáveis e acumulação de erros devido a coberturas de forma incompletas.
Falta de Informação Espacial: Embeddings extraídos de imagens 2D geralmente carecem de informações espaciais explícitas necessárias para a localização precisa em 3D.

2. Metodologia

O HAMMER propõe uma nova arquitetura que evita a geração de texto intermediário ou máscaras 2D explícitas, focando na extração direta de um embedding de intenção consciente do contato e na sua integração hierárquica com características 3D.

A arquitetura consiste em quatro componentes principais:

A. Embedding de Intenção Guiado por Affordance (Affordance-Guided Intention Embedding)

Utiliza um MLLM (Multimodal Large Language Model) pré-treinado (Qwen2.5-VL) para processar a imagem de interação.
Introduz um token especial [CONT] no vocabulário para agregar informações relacionadas à interação.
Utiliza uma estratégia de prompting centrada no objeto (incluindo a categoria do objeto) para focar o modelo na semântica relevante.
Tarefa Auxiliar: O MLLM é guiado para prever rótulos textuais de affordance (ex: "segurar", "sentar") como uma tarefa auxiliar de aprendizado. Isso força o modelo a extrair profundamente a semântica do objeto e as pistas contextuais, consolidando-as no embedding de intenção ( $f_c$ ).

B. Integração Cross-Modal Hierárquica (Hierarchical Cross-Modal Integration)

Para alinhar as representações 2D e 3D, o método utiliza os estados ocultos do MLLM para enriquecer as características da nuvem de pontos.
Duas Etapas:
1. Integração no Gargalo (Bottleneck): Aplica um mecanismo de atenção cruzada onde as características da nuvem de pontos (query) atendem às pistas de interação do MLLM (key/value), permitindo que cada ponto selecione as pistas de interação relevantes.
2. Refinamento em Nível de Características: Após o decodificador da nuvem de pontos, as características em múltiplas escalas são refinadas novamente com um descritor global derivado do MLLM (usando um mecanismo de gating adaptativo), garantindo uma compreensão holística da semântica do objeto.

C. Levantamento de Geometria Multi-Granular (Multi-Granular Geometry Lifting)

Reconhecendo que o embedding de intenção ( $f_c$ ) derivado de 2D carece de detalhes geométricos 3D, o módulo propõe um "levantamento" progressivo.
Em vez de projetar máscaras 2D, o módulo injeta características geométricas de múltiplas escalas (extraídas do backbone 3D) diretamente no embedding de intenção.
Utiliza um mecanismo de atenção para atualizar o embedding com informações de estrutura global e detalhes de superfície local, transformando-o em um embedding consciente de 3D ( $f_c^{3D}$ ).

D. Decodificação de Affordance

Um decodificador processa conjuntamente as características de pontos refinadas e o embedding de intenção enriquecido com geometria 3D para gerar o mapa final de affordance (probabilidade de cada ponto ser uma região de interação).
A função de perda combina a perda de modelagem de linguagem (para a tarefa auxiliar de texto) e a perda de affordance (Focal Loss + Dice Loss).

3. Principais Contribuições

Novo Framework (HAMMER): Uma arquitetura que extrai um embedding de intenção consciente do contato e utiliza o conhecimento de um MLLM para enriquecer representações 3D via integração cross-modal hierárquica, sem depender de textos intermediários ou máscaras 2D.
Módulo de Levantamento de Geometria: Introdução de um módulo que injeta pistas espaciais em múltiplos níveis no embedding de intenção, resolvendo a falta de consciência espacial dos dados 2D e permitindo localização precisa.
Benchmarks e Robustez: Avaliação em conjuntos de dados padrão (PIAD, PIADv2) e em um novo benchmark corrompido (com ruído, dropout, rotação, etc.), demonstrando superioridade e resiliência em condições desafiadoras.

4. Resultados Experimentais

O HAMMER foi avaliado em comparação com métodos state-of-the-art (como GREAT, IAGNet, InteractVLM, LASO) em métricas como aIOU (sobreposição média de interação), AUC, SIM (similaridade) e MAE.

Desempenho em PIAD e PIADv2:
- No conjunto PIAD Seen, superou o GREAT em 2.59% no aIOU.
- No conjunto PIAD Unseen (objetos e affordances não vistos), superou o GREAT em 5.39% no aIOU, demonstrando excelente capacidade de generalização.
- No PIADv2, obteve o melhor desempenho em todas as divisões (Seen, Unseen Object, Unseen Affordance), superando o GREAT em 2.45% a 5.12% no aIOU.
Robustez: Em um benchmark com pontos corrompidos (ruído, jitter, dropout local/global), o HAMMER manteve desempenho superior, com ganhos significativos (ex: +9.31% no aIOU sob dropout local) em relação ao GREAT, indicando maior estabilidade em dados do mundo real imperfeitos.
Análise de Componentes: Estudos de ablação confirmaram que tanto a integração cross-modal quanto o levantamento de geometria são essenciais; a remoção de qualquer um deles causa degradação significativa no desempenho.

5. Significado e Impacto

O trabalho HAMMER representa um avanço significativo na interação robótica e na compreensão de cenas 3D:

Eficiência de Dados: Ao evitar a necessidade de anotações textuais manuais complexas ou pipelines de renderização 2D-3D propensos a erros, o método simplifica o fluxo de trabalho.
Generalização: A capacidade de lidar com objetos e tipos de interação nunca vistos antes é crucial para agentes robóticos autônomos que operam em ambientes dinâmicos.
Robustez: A demonstração de resiliência contra ruídos e oclusões torna a tecnologia mais viável para aplicações práticas em robótica, realidade aumentada e aprendizado por imitação, onde os dados de sensores raramente são perfeitos.

Em resumo, o HAMMER demonstra que a integração profunda de modelos de linguagem multimodais com representações geométricas 3D, sem intermediários explícitos, é uma via poderosa para compreender e localizar interações físicas em objetos 3D.