HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un robot che deve imparare a usare gli oggetti del mondo reale, come farebbe un bambino. Se mostri al robot una foto di una persona che apre una porta, il robot dovrebbe capire che la maniglia è la parte da toccare. Questo è il compito che il paper chiama "Grounding dell'Affordance 3D": capire dove e come interagire con un oggetto tridimensionale guardando una semplice immagine.

Il problema? I robot spesso sono "ciechi" alla logica. Vedono la maniglia, ma non capiscono perché si gira. O peggio, se l'immagine è un po' sgranata o l'oggetto è nuovo, si confondono.

Cos'è HAMMER?

HAMMER è un nuovo "cervello" per robot che combina due cose potenti:

Un occhio esperto (che guarda l'immagine).
Una mente curiosa (un modello linguistico gigante, o MLLM, che "pensa" come un umano).

Ecco come funziona, passo dopo passo, con delle metafore:

1. Non solo "guardare", ma "capire l'intenzione"

La maggior parte dei metodi precedenti prova a tradurre l'immagine in parole scritte (es. "questa è una maniglia") o a disegnare una maschera 2D piatta. È come cercare di spiegare a un robot come guidare una macchina descrivendo solo i colori dell'auto.

HAMMER fa diversamente:
Immagina di mostrare al robot un'immagine di qualcuno che beve da una tazza. Invece di scrivere "tazza", HAMMER usa un modello linguistico (un'intelligenza artificiale molto intelligente) per creare un "foglio di istruzioni invisibile".
Questo foglio non dice solo "tazza", ma cattura l'intenzione: "c'è una mano che afferra il manico, c'è il liquido che viene bevuto". Il sistema trasforma questa intenzione in un codice matematico speciale (un "embedding") che sa esattamente dove toccare.

2. Il ponte tra il 2D e il 3D (L'integrazione)

Qui sta la magia. Abbiamo l'intenzione (dal 2D, l'immagine) e abbiamo l'oggetto (il 3D, la nuvola di punti). Sono come due lingue diverse.

Il vecchio metodo: Proiettava l'immagine sul 3D come una diapositiva. Se la diapositiva era storta, il robot sbagliava tutto.
Il metodo HAMMER: Usa un meccanismo chiamato "Integrazione Cross-Modale Gerarchica".
- Metafora: Immagina che l'oggetto 3D sia un manichino di plastica e l'intenzione dell'immagine sia un vestito. HAMMER non si limita a buttare il vestito sul manichino. Indossa il vestito strato per strato, adattandolo perfettamente alla forma del corpo, assicurandosi che ogni punto del manichino "senta" cosa sta succedendo nell'immagine. Il robot impara a collegare la logica dell'immagine alla geometria dell'oggetto.

3. Dare il senso dello spazio (Il "Lifting" Geometrico)

C'è un problema: l'intenzione viene da una foto piatta (2D), ma l'oggetto è tridimensionale. Come fa il robot a sapere se deve toccare la parte superiore o laterale?
HAMMER usa un modulo chiamato "Geometry Lifting".

Metafora: È come se avessi una mappa 2D di una città e dovessi costruire un grattacielo. HAMMER prende la tua mappa e, strato dopo strato, "solleva" le informazioni, aggiungendo profondità e dettagli geometrici. Trasforma l'idea piatta di "afferrare" in un'istruzione 3D precisa: "tocca qui, a questa altezza, con questo angolo".

Perché è così speciale? (I risultati)

Gli autori hanno messo HAMMER alla prova in due modi:

Oggetti nuovi: Hanno mostrato al robot oggetti che non aveva mai visto prima (es. un tipo di sedia mai visto prima). HAMMER ha capito subito come usarlo, perché ha imparato il concetto di "sedersi", non solo la forma della sedia.
Caos e rumore: Hanno preso gli oggetti e li hanno "sporcati" digitalmente (punti mancanti, rumore, distorsioni). È come se il robot guardasse attraverso un vetro sporco o con la mano che trema.
- Mentre altri robot si confondevano e cadevano, HAMMER rimaneva stabile. È come un navigatore GPS che continua a darti la strada giusta anche se il segnale è debole, perché capisce il contesto generale, non solo il singolo segnale.

In sintesi

HAMMER è come dare a un robot non solo gli occhi per vedere, ma anche il senso comune per capire perché facciamo le cose.
Invece di dire al robot: "Questa è una maniglia, girala", gli dice: "Vedi quella mano? Sta cercando di aprire qualcosa. Cerca la parte che si adatta a quella mano".

Grazie a questo approccio, i robot diventeranno molto più bravi a lavorare nelle nostre case, nelle fabbriche e ovunque ci sia bisogno di interagire con oggetti reali, anche quando le cose non sono perfette o sono nuove.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

L'obiettivo del lavoro è l'ancoraggio delle affordance 3D guidato dall'intenzione (Intention-Driven 3D Affordance Grounding).

Definizione: L'affordance si riferisce alle proprietà di un oggetto che ne indicano come può essere utilizzato o interagito. Il compito consiste nel prevedere le regioni "azionabili" su una nuvola di punti 3D basandosi su un'immagine di interazione 2D che mostra un'azione umana (es. una mano che afferra una maniglia).
Sfide principali:
- Divario Modale: Collegare la comprensione semantica di un'immagine 2D (intenzione, contesto) con la rappresentazione geometrica 3D è complesso a causa delle differenze di scala, forma e struttura.
- Limiti dei Metodi Esistenti: I metodi basati sulla generazione di testo (es. GREAT) richiedono annotazioni manuali e pipeline di training a due stadi, spesso sottoutilizzando la capacità di comprensione visiva dei modelli. I metodi basati sul rendering e back-projection (es. InteractVLM) soffrono di perdita di dettagli geometrici e accumulo di errori quando si proiettano maschere 2D nello spazio 3D.
- Robustezza: I modelli attuali faticano a generalizzare su oggetti nuovi o in presenza di dati 3D corrotti (rumore, dropout di punti).

2. Metodologia: HAMMER

Il framework proposto, HAMMER, evita la generazione esplicita di descrizioni testuali intermedie o l'uso di segmentatori 2D pronti all'uso. Invece, aggrega l'intenzione di interazione direttamente in un embedding vettoriale "consapevole del contatto" e lo fonde con i dati 3D. L'architettura si compone di quattro fasi principali:

A. Embedding di Intenzione Guidato dall'Affordance

Viene utilizzato un Multimodal Large Language Model (MLLM) pre-addestrato (Qwen2.5-VL) per processare l'immagine di interazione.
Viene introdotta una strategia di prompting "centrata sull'oggetto" che include il nome della categoria dell'oggetto nel prompt testuale.
Viene aggiunto un token speciale [CONT] per aggregare le informazioni relative all'interazione. L'embedding di intenzione $f_c$ è estratto dallo stato nascosto di questo token.
Task Ausiliario: Il modello è guidato a generare etichette testuali di affordance (es. "afferrare", "aprire") come task ausiliario. Questo assicura che l'embedding catturi pienamente la semantica dell'oggetto e il contesto, non solo l'immagine grezza.

B. Integrazione Gerarchica Cross-Modale

Per colmare il divario tra le caratteristiche 2D (dall'MLLM) e 3D (dalla nuvola di punti), viene proposta una strategia di integrazione in due stadi:

Fase di Bottleneck: Le caratteristiche della nuvola di punti (estratte da PointNet++) vengono fuse con gli stati nascosti dell'MLLM tramite un meccanismo di Cross-Attention. Questo permette a ogni punto di selezionare attentamente i segnali di interazione rilevanti.
Fase di Raffinamento: Dopo la decodifica delle caratteristiche 3D a risoluzione completa, un descrittore globale derivato dagli stati dell'MLLM viene fuso nuovamente con le caratteristiche dei punti tramite un meccanismo di "gating" (pesatura adattiva). Questo migliora l'allineamento della rappresentazione a livello di oggetto.

C. Sollevamento Geometrico Multi-Granulare (Multi-Granular Geometry Lifting)

L'embedding di intenzione $f_c$ derivato dal 2D manca di informazioni spaziali 3D precise. Per risolvere ciò, HAMMER introduce un modulo che "solleva" progressivamente l'embedding nello spazio 3D:

L'embedding viene arricchito iterativamente con caratteristiche geometriche multi-scala estratte dal backbone 3D (da strutture grossolane a dettagli fini).
Utilizzando un meccanismo di attenzione, l'embedding viene aggiornato incorporando le caratteristiche geometriche a diversi livelli, rendendolo infine consapevole della geometria 3D ( $f^{3D}_c$ ).

D. Decodifica

Le caratteristiche dei punti raffinate e l'embedding di intenzione arricchito geometricamente vengono decodificati per produrre la mappa finale di affordance (probabilità per ogni punto di essere una regione di interazione).

3. Contributi Chiave

Nuovo Framework (HAMMER): Un approccio che estrae un embedding di intenzione "consapevole del contatto" direttamente dall'MLLM, evitando la dipendenza da testi intermedi o maschere 2D esplicithe.
Integrazione Gerarchica Cross-Modale: Un meccanismo innovativo che inietta la conoscenza semantica e contestuale dell'MLLM nelle caratteristiche dei punti 3D a più livelli (globale e locale), migliorando l'allineamento tra le modalità.
Modulo di Sollevamento Geometrico: Una tecnica che infonde progressivamente caratteristiche spaziali 3D nell'embedding di intenzione 2D, risolvendo il problema della mancanza di consapevolezza spaziale nei modelli puramente basati su immagini.
Benchmark Corrotto: Gli autori hanno costruito un nuovo benchmark di valutazione introducendo vari tipi di rumore e corruzioni sulle nuvole di punti per testare la robustezza dei modelli.

4. Risultati Sperimentali

Il metodo è stato valutato sui dataset standard PIAD e PIADv2, nonché sul nuovo benchmark corrotto.

Performance su PIAD/PIADv2: HAMMER supera lo stato dell'arte (SOTA), inclusi metodi guidati dall'intenzione (come GREAT e IAGNet) e metodi guidati dal linguaggio (come LASO e GEAL).
- Su PIAD (split "Unseen"), HAMMER supera GREAT di 5.39% in aIOU, dimostrando una capacità di generalizzazione superiore su oggetti e affordance non visti durante l'addestramento.
- Su PIADv2, ottiene il miglior risultato su tutte e tre le partizioni (Seen, Unseen Object, Unseen Affordance).
Robustezza: Sulle nuvole di punti corrotte (rumore, dropout locale/globale, rotazione, scala), HAMMER mostra una resilienza significativa, superando GREAT con margini ampi (es. +9.31% in aIOU su corruzioni da dropout locale).
Analisi Ablativa: Gli esperimenti confermano che ogni componente (embedding guidato, integrazione gerarchica, sollevamento geometrico) è cruciale. La rimozione di questi moduli porta a un calo drastico delle prestazioni, specialmente nella generalizzazione.
Efficienza: Nonostante l'uso di un MLLM (Qwen2.5-VL 3B), il modello è più efficiente e performante di approcci che utilizzano modelli più grandi (es. InteractVLM con LISA 13B).

5. Significato e Impatto

Il lavoro HAMMER rappresenta un passo avanti significativo nel campo dell'interazione uomo-robot e della percezione 3D:

Superamento dei Limiti 2D-3D: Dimostra che è possibile sfruttare la potente comprensione semantica dei Large Language Models Multimodali per compiti 3D senza passare attraverso fasi intermedie lossive (come la generazione di testo o la back-projection di maschere).
Generalizzazione: La capacità di trasferire conoscenze da immagini 2D a geometrie 3D sconosciute è fondamentale per gli agenti incarnati (robot) che devono operare in ambienti non strutturati e dinamici.
Robustezza Reale: La validazione su dati corrotti rende il metodo più adatto per applicazioni pratiche nel mondo reale, dove i sensori 3D sono spesso soggetti a rumore e occlusioni.

In sintesi, HAMMER offre un paradigma più diretto ed efficace per l'ancoraggio delle affordance, unendo la comprensione contestuale profonda dell'MLLM con la precisione geometrica della rappresentazione 3D.