HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

Each language version is independently generated for its own context, not a direct translation.

🛠️ HAMMER: Der clevere Roboter-Assistent, der „Fühlen" lernt

Stell dir vor, du siehst ein Foto von einer Tasse. Sofort weißt du: „Ah, das ist der Griff, den man greift, um die Tasse zu halten." Oder du siehst einen Stuhl und weißt sofort: „Da kann man sich draufsetzen." Menschen machen das automatisch. Wir schauen uns Bilder an und verstehen sofort, wie man mit Dingen interagiert.

Roboter haben damit große Probleme. Sie sehen einen 3D-Stuhl (eine Ansammlung von Punkten im Raum), aber sie wissen nicht, welcher Teil zum Sitzen geeignet ist und welcher Teil nur die Beine sind.

Die Forscher aus Hongkong und Wuhan haben eine Lösung namens HAMMER entwickelt. Der Name steht für etwas Großes, aber im Kern ist es ein intelligenter Übersetzer, der zwei Welten verbindet: die Welt der Bilder (wo wir die Absicht sehen) und die Welt der 3D-Objekte (wo der Roboter greifen muss).

Hier ist, wie HAMMER funktioniert, mit ein paar lustigen Vergleichen:

1. Der „Super-Experte" (Das MLLM)

Stell dir vor, du hast einen sehr klugen Freund, der Millionen von Büchern gelesen und Milliarden von Bildern gesehen hat. Das ist für HAMMER das MLLM (ein großes Sprach- und Bildmodell).

Das Problem: Früher mussten Roboter erst lange Texte schreiben, um zu beschreiben, was auf einem Bild zu sehen ist, oder sie mussten mühsam 2D-Masken (wie Ausmalbilder) erstellen und diese dann in den 3D-Raum projizieren. Das ist wie zu versuchen, ein dreidimensionales Haus aus einem flachen Stück Papier zu bauen – es geht, aber es ist ungenau und oft schief.
Die HAMMER-Lösung: HAMMER fragt seinen „klugen Freund" (das MLLM) nicht nach einer langen Beschreibung. Stattdessen sagt er: „Zeig mir auf dem Bild, wo die Hand hinkommt!" Das MLLM versteht die Absicht (Intention) auf dem Bild sofort und wandelt dieses Verständnis in einen unsichtbaren, aber sehr mächtigen „Gedanken-Code" (einen Embedding) um. Es ist, als würde der Freund dir nicht erklären, wie man eine Tasse hält, sondern dir einfach das Gefühl des Haltens direkt in den Kopf geben.

2. Der „Architekt" (Die Kreuzmodale Integration)

Jetzt hat HAMMER dieses Gefühl (den Code), aber er muss es auf den 3D-Stuhl übertragen.

Die Herausforderung: Der 3D-Stuhl ist aus Punkten gemacht und hat keine „Gedanken". Er ist stumm.
Die HAMMER-Lösung: HAMMER nutzt eine Art magischen Kleber. Er nimmt den „Gedanken-Code" des Freundes und vermischt ihn mit den Punkten des Stuhls. Er sagt quasi: „Hey, du Punkt hier am Armlehnen-Teil, du bist jetzt nicht mehr nur ein Punkt, du bist der Teil, den man fasst!"
Der Trick: Er macht das in mehreren Schritten (hierarchisch). Zuerst versteht er grob, worum es geht, und dann verfeinert er die Details. Es ist wie beim Malen: Zuerst skizziert man die groben Umrisse, dann malt man die feinen Details aus. So wird der 3D-Stuhl „bewusst" für die Interaktion.

3. Der „Architekt mit Maßband" (Geometrie-Lifting)

Das ist der genialste Teil. Der „Gedanken-Code" vom Bild ist flach (2D). Aber der Stuhl ist räumlich (3D). Wie passt das zusammen?

Das Problem: Ein Bild zeigt nur die Vorderseite. Der Roboter muss aber wissen, wie der Stuhl von der Seite aussieht, um nicht durch die Sitzfläche hindurchzugreifen.
Die HAMMER-Lösung: HAMMER hat ein spezielles Werkzeug, das wir „Geometrie-Lifting" nennen. Stell dir vor, du nimmst einen flachen Schattenriss und füllst ihn mit 3D-Informationen auf, bis er ein echtes, räumliches Objekt wird. HAMMER nimmt die flachen Hinweise aus dem Bild und „streckt" sie mit den geometrischen Daten des 3D-Objekts auf. Er fügt dem Code quasi ein Maßband hinzu.
Das Ergebnis: Der Roboter weiß jetzt nicht nur dass man greifen muss, sondern genau wo im dreidimensionalen Raum der Griff sitzt, selbst wenn das Bild nur einen Teil zeigt.

Warum ist das so wichtig? (Der „Robustheits-Test")

Die Forscher haben HAMMER auch in einem chaotischen Umfeld getestet. Stell dir vor, du versuchst, einen Stuhl zu erkennen, während jemand den Boden wackelt, Teile des Stuhls fehlen oder es regnet (Rauschen im Datenstrom).

Andere Roboter fallen dann oft in Panik oder greifen daneben.
HAMMER bleibt ruhig. Weil er die Absicht so tief verstanden hat und die 3D-Struktur so gut kennt, findet er den Griff auch dann noch, wenn das Bild oder die Daten etwas „kaputt" sind. Es ist wie ein erfahrener Handwerker, der auch bei schlechtem Licht und mit einem stumpfen Werkzeug noch den richtigen Nagel findet.

Zusammenfassung in einem Satz

HAMMER ist wie ein Übersetzer, der einem Roboter beibringt, nicht nur auf Bilder zu schauen, sondern das Gefühl einer Handlung (wie Greifen oder Sitzen) direkt in die 3D-Form eines Objekts zu „projizieren", damit der Roboter genau weiß, wo er anpacken muss – selbst wenn die Daten verrauscht sind.

Es ist der Unterschied zwischen jemandem, der nur eine Landkarte liest, und jemandem, der die Landschaft wirklich fühlt und weiß, wo der beste Weg ist. 🗺️➡️🏔️

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert das Problem des intentionsgesteuerten 3D-Affordanz-Groundings. Das Ziel ist es, basierend auf einem 2D-Bild, das eine Interaktion mit einem Objekt zeigt, die entsprechenden handhabbaren Regionen (Affordanzen) auf einem 3D-Punktwolken-Modell des Objekts vorherzusagen.

Herausforderungen bestehen darin:

Die Lücke zwischen visuellem Verständnis (2D-Bild) und räumlicher Kognition (3D-Struktur) zu schließen.
Die Absicht (Intention) aus dem Bild zu extrahieren und präzise auf die 3D-Geometrie zu übertragen.
Bestehende Methoden leiden oft unter Informationsverlust (bei 2D-zu-3D-Projektionen) oder nutzen die semantischen Fähigkeiten von Multimodal Large Language Models (MLLMs) nicht vollständig aus.

2. Methodik (HAMMER)

Die Autoren stellen HAMMER vor, ein Framework, das MLLMs nutzt, um interaktionsabsichtsgesteuerte 3D-Affordanzen zu grounden, ohne explizite Textbeschreibungen oder 2D-Masken als Zwischenstufe zu generieren. Die Architektur besteht aus vier Hauptkomponenten:

A. Affordance-Guided Intention Embedding

Ein vortrainiertes MLLM (hier Qwen2.5-VL) verarbeitet das Eingabebild zusammen mit einem Text-Prompt, der die Objektkategorie enthält.
Statt generierter Texte wird ein spezielles Token [CONT] eingeführt, um interaktionsrelevante Informationen zu aggregieren.
Der letzte Hidden-State dieses Tokens wird durch einen MLP-Projektor in einen kontaktbewussten Embedding-Vektor ( $f_c$ ) umgewandelt.
Als auxiliary Task wird das MLLM angewiesen, textuelle Affordanz-Labels zu generieren, um sicherzustellen, dass das Modell die Objektsignifikanz und Kontextinformationen vollständig erfasst.

B. Hierarchische Cross-Modal Integration

Um die 3D-Punktwolken-Features mit den visuellen Informationen aus dem Bild zu bereichern, wird ein zweistufiger Integrationsmechanismus verwendet.
Stufe 1 (Bottleneck): Die Punktwolken-Features werden durch einen 3D-Encoder extrahiert. Diese werden mittels eines Cross-Attention-Mechanismus mit den Hidden States des MLLMs fusioniert. Dies ermöglicht es jedem Punkt, relevante Interaktionshinweise aus dem Bild selektiv zu attendieren.
Stufe 2 (Decoder-Level): Nach der Dekodierung und dem Upsampling der Punktwolken-Features werden globale Deskriptoren aus den MLLM-Hidden States (mittels eines Gating-Mechanismus) hinzugefügt, um die semantische Ausrichtung auf Objektebene zu verbessern.

C. Multi-Granular Geometry Lifting

Da das reine Bild-Embedding ( $f_c$ ) keine expliziten 3D-Rauminformationen besitzt, wird ein Multi-Granular Geometry Lifting Module eingeführt.
Dieses Modul injiziert geometrische Merkmale aus verschiedenen Skalen der Punktwolken-Features (vom groben Gerüst bis zu feinen Details) schrittweise in das Intentions-Embedding.
Durch eine sequenzielle Attention-Mechanik und Residual-Connections wird das Embedding schrittweise zu einem 3D-bewussten Embedding ( $f_c^{3D}$ ) erweitert, das sowohl globale Form als auch lokale Oberflächeneigenschaften berücksichtigt.

D. Affordance Decoding

Ein Decoder verarbeitet die verfeinerten Punktwolken-Features und das 3D-bewusste Intentions-Embedding gemeinsam, um eine finale Affordanz-Karte (Wahrscheinlichkeiten für jeden Punkt) zu erzeugen.
Der Trainingsverlust kombiniert eine Sprachmodellierungs-Loss (für die Textgenerierung) und eine Affordanz-Loss (Focal Loss + Dice Loss).

3. Wichtige Beiträge

Neues Framework (HAMMER): Ein Ansatz, der MLLMs nutzt, um eine kontaktbewusste Intentions-Embedding zu extrahieren und dieses über einen hierarchischen Cross-Modal-Integrationsmechanismus zur Anreicherung von 3D-Repräsentationen verwendet.
Multi-Granular Geometry Lifting: Ein innovatives Modul, das räumliche Hinweise unterschiedlicher Granularität in das Intentions-Embedding injiziert, um eine präzise 3D-Lokalisierung zu ermöglichen, ohne auf Kamera-Parameter oder 2D-Masken angewiesen zu sein.
Robustheit und Benchmark: Evaluation auf Standard-Datensätzen (PIAD, PIADv2) sowie auf einem neu konstruierten, verrauschten Benchmark, der die Robustheit gegenüber Punktewolken-Korruptionen (Rauschen, Dropout, Rotation) demonstriert.

4. Ergebnisse

Leistung auf PIAD/PIADv2: HAMMER übertrifft den aktuellen State-of-the-Art (SOTA) in allen Metriken (aIOU, AUC, SIM, MAE).
- Auf dem PIAD-Seen-Subset verbessert sich der aIOU um +1,69 % gegenüber GREAT (dem vorherigen SOTA).
- Auf dem PIAD-Unseen-Subset (neue Objekte) ist der Gewinn mit +5,39 % aIOU besonders signifikant, was die starke Generalisierungsfähigkeit belegt.
- Auf PIADv2 wird HAMMER in allen Splits (Seen, Unseen Object, Unseen Affordance) führend.
Robustheit: Auf dem korruptierten Benchmark zeigt HAMMER eine überlegene Stabilität gegenüber GREAT, insbesondere bei Jitter, lokalem Dropout und lokalem Additiv-Rauschen (Verbesserungen von bis zu 9,31 % im aIOU).
Ablationsstudien: Die Studien bestätigen, dass sowohl die hierarchische Integration als auch das Geometry Lifting essenziell für die Leistung sind. Zudem zeigt sich, dass das Fine-Tuning des Sprachteils des MLLLM (via LoRA) entscheidend für die Generalisierung ist.

5. Bedeutung und Ausblick

HAMMER demonstriert, dass die direkte Nutzung der tiefen semantischen und visuellen Verständnisfähigkeiten von MLLMs für die 3D-Affordanz-Grounding überlegen ist gegenüber Methoden, die auf explizite Textgenerierung oder 2D-Masken-Projektionen angewiesen sind.

Für die Robotik: Das System ermöglicht es Robotern, Interaktionsmöglichkeiten an neuen Objekten basierend auf wenigen Beispielen (Demonstrationen in Bildern) zu erkennen, was für dexterous manipulation und imitation learning entscheidend ist.
Technischer Fortschritt: Der Ansatz löst das Problem der Diskrepanz zwischen 2D-Visibilität und 3D-Geometrie effektiv durch eine gezielte Verschmelzung von multimodalen Features und geometrischem Lifting.
Zukunft: Die Autoren planen, das Framework auf Szenen-Level-Aufgaben zu erweitern, um komplexere Umgebungen und diverse Interaktionen zu handhaben.

Zusammenfassend bietet HAMMER einen robusten, generalisierbaren und präzisen Ansatz für die Schnittstelle zwischen visueller Intention und physischer 3D-Interaktion.