HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

Das Paper stellt HAMMER vor, ein Framework, das multimodale große Sprachmodelle (MLLMs) nutzt, um durch die Aggregation von Interaktionsabsichten und eine hierarchische cross-modale Integration eine intentiongetriebene 3D-Affordanz-Verankerung zu ermöglichen, die ohne explizite Attributbeschreibungen oder 2D-Segmentierer auskommt und in Experimenten überlegene Ergebnisse liefert.

Lei Yao, Yong Chen, Yuejiao Su, Yi Wang, Moyun Liu, Lap-Pui Chau

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🛠️ HAMMER: Der clevere Roboter-Assistent, der „Fühlen" lernt

Stell dir vor, du siehst ein Foto von einer Tasse. Sofort weißt du: „Ah, das ist der Griff, den man greift, um die Tasse zu halten." Oder du siehst einen Stuhl und weißt sofort: „Da kann man sich draufsetzen." Menschen machen das automatisch. Wir schauen uns Bilder an und verstehen sofort, wie man mit Dingen interagiert.

Roboter haben damit große Probleme. Sie sehen einen 3D-Stuhl (eine Ansammlung von Punkten im Raum), aber sie wissen nicht, welcher Teil zum Sitzen geeignet ist und welcher Teil nur die Beine sind.

Die Forscher aus Hongkong und Wuhan haben eine Lösung namens HAMMER entwickelt. Der Name steht für etwas Großes, aber im Kern ist es ein intelligenter Übersetzer, der zwei Welten verbindet: die Welt der Bilder (wo wir die Absicht sehen) und die Welt der 3D-Objekte (wo der Roboter greifen muss).

Hier ist, wie HAMMER funktioniert, mit ein paar lustigen Vergleichen:

1. Der „Super-Experte" (Das MLLM)

Stell dir vor, du hast einen sehr klugen Freund, der Millionen von Büchern gelesen und Milliarden von Bildern gesehen hat. Das ist für HAMMER das MLLM (ein großes Sprach- und Bildmodell).

  • Das Problem: Früher mussten Roboter erst lange Texte schreiben, um zu beschreiben, was auf einem Bild zu sehen ist, oder sie mussten mühsam 2D-Masken (wie Ausmalbilder) erstellen und diese dann in den 3D-Raum projizieren. Das ist wie zu versuchen, ein dreidimensionales Haus aus einem flachen Stück Papier zu bauen – es geht, aber es ist ungenau und oft schief.
  • Die HAMMER-Lösung: HAMMER fragt seinen „klugen Freund" (das MLLM) nicht nach einer langen Beschreibung. Stattdessen sagt er: „Zeig mir auf dem Bild, wo die Hand hinkommt!" Das MLLM versteht die Absicht (Intention) auf dem Bild sofort und wandelt dieses Verständnis in einen unsichtbaren, aber sehr mächtigen „Gedanken-Code" (einen Embedding) um. Es ist, als würde der Freund dir nicht erklären, wie man eine Tasse hält, sondern dir einfach das Gefühl des Haltens direkt in den Kopf geben.

2. Der „Architekt" (Die Kreuzmodale Integration)

Jetzt hat HAMMER dieses Gefühl (den Code), aber er muss es auf den 3D-Stuhl übertragen.

  • Die Herausforderung: Der 3D-Stuhl ist aus Punkten gemacht und hat keine „Gedanken". Er ist stumm.
  • Die HAMMER-Lösung: HAMMER nutzt eine Art magischen Kleber. Er nimmt den „Gedanken-Code" des Freundes und vermischt ihn mit den Punkten des Stuhls. Er sagt quasi: „Hey, du Punkt hier am Armlehnen-Teil, du bist jetzt nicht mehr nur ein Punkt, du bist der Teil, den man fasst!"
  • Der Trick: Er macht das in mehreren Schritten (hierarchisch). Zuerst versteht er grob, worum es geht, und dann verfeinert er die Details. Es ist wie beim Malen: Zuerst skizziert man die groben Umrisse, dann malt man die feinen Details aus. So wird der 3D-Stuhl „bewusst" für die Interaktion.

3. Der „Architekt mit Maßband" (Geometrie-Lifting)

Das ist der genialste Teil. Der „Gedanken-Code" vom Bild ist flach (2D). Aber der Stuhl ist räumlich (3D). Wie passt das zusammen?

  • Das Problem: Ein Bild zeigt nur die Vorderseite. Der Roboter muss aber wissen, wie der Stuhl von der Seite aussieht, um nicht durch die Sitzfläche hindurchzugreifen.
  • Die HAMMER-Lösung: HAMMER hat ein spezielles Werkzeug, das wir „Geometrie-Lifting" nennen. Stell dir vor, du nimmst einen flachen Schattenriss und füllst ihn mit 3D-Informationen auf, bis er ein echtes, räumliches Objekt wird. HAMMER nimmt die flachen Hinweise aus dem Bild und „streckt" sie mit den geometrischen Daten des 3D-Objekts auf. Er fügt dem Code quasi ein Maßband hinzu.
  • Das Ergebnis: Der Roboter weiß jetzt nicht nur dass man greifen muss, sondern genau wo im dreidimensionalen Raum der Griff sitzt, selbst wenn das Bild nur einen Teil zeigt.

Warum ist das so wichtig? (Der „Robustheits-Test")

Die Forscher haben HAMMER auch in einem chaotischen Umfeld getestet. Stell dir vor, du versuchst, einen Stuhl zu erkennen, während jemand den Boden wackelt, Teile des Stuhls fehlen oder es regnet (Rauschen im Datenstrom).

  • Andere Roboter fallen dann oft in Panik oder greifen daneben.
  • HAMMER bleibt ruhig. Weil er die Absicht so tief verstanden hat und die 3D-Struktur so gut kennt, findet er den Griff auch dann noch, wenn das Bild oder die Daten etwas „kaputt" sind. Es ist wie ein erfahrener Handwerker, der auch bei schlechtem Licht und mit einem stumpfen Werkzeug noch den richtigen Nagel findet.

Zusammenfassung in einem Satz

HAMMER ist wie ein Übersetzer, der einem Roboter beibringt, nicht nur auf Bilder zu schauen, sondern das Gefühl einer Handlung (wie Greifen oder Sitzen) direkt in die 3D-Form eines Objekts zu „projizieren", damit der Roboter genau weiß, wo er anpacken muss – selbst wenn die Daten verrauscht sind.

Es ist der Unterschied zwischen jemandem, der nur eine Landkarte liest, und jemandem, der die Landschaft wirklich fühlt und weiß, wo der beste Weg ist. 🗺️➡️🏔️