HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

本文提出了 HAMMER 框架,通过利用多模态大语言模型(MLLM)将图像中的交互意图聚合为接触感知嵌入,并结合分层跨模态融合与多粒度几何提升模块,实现了无需显式属性描述或现成 2D 分割器的意图驱动 3D affordance 定位。

Lei Yao, Yong Chen, Yuejiao Su, Yi Wang, Moyun Liu, Lap-Pui Chau

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 HAMMER 的新人工智能系统。为了让你轻松理解,我们可以把这项技术想象成教一个机器人如何“看懂”物体并知道怎么使用它们

🎯 核心任务:教机器人“懂行”

想象一下,你给机器人看一张照片(比如一个人正在拧水龙头),然后给它一个3D 模型(水龙头的立体点云)。
机器人的任务是:根据照片里的动作,在 3D 模型上精准地圈出“哪里可以拧”、“哪里可以抓”。这叫做3D 功能定位(Affordance Grounding)

以前的方法要么太笨(只靠死记硬背),要么太容易出错(把 2D 图片强行投影到 3D 上,容易变形)。

🔨 HAMMER 是怎么工作的?(三个关键步骤)

我们可以把 HAMMER 想象成一个拥有“超级大脑”的学徒,它通过三个步骤来学习:

1. 像侦探一样“读心” (意图提取)

  • 传统做法:以前的机器人看到照片,可能会先费力地描述:“这是一个水龙头,人在拧它……",然后再去 3D 模型上找。这就像先写了一篇长作文再做题,效率低且容易跑题。
  • HAMMER 的做法:它直接利用一个多模态大语言模型(MLLM),就像请了一位经验丰富的老侦探。老侦探看一眼照片,瞬间就能领悟到“意图”(Intent):“哦,这个动作是要拧开阀门!”
  • 比喻:它不写长篇大论,而是把这种“意图”浓缩成一个高密度的“思维胶囊”(接触感知嵌入)。这个胶囊里包含了“怎么操作”的核心秘密,但没有废话。

2. 给 3D 模型“开天眼” (跨模态融合)

  • 问题:那个“思维胶囊”虽然聪明,但它只懂 2D 图片,不懂 3D 空间。它知道要“拧”,但不知道水龙头的 3D 结构哪里是把手,哪里是底座。
  • HAMMER 的做法:它把这个“思维胶囊”和 3D 模型的每一根“神经”(点云特征) 进行深度交流。
  • 比喻:就像给 3D 模型戴上了一副**“智能眼镜”**。原本 3D 模型只是冷冰冰的几何形状,戴上眼镜后,它突然“理解”了:“啊!原来图片里那个动作是针对我这部分结构的!” 这种交流是分层级的,从整体到细节,让 3D 模型彻底“活”了起来,明白了物体的语义。

3. 把“想法”变成“空间感” (几何提升)

  • 问题:虽然 3D 模型懂了意图,但“思维胶囊”本身还是平面的,缺乏立体感。
  • HAMMER 的做法:它设计了一个**“几何提升模块”。这就像是一个3D 打印机**,把平面的“意图”一层层地“打印”进 3D 空间里。
  • 比喻:想象你在一张平面的地图上画了一个圈(意图),HAMMER 能自动把这个圈立体化,变成一座精确的3D 雕塑,精准地覆盖在水龙头的把手上,而不是覆盖在底座上。它让“想法”拥有了“空间坐标”。

🏆 为什么 HAMMER 这么厉害?

  1. 不依赖“翻译”:它不需要把图片先翻译成文字再翻译回 3D,而是直接让“大脑”和"3D 身体”对话,减少了信息丢失。
  2. 抗干扰能力强:论文做了一个很酷的测试,故意把 3D 模型弄脏、弄乱、加点噪点(就像现实世界中传感器拍到的模糊数据)。
    • 比喻:就像在狂风暴雨中,别的机器人可能晕头转向找不到把手,但 HAMMER 依然能稳稳地指出:“别管风多大,把手就在那儿!”
  3. 举一反三:即使遇到从未见过的物体(比如一个奇怪的异形杯子),只要它见过类似的“拧”的动作,它就能猜出这个杯子的哪里可以拧。

📝 总结

HAMMER 就像是一个既懂心理学(理解人类意图),又懂建筑学(理解 3D 结构)的超级机器人

它不再死板地匹配图片,而是通过**“理解意图 -> 融合知识 -> 立体定位”这一套组合拳,让机器人能像人类一样,看一眼照片就知道怎么在现实世界中操作物体。这对于未来的家庭服务机器人、自动驾驶和增强现实**技术来说,是一个巨大的进步。

一句话概括:HAMMER 让机器人不再只是“看”图片,而是真正“懂”了图片里的动作,并能精准地在 3D 世界里找到操作点。