ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

本文提出了名为 ViTaPEs 的基于 Transformer 的架构,通过引入包含模态内局部编码与跨模态全局编码的两阶段位置注入机制,实现了任务无关的视触觉表征学习,在多项真实世界数据集的识别任务及机器人抓取场景中均展现出超越现有最先进方法的性能与零样本泛化能力。

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ViTaPEs 的新人工智能技术。为了让你轻松理解,我们可以把这项技术想象成教一个机器人如何像人类一样,既用眼睛看,又用手摸来认识世界。

🌟 核心故事:当“眼睛”和“手”握手言和

想象一下,你蒙上眼睛去摸一个苹果。你能感觉到它的硬度、光滑度和形状,但你不知道它是红的还是绿的。
反之,如果你蒙上眼睛只看一张苹果的照片,你知道它是红的、圆的,但不知道它摸起来是硬的还是软的,或者有没有被咬了一口。

以前的 AI 模型就像是一个笨拙的翻译官

  1. 它让“眼睛”(视觉模型)和“手”(触觉模型)各自为战,然后强行把它们的结果拼在一起。
  2. 或者,它让“手”去模仿“眼睛”已经学好的知识,但这就像让一个盲人去模仿明眼人的走路姿势,虽然能走,但总觉得不自然,失去了触觉特有的细腻感。
  3. 最重要的是,以前的模型不知道“位置”的重要性。它们知道“这是苹果”,但不知道“苹果的哪一部分被摸到了”。这就好比两个人在黑暗中对话,虽然知道对方在说话,却不知道对方具体在哪个方位,导致配合得很生硬。

🚀 ViTaPEs 的魔法:两步走的“位置定位法”

ViTaPEs 就像是一个超级聪明的协调员,它发明了一套独特的“两步定位法”,让眼睛和手能完美配合:

第一步:给每个人发“专属地图”(局部位置编码)

在“眼睛”和“手”各自处理信息时,ViTaPEs 先给它们各自发一张专属地图

  • 眼睛的地图:告诉它图片的左上角是天空,右下角是桌子。
  • 手的地图:告诉它传感器的左上角是接触点,右下角是边缘。
  • 比喻:就像给两个不同国家的士兵发各自国家的地图,让他们先在自己的地盘里搞清楚“我在哪”。这保证了它们各自能看清细节(比如纹理、压力分布)。

第二步:给所有人发“统一坐标”(全局位置编码)

当“眼睛”和“手”要把信息汇合在一起时,ViTaPEs 立刻给它们发一张统一的全球坐标图

  • 这时候,它告诉眼睛:“你看到的这个红点,和手摸到的这个硬点,在同一个坐标位置上。”
  • 比喻:就像两个士兵在汇合点见面,虽然他们来自不同国家(模态),但现在他们站在同一个广场上,拿着同一张世界地图。这让 AI 能瞬间明白:“哦!原来眼睛看到的这个纹理,就是手摸到的这个压力点!”

🧠 为什么这很厉害?(三大超能力)

  1. 不用死记硬背(零样本泛化)
    以前的模型如果没见过某种新物体(比如一种没见过的塑料),就傻眼了。ViTaPEs 因为学会了“位置”和“结构”的通用逻辑,哪怕给它看一个从未见过的物体,它也能迅速推断出:“虽然我没摸过这个,但根据它的位置和纹理,它应该很滑。”

    • 比喻:就像你学会了骑自行车,哪怕给你一辆没见过的山地车,你也能马上骑,因为你掌握了“平衡”和“位置”的通用原理,而不是死记硬背某辆车的样子。
  2. 抗干扰能力强(鲁棒性)
    实验发现,即使把触觉传感器的图像遮住一半(比如传感器脏了或坏了),ViTaPEs 依然能猜得很准。

    • 比喻:就像你在黑暗中摸索,即使手指被遮住了一部分,你依然能凭剩下的触觉和视觉记忆,准确判断出面前是个杯子。
  3. 机器人抓东西更稳
    在机器人抓取任务中,ViTaPEs 预测“能不能抓稳”的准确率比以前的方法高出一大截。

    • 比喻:以前的机器人抓东西像“盲人摸象”,容易滑脱;现在的机器人像“老练的工匠”,知道哪里该用力,哪里该轻拿轻放。

📊 总结:它做了什么?

简单来说,ViTaPEs 并没有发明新的“眼睛”或新的“手”,它发明了一套让眼睛和手高效沟通的“语言”和“规则”

  • 以前:眼睛和手各说各的,最后硬拼在一起,经常对不上号。
  • 现在 (ViTaPEs)
    1. 先让它们在各自的领域里搞清楚“我在哪”(局部编码)。
    2. 再让它们在一个共同的平台上,用统一的坐标对齐信息(全局编码)。

这项技术让 AI 在认识世界时,不再只是“看”或“摸”,而是真正实现了视听触一体化的感知,让机器人能更聪明、更灵活地在现实世界中工作。