FG-CLTP: Fine-Grained Contrastive Language Tactile Pretraining for Robotic Manipulation

本文提出了 FG-CLTP 框架,通过构建包含 10 万对多维接触状态的大规模数据集及量化语义对齐机制,实现了细粒度触觉表征学习,并进一步结合流匹配策略构建了 3D 触觉 - 语言 - 动作模型,显著提升了机器人接触丰富操作任务的性能。

Wenxuan Ma, Chaofan Zhang, Yinghao Cai, Guocai Yao, Shaowei Cui, Shuo Wang

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一项让机器人变得更“聪明”、更“灵巧”的新技术。为了让你更容易理解,我们可以把这项技术想象成教机器人从“只会说大概”进化到“精通物理细节”的过程。

1. 以前的机器人:只有“模糊的感觉”

想象一下,你蒙着眼睛去摸一个苹果。

  • 以前的机器人(旧方法):它摸完后只能告诉你:“这是一个的、的东西。”(这是定性描述)。
  • 问题所在:如果让你去拧一个螺丝,光知道“硬”是不够的。你需要知道:我用了5 牛顿的力?还是20 牛顿?螺丝转了多少度?接触面是多大?以前的机器人就像是一个只会说“大概”的盲人,它知道东西在那,但不知道具体的力度和角度,所以干不了精细的活(比如穿针引线、组装精密零件)。

2. 这项新发明:FG-CLTP(给机器人装上“物理翻译官”)

作者们开发了一个叫 FG-CLTP 的系统,它的核心思想是:把触觉变成精确的“数字语言”

  • 创造了一本“触觉字典”
    他们收集了超过 10 万组 数据,就像给机器人看了一百多万次“摸东西”的场景。但这不仅仅是看图片,而是记录了:

    • 3D 的变形形状(像指纹一样)。
    • 具体的受力大小(比如:5.2 牛顿)。
    • 接触的位置和角度。
    • 甚至包括是“顺时针转”还是“逆时针转”。
  • 发明了“数字词汇”
    这是最巧妙的地方。以前的机器人把触觉翻译成“硬”、“软”这种模糊的词。
    现在的 FG-CLTP 把触觉翻译成精确的数字代码

    • 比如,它不再说“压得有点深”,而是说 <depth_2.1>(深度 2.1 毫米)。
    • 不再说“转得有点歪”,而是说 <ori_240>(朝向 240 度)。
    • 比喻:这就像教机器人从只会说“大概”的方言,突然学会了说精确的数学语言。它现在能听懂“用力 5 牛顿”和“用力 20 牛顿”的区别,就像人能分清“轻拍”和“重锤”一样。

3. 训练过程:从“死记硬背”到“举一反三”

  • 模拟训练:他们在电脑里用超级逼真的模拟器,让机器人模拟了 10 万次“按压、滑动、旋转”的动作,并自动打上了上述的“数字标签”。
  • 跨传感器通用:最厉害的是,这个系统不挑传感器。就像你学会了骑自行车,换一辆不同品牌的自行车也能骑一样。这个模型在一种传感器上训练,换到另一种完全不同的传感器上,依然能准确工作(模拟到现实的差距只有 3.5%,非常小)。

4. 实战表现:3D-TLA(机器人的“超级大脑”)

基于这个新的“触觉语言”,作者们造了一个叫 3D-TLA 的机器人控制大脑。

它做了什么?
他们在现实世界中测试了三个高难度任务:

  1. 插管子:在看不见(被遮挡)的情况下,把管子插进孔里。
    • 结果:旧方法经常插歪或插不进去,新方法成功率高达 85%
  2. 擦黑板:需要保持均匀的力度,把指定区域擦干净。
    • 结果:新方法擦得更干净,成功率 75%
  3. 手写:在白板上一笔一划写字,需要极精细的力道控制。
    • 结果:新方法能写出连贯的圆圈,成功率 60%(旧方法只有 45-50%)。

总结:这到底意味着什么?

这就好比给机器人装上了一双不仅能“感觉”到东西,还能“计算”出具体数值的超级手指。

  • 以前:机器人摸到东西说:“哦,这是个硬东西。” -> 然后可能用力过猛把东西捏碎,或者用力太小抓不住。
  • 现在:机器人摸到东西说:“接触深度 2.1 毫米,受力 5 牛顿,角度 240 度。” -> 它能立刻调整动作,像人类专家一样精准地完成任务。

这项技术让机器人从“粗手粗脚”的搬运工,进化成了能进行精密组装、精细操作的“工匠”,为未来机器人进入家庭、医院和工厂做精细工作打下了坚实的基础。