CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning

本文提出了名为 CLAP 的无监督联合预训练方法,通过曲率采样降低计算成本并利用可学习原型挖掘图像与点云的互补性,从而在融合 3D 感知任务中显著超越了现有最先进方法。

Runjian Chen, Hang Zhang, Avinash Ravichandran, Hyoungseob Park, Wenqi Shao, Alex Wong, Ping Luo

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 CLAP 的新方法,旨在帮助自动驾驶汽车更好地“看懂”世界。

想象一下,自动驾驶汽车就像是一个刚出生的婴儿,它需要学习如何识别路上的车、人、障碍物。通常,教它学习需要人类老师(标注员)花大量时间给每一张图片、每一个激光雷达点云打上标签(比如“这是车”、“那是行人”)。但这既昂贵又耗时。

这篇论文的核心思想是:让汽车自己通过“观察”和“联想”来学习,而不需要人类老师手把手教。

为了让你更容易理解,我们可以把 CLAP 的工作过程比作一个**“超级侦探训练营”**,它有三个独门秘籍:

1. 核心难题:为什么以前的方法不够好?

以前的训练方法(比如 UniPAD)就像是在教学生时,把“看图片”和“看 3D 模型”分成了两门课,分别上课。

  • 问题在于: 图片(相机)能告诉你物体的颜色和纹理(比如“这是一辆红色的法拉利”),但很难判断距离和形状;而激光雷达(LiDAR)能精准画出物体的 3D 轮廓(比如“这是一个长方体,距离 10 米”),但不知道它是什么颜色或材质。
  • 以前的做法: 因为数据量太大,电脑算不过来,所以只能分开训练。这就导致学生只学会了看平面,或者只学会了看立体,没能把两者结合起来,无法真正理解“这是一辆红色的法拉利,距离我 10 米”。

2. CLAP 的三大独门秘籍

秘籍一:曲率采样(Curvature Sampling)—— “只挑重点看”

  • 比喻: 想象你要画一幅复杂的风景画。如果你把画布上每一寸地方(比如平坦的草地、天空)都花同样的时间去描摹,你会累死,而且画不出重点。
  • CLAP 的做法: 它发现,平坦的地方(如路面、天空)信息量很少,而弯曲、复杂的地方(如汽车的轮廓、行人的关节)信息量巨大。
  • 操作: CLAP 像是一个精明的侦探,它会自动计算哪里是“弯曲”的(曲率高),哪里是“平坦”的。它只把精力集中在那些弯曲、复杂的“关键部位”,忽略平坦的背景。
  • 效果: 这就像把原本需要 100 个人力才能完成的工作,压缩到只需要 1 个人就能高效完成,从而让电脑能够同时处理图片和 3D 数据,不再需要分开训练。

秘籍二:可学习原型(Learnable Prototypes)—— “建立通用语言”

  • 比喻: 想象相机和激光雷达是两个说不同语言的人。相机说:“这是红色的、光滑的”,激光雷达说:“这是立体的、有棱角的”。他们没法直接交流。
  • CLAP 的做法: CLAP 引入了一组**“万能翻译官”(原型)**。这些翻译官不是预先定义好的,而是在训练中自己学会的。
    • 比如,当相机看到“红色的光滑表面”,激光雷达看到“立体的方块”时,CLAP 会训练这两个翻译官都指向同一个概念——“汽车”。
    • 通过这种机制,它强行把图片和 3D 点云拉到了同一个“特征空间”里,让它们能互相理解。

秘籍三:交换预测与防坍塌(Swapping & Regularization)—— “互相出题考试”

  • 比喻: 为了防止学生死记硬背或者偷懒(比如所有翻译官都变成同一个词,这就叫“坍塌”),CLAP 设计了一套**“交换考试”**机制。
  • 操作:
    • 它让相机分支去猜激光雷达的特征,又让激光雷达分支去猜相机的特征。
    • 同时,它给每个“翻译官”发一张“身份证”(Gram Matrix 正则化),确保它们彼此不同,不会变成同一个词。
  • 效果: 这种互相出题的方式,强迫模型深入理解图片和 3D 数据之间深层的互补关系,而不是表面上的模仿。

3. 结果如何?

在著名的自动驾驶数据集(NuScenes 和 Waymo)上,CLAP 的表现令人惊叹:

  • 效率提升: 它的性能提升幅度比之前最先进的方法(SOTA)还要高出 100%
  • 少样本学习: 即使只给模型看极少量的标注数据(比如只有 0.5% 的数据)进行微调,CLAP 也能表现得非常好。这意味着它学到的“直觉”非常扎实。

总结

CLAP 就像是一个聪明的教练,它教自动驾驶汽车:

  1. 抓重点(曲率采样):不看无聊的平地,只看关键的轮廓。
  2. 建桥梁(原型学习):让图片和 3D 数据用同一种语言交流。
  3. 互相考(交换预测):通过互相出题,确保学到的知识既全面又准确。

最终,它让自动驾驶汽车在没有人类老师大量标注的情况下,也能学会如何安全、精准地感知 3D 世界。这大大降低了自动驾驶技术的开发成本,是迈向全自动驾驶的重要一步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →