Soft Equivariance Regularization for Invariant Self-Supervised Learning

该论文提出了一种名为软等变性正则化(SER)的即插即用方法,通过在中间特征层而非最终嵌入层施加等变性约束,在保持自监督学习不变性优势的同时有效提升了模型对几何扰动的鲁棒性及下游任务性能。

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 SER (Soft Equivariance Regularization,软等变性正则化) 的新方法,旨在让计算机“看懂”图片的能力变得更聪明、更稳健。

为了让你轻松理解,我们可以把训练 AI 识别图片的过程想象成教一个学生(AI)认路

1. 以前的做法:只教“认死理” (Invariance)

传统的自监督学习(SSL)就像是在教学生认路时,只强调**“不管路怎么变,目的地不变”**。

  • 例子:老师把一张“猫”的照片裁剪一下、调个颜色、或者变亮变暗,然后问学生:“这还是猫吗?”
  • 目标:学生必须回答“是”。
  • 结果:学生学会了**“不变性” (Invariance)**。不管照片怎么折腾,他都能认出那是猫。这对考试(分类任务)很有用。
  • 缺点:学生变得太“死板”了。如果老师把猫的照片旋转 90 度,或者放大缩小,学生可能会懵,因为他只学会了忽略这些变化,却忘了**“旋转”和“缩放”本身也是有意义的信息**。这导致他在面对稍微复杂一点的情况(比如物体位置变了、视角变了)时,表现就不够好。

2. 以前的尝试:既要“认死理”又要“懂变化” (Equivariance)

后来的研究者发现,学生还需要学会**“等变性” (Equivariance)**。

  • 什么是等变性? 就是**“输入变了,输出也要跟着有规律地变”**。
  • 例子:如果照片里的猫向右转了 90 度,学生脑子里的“猫的特征”也应该跟着向右转 90 度,而不是完全忽略这个变化。
  • 以前的做法:以前的方法试图在同一个地方(通常是学生大脑的“最终结论区”)同时教他“认死理”和“懂变化”。
  • 问题:这就像让一个人在写最终报告的时候,既要忽略所有细节(为了认死理),又要详细描述细节的变化(为了懂变化)。这太矛盾了!
    • 如果你逼他在最后一步太关注“变化”,他认猫的能力(考试分数)就下降了。
    • 如果你逼他在最后一步太关注“不变”,他又学不会“变化”的规律。
    • 这就是论文发现的“权衡” (Trade-off): 在同一个地方强求两者,往往两头不讨好。

3. 这篇论文的新招:分而治之 (Layer-Decoupling)

SER 的核心思想非常巧妙:把“认死理”和“懂变化”分开在不同的学习阶段进行。

想象一下,这个学生的大脑分为**“中间思考层”“最终结论层”**:

  • 中间思考层 (Intermediate Layer):这里保留着图片的空间结构(比如猫耳朵在左边,尾巴在右边)。

    • SER 的做法:在这个阶段,老师专门教学生**“懂变化”**。
    • 怎么教? 老师把照片旋转、翻转,然后告诉学生:“看,照片转了 90 度,你脑子里的‘猫图’也要跟着转 90 度。”
    • 关键点:这里不需要学生去猜“这是什么变换”,而是直接利用数学公式(解析动作)来对齐特征。就像给地图加了一个**“旋转指南针”**,告诉学生怎么跟着转。
  • 最终结论层 (Final Embedding):这里输出最终的判断(这是猫)。

    • SER 的做法:在这个阶段,完全保持原样,只教学生**“认死理”**(不管照片怎么变,最后都要认出是猫)。
    • 好处:最终结论层不受“旋转”干扰,能保持强大的识别能力。

4. 这个新方法有什么特别之处?

  • 不用额外的大脑:以前的方法需要教学生专门去“猜”照片被旋转了多少度(需要额外的预测头),这很费脑子。SER 不需要,它直接利用已知的变换规则(比如旋转 90 度就是旋转 90 度)来训练,不需要猜
  • 几乎不增加负担:它只增加了极少的计算量(大约 1%),就像给学生的书包里多放了一张小纸条,几乎不重。
  • 效果显著
    • 考试更稳:在标准的图片识别考试(ImageNet)中,成绩提高了。
    • 抗干扰更强:如果照片模糊了、有噪点、或者被旋转了(ImageNet-C/P),这个学生依然能认出猫,而且比以前的学生更准。
    • 举一反三:在需要精确定位的任务(比如自动驾驶里找车的位置)中,表现也更好。

5. 总结:一个生动的比喻

想象你在教一个盲人摸象的学生:

  • 旧方法:你让他摸大象,无论大象怎么转,他都必须说“这是大象”。但如果大象转了,他脑子里的“大象模型”还是直立的,导致他如果大象侧身了,他就认不出来了。
  • 以前的改进:你试图让他既忽略方向,又记住方向,结果他脑子乱套了,既认不准,也记不住。
  • SER 方法
    1. 摸的过程中(中间层),你告诉他:“如果大象转了,你手里的触感图也要跟着转,你要记住这个旋转的感觉。”(等变性
    2. 最后回答时(最终层),你告诉他:“不管大象怎么转,你都要坚定地回答‘这是大象’。”(不变性

结论:通过把“记住变化”和“忽略变化”分开在不同的学习阶段,SER 让 AI 既聪明(能识别各种变化),又稳健(能准确分类),而且不需要额外的复杂设备。这是一个简单却非常有效的“分而治之”策略。