SSL-SLR: Self-Supervised Representation Learning for Sign Language Recognition

本文提出了一种名为 SSL-SLR 的自监督学习框架,通过引入无负样本对的新方法和新型数据增强技术,有效解决了现有对比学习在签语识别中忽视关键信息区域及负样本相似度过高的问题,从而显著提升了模型在多种评估场景下的性能。

Ariel Basso Madjoukeng, Jérôme Fink, Pierre Poitier, Edith Belise Kenmogne, Benoit Frenay

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让计算机“看懂”手语的新方法,名为 SSL-SLR。为了让你更容易理解,我们可以把这项技术想象成教一个外国朋友学习手语的过程。

1. 遇到的难题:手语学习的“噪音”与“混淆”

想象一下,你想教一个外国朋友(AI 模型)识别手语动作。

  • 数据太少了:给手语视频做标注(告诉电脑这个动作是什么意思)非常难,需要懂手语的语言学家,而且非常耗时。就像教孩子认字,如果只有很少的课本,孩子很难学会。
  • 动作有“废话”:手语视频里有很多无关紧要的动作。比如,一个人打完一个手势后,手会慢慢放下来(复位),或者在两个手势之间有一些过渡动作(共articulation)。这些就像说话时的“呃……"、“那个……",对理解意思没帮助,但电脑如果把这些也当成重点,就会学偏。
  • 动作太像了:有些不同的手语,动作非常相似(比如都是挥手),只是细节不同。如果电脑分不清哪些是“核心动作”,哪些是“废话”,它就会把两个不同的词搞混。

以前的方法(对比学习)就像让电脑看很多视频,告诉它:“这两个视频是同一个词(正样本),那两个视频是不同的词(负样本)”。但问题是,电脑会把视频里的所有画面(包括那些“废话”动作)都一视同仁地学习,导致它学了一堆没用的东西,识别准确率不高。

2. 我们的新方案:SSL-SLR(手语识别的“去噪”大师)

这篇论文提出了一个聪明的新框架,主要由两个“绝招”组成:

绝招一:不用“找茬”,直接“模仿” (SL-FPN)

以前的方法需要找很多“不同的词”来对比(负样本),这很容易出错。

  • 新做法:我们不需要找“不同的词”来对比。我们只需要让电脑看同一个手势原版经过处理的版本
  • 比喻:想象你在教朋友认“苹果”。你给他看一张真实的苹果照片(原版),再给他看一张把苹果背景变模糊、或者把苹果稍微旋转的照片(增强版)。
  • 核心逻辑:我们告诉电脑:“不管你怎么变,只要核心还是那个苹果,你就得认出它们是同一个东西。”
  • 创新点:以前的方法只对比“变过”的两张照片。我们的新方法(SL-FPN)不仅对比两张变过的照片,还强行把“原版照片”拉进来一起学。这就像老师不仅让学生对比两张练习卷,还让学生拿着标准答案(原版)去对照,这样学得更扎实,而且不需要找那些容易混淆的“错误答案”(负样本)。

绝招二:给视频“剪掉废话” (新数据增强技术)

这是最精彩的部分。既然手语视频里有“废话”动作(比如手放下的过程),我们怎么让电脑自动忽略它们呢?

  • 以前的做法:随机把视频里的每一帧都打乱或模糊,不管那是核心动作还是废话。
  • 我们的做法:我们发明了一种智能剪辑师
    1. 先找重点:我们先用一种算法去“试错”。比如,把视频开头的前 1/3 打乱,看看电脑还能不能认出这个词?如果打乱了开头,电脑还能认出来,说明开头那些动作是“废话”。
    2. 确定边界:通过这种测试,我们发现:手语的核心动作通常发生在视频的中间部分。开头和结尾往往是一些准备动作或复位动作,对识别意义不大。
    3. 精准打击:于是,我们的新增强技术专门破坏开头和结尾的“废话”部分,而完美保留中间的核心动作
  • 比喻:就像看一场精彩的足球赛。以前的方法是把整场比赛(包括球员热身、中场休息、赛后握手)都剪辑得乱七八糟让 AI 猜。我们的方法是:只把球员热身和赛后握手剪掉,只保留进球和关键防守的片段,然后让 AI 学习。这样 AI 就能一眼看出这是“进球”而不是“热身”。

3. 效果如何?

这套组合拳打下来,效果非常惊人:

  • 更聪明:在几个不同的手语数据集上,这套方法的准确率都超过了现有的最先进模型(比如 SimCLR, BYOL 等)。
  • 举一反三:即使是用一种手语(比如美国手语)训练出来的模型,去识别另一种手语(比如希腊手语),效果也比别人好。这说明它真的学到了手语的“精髓”,而不是死记硬背。
  • 少即是多:即使在只有很少标注数据的情况下(半监督学习),它也能表现得很好。

总结

简单来说,这篇论文做了一件很酷的事:
它没有让计算机去死记硬背成千上万的手语视频,而是教它如何忽略噪音(复位动作、过渡动作),如何抓住重点(核心手势),并且通过一种更聪明的“自我学习”方式(利用原版和增强版互相验证),让计算机在没有大量人工标注的情况下,也能成为识别手语的高手。

这就好比教一个学生,不再让他背诵整本字典,而是教他如何快速抓住文章的核心思想,哪怕文章里有很多废话,他也能一眼看穿本质。