Leveraging Label Proportion Prior for Class-Imbalanced Semi-Supervised Learning

该论文提出了一种将来自标签比例学习(LLP)的“比例损失”作为正则化项引入半监督学习的轻量级框架,通过使模型预测与全局类别分布对齐来缓解类别不平衡问题,并在长尾 CIFAR-10 基准测试中显著提升了 FixMatch 和 ReMixMatch 等主流算法在稀缺标签条件下的性能。

Kohki Akiba, Shinnosuke Matsuo, Shota Harada, Ryoma Bise

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文解决了一个在人工智能(AI)学习中非常棘手的问题:当数据“偏科”严重时,AI 怎么学才能不“偏听偏信”?

我们可以把这篇论文的核心思想想象成**“给 AI 老师发一张班级总人数分布图”**。

1. 背景:AI 的“偏科”烦恼

想象一下,你正在教一个学生(AI 模型)识别动物。

  • 正常情况:你有 100 张猫的照片和 100 张狗的照片。学生学得挺均衡。
  • 现实情况(类别不平衡):你只有 100 张猫的照片,但只有 1 张狗的照片。
  • 半监督学习(SSL)的困境:为了让学生学更多,你给他看了一大堆没标签的照片(比如 1000 张),让他自己猜(这叫“伪标签”)。
    • 问题出在哪? 因为猫的照片多,学生一开始就猜“这肯定是猫”。一旦他猜错了(把狗猜成猫),这个错误的标签就会像滚雪球一样,让他以后看到狗也猜成猫。结果就是:猫越猜越准,狗完全被忽略,最后学生彻底“偏科”了。

2. 核心方案:引入“比例先验” (Proportion Loss)

作者们想出了一个聪明的办法:给 AI 老师一张“全班人数统计表”

  • 这个统计表是什么?
    虽然你没给每只狗贴标签,但你手里那 100 张猫和 1 张狗的标签,已经告诉你了一个大概的比例:“在这个班级里,猫大概占 99%,狗大概占 1%。”

  • 怎么做?
    传统的 AI 只看单张照片猜结果。作者的方法是在 AI 每次做练习(看一小批图片)时,强行提醒它:

    “嘿,你刚才猜的结果里,猫是不是太多了?狗是不是太少了?别忘了,全班狗的比例只有 1% 啊!请调整一下你的猜测,让整体结果符合这个比例。”

    这就好比老师告诉学生:“虽然你刚才觉得这堆人里全是男生,但根据花名册,这里其实有 10% 是女生,你再仔细看看。”

3. 创新点:防止“死记硬背” (随机扰动)

这里有个小陷阱:如果老师每次都拿着那张“全班统计表”去核对每一小批作业,AI 可能会死记硬背,反而学死了。

  • 比喻:就像老师每次批改作业都拿着“全班男女比例 9:1"的总表。但如果你只拿 10 个人出来看,可能这 10 个人里全是男生(这是正常的随机波动)。如果老师强行要求这 10 个人里必须严格符合 9:1,那老师就太死板了,学生也会学坏。

  • 作者的妙招(随机扰动)
    作者给这个“比例表”加了一点**“随机魔法”**。
    每次检查作业时,老师会根据总比例,随机生成一个“这一小批作业里可能有的比例范围”。

    • 比如总比例是 9:1,但这一小批可能随机变成 8:2 或者 9.5:0.5。
    • 这样 AI 就不会死盯着一个死板的数字,而是学会适应**“在波动中保持大方向正确”**。这让 AI 在数据极度不平衡(比如狗只有 1 张)的时候,依然能稳住阵脚,不会彻底崩溃。

4. 效果如何?

作者在著名的“长尾 CIFAR-10"数据集(一个故意把某些类别图片做得很少的测试集)上做了实验:

  • 结果:无论是用 FixMatch 还是 ReMixMatch 这两种主流的 AI 学习方法,加上这个“比例提醒”功能后,成绩都变好了
  • 特别厉害的地方:在标签非常少(比如只有 2% 或 4% 的数据有标签)的极端困难模式下,这个方法比现有的其他“防偏科”技术都要强。它成功让 AI 没有忽略那些稀少的“狗”,同时也保持了“猫”的识别率。

总结

这篇论文就像给正在“偏科”的 AI 学生发了一本**“班级人口分布指南”,并教它“不要死记硬背,要灵活适应”**。

  • 以前:AI 看到什么多就猜什么,导致少数派(稀有类别)彻底消失。
  • 现在:AI 时刻记得“少数派虽然少,但也是班级的一部分”,从而在利用大量无标签数据时,依然能公平地对待每一个类别。

这是一个轻量级、通用且有效的补丁,不需要把 AI 的架构大改,只需要加上一句“别忘了比例”的提醒,就能让 AI 在数据不平衡的世界里学得更聪明。