Robust Fine-Tuning from Non-Robust Pretrained Models: Mitigating Suboptimal Transfer With Epsilon-Scheduling

该论文指出从非鲁棒预训练模型进行鲁棒微调会导致“次优迁移”现象,并提出通过“epsilon 调度”策略动态调整训练扰动强度,从而有效缓解该问题并显著提升模型的预期鲁棒性。

Jonas Ngnawé, Maxime Heuillet, Sabyasachi Sahoo, Yann Pequignot, Ola Ahmad, Audrey Durand, Frédéric Precioso, Christian Gagné

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个在人工智能领域非常普遍但又充满挑战的问题:如何把一个“普通”的预训练模型,改造成既能干新活、又能抵御恶意攻击的“超级模型”。

为了让你轻松理解,我们可以把整个过程想象成**“培养一名特种兵”**的故事。

1. 背景:现有的“特种兵”大多有缺陷

在人工智能的世界里,我们通常不会从零开始训练一个模型(那太慢太贵了)。相反,我们会找一个已经受过基础训练的“预训练模型”(比如 ImageNet 上训练好的模型),然后让它去适应一个新的具体任务(比如识别特定的鸟类或汽车)。这就像是从军队里挑出一名受过基础训练的士兵,派他去执行特种任务。

  • 现状: 开源社区里有很多这样的“士兵”,他们很聪明,能认出各种东西。但是,他们有一个致命弱点:他们太“天真”了。只要有人稍微把图片上的像素点动一点点(就像在士兵脸上贴个创可贴,或者把眼镜歪一点),他们就会认不出东西,甚至做出完全错误的判断。这被称为“对抗性攻击”。
  • 目标: 我们想通过“微调”(Fine-tuning),让这些士兵在适应新任务的同时,学会抵御这些恶作剧般的攻击,变得“鲁棒”(Robust)。

2. 问题:直接“魔鬼训练”会搞砸(次优迁移)

以前的做法是:直接把这名“天真”的士兵扔进一个高强度的魔鬼训练营(对抗训练),让他一边学新任务,一边面对各种恶作剧攻击。

  • 论文发现的大坑: 作者发现,如果直接对“天真”的士兵进行高强度魔鬼训练,结果往往很惨。
    • 比喻: 想象一个刚学会走路的孩子,你直接把他扔进暴风雨里让他学跑步。结果呢?他不仅没学会跑步,连路都走不稳了,甚至摔得鼻青脸肿,完全忘了怎么走路。
    • 学术术语: 这叫**“次优迁移”(Suboptimal Transfer)**。原本预训练模型很好的“底子”(干净准确率),在强行加入防御训练后,反而变得比不训练还差,甚至差到完全无法使用。
    • 原因: 这种“魔鬼训练”在初期会严重干扰模型学习新任务的能力。模型忙着应付攻击,根本没时间学习新东西。这就好比士兵在暴风雨里只顾着躲雨,忘了怎么瞄准靶子。

3. 解决方案:循序渐进的“ epsilon 调度” (Epsilon-Scheduling)

为了解决这个问题,作者提出了一种聪明的新方法,叫**"Epsilon 调度”**。

  • 核心思想: 不要一开始就扔进暴风雨,要循序渐进
  • 具体做法(比喻):
    1. 第一阶段(热身期): 先让士兵在晴朗的天气下(没有攻击,ϵ=0\epsilon=0)专心练习新任务(比如识别汽车)。这时候,他学得非常快,很快就成了识别汽车的高手。
    2. 第二阶段(过渡期): 慢慢开始引入一点微风(小扰动),让士兵在练习新任务的同时,开始适应一点点干扰。
    3. 第三阶段(实战期): 最后,当士兵已经熟练掌握新任务后,再逐渐加大风雨强度,直到达到最终的“暴风雨”级别(目标攻击强度)。
  • 效果: 这种方法就像**“教练带着士兵慢慢适应环境”**。士兵先学会了怎么跑,再学会怎么在雨中跑,最后成了真正的特种兵。
  • 结果: 实验证明,这种方法不仅让模型在恶劣环境下依然能认得准东西(鲁棒性高),而且保留了它原本识别事物的能力(干净准确率高),避免了“次优迁移”的悲剧。

4. 新尺子:如何评价一个“好士兵”?

以前评价一个模型,只看它在“晴天”(干净数据)和“暴风雨”(最大攻击)下的表现。但这就像只看一个人“完全没受伤”和“受重伤”两种状态,忽略了中间过程。

  • 新指标: 作者提出了一个**“预期鲁棒性”(Expected Robustness)**的概念。
  • 比喻: 这就像评价一个士兵,不仅看他能不能在狂风暴雨中生存,还要看他在微风、小雨、中雨、暴雨等各种天气下的平均表现
  • 意义: 这个新指标能更全面地反映模型在现实世界中的表现,因为现实世界里的攻击强度是千变万化的,不总是“最大”或“没有”。

总结

这篇论文告诉我们:

  1. 别急: 想把一个普通的 AI 模型变成抗攻击的模型,不能一上来就“硬刚”。
  2. 循序渐进: 使用**"Epsilon 调度”**,先让模型学好新本领,再慢慢增加难度,这样效果最好。
  3. 全面评价: 评价模型时,要看它在各种难度下的平均表现,而不仅仅是极端情况。

这就好比教孩子学骑车:你不能一开始就让他去冲坡(高强度对抗训练),那样他会摔得很惨。你应该先让他平地骑稳(标准微调),再慢慢上小坡,最后再挑战陡坡。这样,他既能学会骑车,又能保持平衡,最终成为真正的骑行高手。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →