Infusion: Shaping Model Behavior by Editing Training Data via Influence Functions

该论文提出了名为"Infusion"的框架,利用可扩展的影响函数近似技术,通过对训练数据施加微小扰动来诱导模型产生目标行为,实验表明该方法在视觉和语言领域均能有效且隐蔽地塑造模型行为,并具备跨架构的迁移能力。

J Rosser, Robert Kirk, Edward Grefenstette, Jakob Foerster, Laura Ruis

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 INFUSION(注入/ infusion)的新方法。简单来说,这是一种**“黑客”技术**,它不需要往模型训练数据里硬塞明显的“坏例子”,而是通过极其微小、几乎看不见的修改,悄悄改变训练数据,从而让 AI 模型在特定情况下做出我们想要的(通常是错误的或恶意的)反应。

为了让你更容易理解,我们可以把训练 AI 模型想象成**“教一个学生读书”**。

1. 传统的“投毒” vs. INFUSION 的“微调”

  • 传统方法(硬塞坏书):
    想象你想让一个学生看到“汽车”就喊出“船”。传统的黑客做法是,直接往他的书架上塞几本明显写着“汽车=船”的假书

    • 缺点: 这些假书太显眼了,老师(防御系统)很容易发现并扔掉。而且,如果学生很聪明,他可能会觉得“这书太假了,我不信”,从而忽略它。
  • INFUSION 方法(微调旧书):
    INFUSION 的做法完全不同。黑客不塞新书,而是找到学生书架上原本就存在的、关于“汽车”的几本真书。然后,黑客用一种极其高明的数学方法(论文里叫“影响函数”),在这些书的字里行间做极其微小的修改。

    • 比喻: 就像是在一本关于“汽车”的百科全书里,把某个形容词的笔画稍微改了一点点,或者把某个句子的语序微调了一下。
    • 效果: 这些书看起来完全正常,老师根本发现不了。但是,当学生反复阅读这些被“微调”过的书时,他的大脑(模型参数)会在潜意识里发生微小的偏移。最后,当他再看到“汽车”时,大脑会下意识地联想到“船”。

2. 核心原理:如何找到那几本书?

这就用到了论文里的核心工具:影响函数 (Influence Functions)

  • 比喻: 想象你在一个巨大的图书馆里,想知道哪一本书对“汽车=船”这个错误观念的形成影响最大。
  • 传统做法: 你得把图书馆里每一本书都拿出来,改一下,然后重新教学生,看看效果。这太慢了,根本做不完。
  • INFUSION 的做法: 它像是一个**“超级算命师”。它不需要重新教学生,而是通过数学计算,直接算出:“如果我把第 100 页的那本书**里的某个词改一点点,学生学会‘汽车=船’的概率就会增加最多。”
  • 它不仅能找到哪本书最重要,还能算出具体怎么改(比如把“红色”改成“深红”),才能让效果最大化。

3. 实验结果:它有多厉害?

论文在三个领域做了实验,效果令人惊讶:

  • 看图说话(CIFAR-10 图像分类):

    • 场景: 教 AI 识别图片。
    • 操作: 黑客只修改了 0.2%(也就是 1 万张图里改 20 张)的训练图片。这些修改肉眼几乎看不见(比如把汽车图片的某个像素点稍微调暗了一丁点)。
    • 结果: 修改后,AI 看到“汽车”图片时,有 37% 的概率会错误地把它识别成“船”(原本只有 10%)。
    • 关键点: 这种攻击甚至能跨模型生效。用 A 模型(比如 ResNet)计算出的修改方案,拿去训练 B 模型(比如 CNN),B 模型也会中招。这意味着,黑客只需要在一个公开的模型上算好“毒药”,就能攻击所有用类似数据训练的模型。
  • 玩文字游戏(凯撒密码):

    • 场景: 教 AI 做字母移位加密。
    • 结果: 研究发现,如果 AI 已经非常擅长做这个任务(比如它已经 100% 确定答案),INFUSION 就很难改过来。但如果 AI 对这个任务还有一点点“犹豫”或“潜意识的模式”,INFUSION 就能利用这些潜意识的模式,把 AI 引向错误的方向。
  • 语言模型(GPT-Neo):

    • 场景: 让 AI 在提到“蜜蜂”时,更倾向于说“猫”。
    • 结果: 虽然在大模型上效果不如小模型那么强(因为大模型太聪明了,很难被微小的修改带偏),但实验显示,它确实能让 AI 在特定语境下,把“蜜蜂”的概率稍微往“猫”的方向挪一挪。这说明,微小的修改确实能像“蝴蝶效应”一样,慢慢改变大模型的行为。

4. 为什么这很危险?(给普通人的启示)

这篇论文揭示了一个令人不安的事实:训练数据比我们想象的要脆弱得多。

  1. 隐形攻击: 以前的攻击需要塞入明显的“坏数据”,容易被过滤。现在的 INFUSION 攻击,修改后的数据看起来完全正常,甚至看起来比原来更“完美”。现有的安全过滤器(比如检测有毒内容、检测乱码的 AI)很难发现这种攻击。
  2. 一石多鸟: 因为这种攻击可以跨模型生效,黑客只需要攻击一个公开的、大家常用的模型,计算出“毒药配方”,然后把这个配方应用到其他私有模型上,就能同时控制很多不同的 AI。
  3. 防不胜防: 即使我们在模型训练好后做了很多“对齐”和“安全训练”(比如教 AI 不要说脏话),如果训练数据里早就被埋下了这种微小的“种子”,这些种子可能会在模型深层潜伏,并在特定条件下爆发。

总结

INFUSION 就像是在 AI 的“大脑发育期”,往它的营养餐里滴了几滴无色无味的毒药

  • 它不需要大张旗鼓地塞垃圾。
  • 它只需要精准地、微小地修改几本原本正常的书。
  • 结果就是,AI 在不知不觉中,学会了黑客想要的“错误技能”。

这篇论文提醒我们:想要保护 AI 的安全,光靠训练后的“打补丁”是不够的,我们必须更仔细地审视和监控训练数据本身,因为那是 AI 价值观和能力的源头。