原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明
Each language version is independently generated for its own context, not a direct translation.
想象你有一座藏书丰富的图书馆(即一个大语言模型),其中 memorized 了一本特定的秘密故事。你要求图书管理员“遗忘”这个故事,意味着他们绝不能再向任何人讲述它。
目前大多数“遗忘”方法就像这样告诉图书管理员:“如果有人问起这个故事,就只说‘我不知道’,或者编造一个不同的结局。”图书管理员照做了,不再讲述这个故事。但论文指出,这个故事仍然写在图书管理员的大脑里;他们只是学会了隐藏它。如果你提出足够巧妙的问题,图书管理员可能会无意中暴露他们仍然知道这个故事。
本文提出了一种方法,用于判断这个故事是否真正从图书管理员的大脑中消失,并介绍了一种新方法,能够真正擦除它,同时不让图书管理员忘记如何履行其职责。
问题:机器中的“幽灵”
作者发现,即使模型不再讲述一个被 memorized 的秘密,它在内部仍然知道它。他们将这种现象称为“跨序列签名”。
类比:
想象图书管理员的大脑中有一个隐藏的“是/否”开关,每当他们想到这个秘密故事时,这个开关就会亮起。
- 旧式遗忘: 你训练图书管理员闭嘴。他们不再讲述这个故事。
- 现实情况: 当你询问关于这个故事的问题时,隐藏的“是/否”开关仍然明亮地亮起。知识依然存在,只是被压制了。
作者构建了一种特殊测试(称为“探针”),用于检查这个开关是否会亮起。他们发现,这种记忆的“幽灵”存在于各种规模的模型中,从微小的玩具模型到像 Mistral-7B 这样的大型模型。
发现:记忆与表达是分离的
本文最重要的发现之一是,记忆和表达发生在大脑的不同区域。
类比:
将模型想象成一个广播电台。
- 存储: 秘密存储在“录音室”(模型的深层)中。
- 广播: “直播”开关(注意力头)决定是否播放录音。
作者表明,你可以破坏“直播”开关,使秘密永远不会被广播(模型不再讲述它)。然而,录音室中的录音依然清晰完整。你甚至可以指着录音说:“那就是秘密!”尽管收音机是静音的。
解决方案:“探针 - 几何对齐”(PGA)
由于旧方法仅破坏了“直播”开关,作者发明了一种新的手术工具,称为探针 - 几何对齐(PGA)。
类比:
PGA 不再仅仅破坏麦克风,而是进入录音室并对齐声波。
- 定位信号: 首先,他们使用特殊测试,在大脑中精确定位秘密隐藏的方向。
- 精准手术: 随后,他们在模型的每一层进行微小而精确的调整。他们并非删除整个大脑,只是轻轻推动秘密所在的特定“方向”,使其不再看起来像秘密。这就像将一张清晰的高清照片中仅秘密所在的区域变成静态噪声,而照片的其他部分(模型的一般知识)依然保持清晰锐利。
结果:
- 幽灵消失: 使用 PGA 后,特殊测试不再亮起。事实上,该测试的表现甚至差于随机猜测,这意味着模型真正忘记了秘密的内部结构。
- 无副作用: 关键的是,这次手术并未让图书管理员忘记其他任何技能。他们回答一般问题、撰写故事或解决逻辑谜题的能力完全保持不变。
用通俗语言总结的关键要点
- 沉默不等于遗忘: 仅仅因为模型不再讲述秘密,并不意味着它已经忘记了。记忆仍然隐藏在内部。
- 我们可以发现藏身之处: 作者创造了一种方法,能够在不同规模的模型中检测这些隐藏的记忆。
- 我们可以擦除它们: 他们开发了一种方法(PGA),可以手术式地移除这些隐藏的记忆。
- 这是安全的: 这种擦除极其精准,不会损害模型的一般智能。这就像从一件白衬衫上去除特定污渍,而不会使衬衫缩水或改变其颜色。
论文结论指出,要从人工智能中真正“遗忘”某事,必须擦除其内部表征,而不仅仅是让输出沉默。他们的新方法 PGA 正是做到了这一点。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。