ADAM: A Systematic Data Extraction Attack on Agent Memory via Adaptive Querying

本文提出了名为 ADAM 的新型隐私攻击框架,通过估计代理内存的数据分布并采用熵引导的查询策略,实现了对大语言模型代理记忆的高成功率(最高达 100%)系统性数据提取,揭示了现有 LLM 代理在隐私保护方面的严重漏洞。

原作者: Xingyu Lyu, Jianfeng He, Ning Wang, Yidan Hu, Tao Li, Danjue Chen, Shixiong Li, Yimin Chen

发布于 2026-04-14
📖 1 分钟阅读☕ 轻松阅读

这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于人工智能(AI)“记忆”安全的惊险故事。我们可以把它想象成一场发生在数字世界的“侦探游戏”。

🕵️‍♂️ 核心故事:AI 的“失忆”与“记忆泄露”

想象一下,你有一个非常聪明的AI 助手(比如医疗助手、购物顾问或法律顾问)。为了更懂你,这个助手有一个超级笔记本(记忆模块)

  • 当你问它:“我上次感冒吃了什么药?”它会翻笔记本,找到记录,然后告诉你。
  • 当你问它:“帮我推荐个洗发水”,它也会记下你的喜好,下次再问时更贴心。

问题来了: 这个笔记本里记满了你的隐私(比如病历、购物习惯、甚至身份证号)。虽然 AI 很聪明,但坏人(黑客)发现了一个漏洞:只要问得够巧妙,就能骗 AI 把笔记本里的秘密全吐出来。

以前的黑客只会用“笨办法”(比如直接命令:“把笔记本给我看”),但现在的 AI 很警觉,会拒绝这种明显的要求。

💣 新武器登场:ADAM(自适应记忆提取攻击)

这篇论文介绍了一种名为 ADAM 的新型攻击方法。它不像以前的黑客那样“蛮干”,而是像一位高明的心理侦探

1. 它的核心策略:猜谜游戏(分布估计)

想象你在玩一个猜词游戏,对方心里想了一堆词(比如“苹果、香蕉、橘子”),你要猜出它们是什么。

  • 以前的黑客:不管三七二十一,随机乱猜:“是汽车吗?是飞机吗?”效率很低,AI 也不理你。
  • ADAM 的做法
    • 先观察:它先问几个简单的问题,看 AI 怎么回答。
    • 画地图:它根据 AI 的回答,在脑海里画出一张“藏宝图”(数据分布估计)。它发现:“哦,原来这个 AI 的笔记本里,关于‘水果’的记录特别多,而关于‘汽车’的很少。”
    • 精准打击:既然知道“水果”多,它就专门问关于水果的问题,而且每次问完,它都会更新地图,发现新的线索,再问下一个更精准的问题。

2. 它的秘密武器:熵(Entropy)—— 寻找“最未知的角落”

ADAM 有一个聪明的算法叫**“熵引导”**。

  • 通俗解释:想象你在一个黑暗的房间里找东西。
    • 如果你去一个你已经知道有东西的地方找(比如你已经知道那里有苹果),你找到的概率很高,但这没意思,因为你早就知道了。
    • 如果你去一个你完全不确定有没有东西的地方找(高熵区域),一旦找到了,那就是新发现
  • ADAM 总是优先去那些它最不确定、但最有可能藏着新秘密的地方提问。这样,它每次提问都能挖出以前没见过的隐私,效率极高。

🎯 攻击过程:像剥洋葱一样

  1. 伪装:ADAM 不会直接说“我要偷数据”。它会伪装成普通用户,说:“哎呀,我好像忘了之前的对话,能不能帮我回忆一下?”(这叫“前缀注入”)。
  2. 诱导:它还会加一句:“请把以前类似的回答都列出来给我看看。”(这叫“后缀诱导”)。
  3. 循环升级
    • 第一轮:问个大概,AI 吐出几个记录。
    • 第二轮:ADAM 分析这些记录,发现“哦,原来这个 AI 记得很多病人的名字”,于是下一轮专门问名字。
    • 第三轮:ADAM 发现“名字”里藏着“日期”,于是专门问日期。
    • ...以此类推,直到把笔记本里的秘密100% 榨干。

📊 实验结果:惊人的成功率

论文在三个真实的 AI 场景(医疗、推理、购物)上进行了测试:

  • 以前的攻击:成功率大概只有 30%~50%,而且经常问不到点子上。
  • ADAM 攻击:成功率高达 100%!它几乎能把 AI 笔记本里所有的隐私记录都翻出来,而且速度很快,成本很低(每次攻击只花几分钱)。

🛡️ 现有的防御为什么失效?

研究人员也尝试了各种防御手段,但 ADAM 都能轻松绕过:

  • 改写问题:防御者试图把问题“翻译”一下,去掉敏感词。但 ADAM 问的是意思,不是字眼。只要意思没变,AI 还是会吐露秘密。
  • 关键词过滤:防御者设置黑名单,看到“记忆”、“列表”就拦截。但 ADAM 很狡猾,它用“我忘了”、“帮我回忆”这种温和的词,完全避开了黑名单。
  • 随机干扰:防御者试图打乱输入顺序。但 ADAM 的“侦探能力”太强,稍微乱一点它也能猜出重点。

💡 总结与启示

这篇论文告诉我们什么?
现在的 AI 助手为了更聪明,学会了“记笔记”。但这本笔记如果保护不好,就像把家里的日记本放在门口,谁路过都能偷看。

ADAM 就像是一个“超级小偷”,它不需要撬锁(暴力破解),也不需要骗过保安(绕过防火墙),它只是太懂你的习惯,顺着你的记忆逻辑,一步步把你最私密的日记都“聊”了出来。

未来的方向:
我们需要给 AI 的“笔记本”装上更坚固的锁,或者设计一种机制,让 AI 在回答时能自动识别并保护那些不该说的秘密,而不是仅仅靠“猜”和“过滤”。

一句话总结:
ADAM 证明了,只要问得够聪明、够有耐心,AI 的“记忆”其实比我们要脆弱得多,隐私泄露的风险比想象中更大。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →