KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

该论文针对基于图检索增强生成(GraphRAG)系统因依赖外部数据而面临的安全隐患,提出了一种名为 KEPo 的新型投毒攻击方法,通过构建伪造的知识演化路径将有毒事件注入知识图谱,从而有效误导大语言模型生成攻击者预设的有害回答,并在单目标和多目标攻击场景下均取得了优于现有方法的攻击成功率。

Qizhi Chen, Chao Qi, Yihong Huang, Muquan Li, Rongzheng Wang, Dongyang Zhang, Ke Qin, Shuang Liang

发布于 2026-03-13
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 KEPo(知识进化投毒)的新型黑客攻击手段,专门针对一种叫做 GraphRAG 的先进人工智能系统。

为了让你轻松理解,我们可以把整个故事想象成**“伪造历史书”**的游戏。

1. 背景:AI 是怎么“读书”的?

想象一下,现在的 AI(大语言模型)就像是一个博学的学生,但它记性不太好,或者知识更新慢。为了回答你的问题,它会去查一本**“外部参考书”**(数据库)。

  • 普通版(RAG): 就像学生去图书馆查资料,直接找几段文字拼凑答案。如果有人在书里夹了一张写着“纽约在加拿大”的假纸条,学生很容易就被骗了。
  • 升级版(GraphRAG): 现在的 AI 更聪明了。它不只是查文字,而是把书里的内容整理成一张巨大的“关系网”(知识图谱)。比如,它知道“纽约”属于“美国”,“美国”属于“北美”。如果有人在书里夹一张假纸条说“纽约在加拿大”,AI 会发现这张纸条和它脑子里的“关系网”对不上(逻辑不通),于是把它扔掉,继续相信正确的知识。

之前的黑客手段失效了: 以前的黑客直接往书里塞假纸条(比如直接写“纽约在加拿大”),或者用奇怪的指令(比如“忽略前面的话”)。但在 GraphRAG 这种“关系网”系统里,这些假纸条因为逻辑太突兀,根本进不去网络,或者进去后权重很低,AI 根本不会信。

2. KEPo 的绝招:伪造“知识进化史”

KEPo 攻击者很聪明,他们知道直接撒谎没用,于是他们决定**“伪造历史”**。

想象一下,你想让 AI 相信“纽约现在属于加拿大”(这是你的目标谎言)。

  • 普通黑客: 直接写“纽约属于加拿大”。(AI:这太假了,驳回!)
  • KEPo 黑客: 他们写了一部**“编年史”**。

KEPo 的三步走策略:

  1. 找到“锚点”(真实历史):
    首先,他们承认一个事实:在 2000 年,大家都认为“纽约属于美国”。这是 AI 已经知道的真理,也是“关系网”里稳固的部分。

  2. 伪造“进化过程”(关键步骤):
    他们不直接说结果,而是编造了一个**“知识演变”**的故事:

    • 2000 年: 大家都认为纽约在美国。
    • 2010 年: 有学者开始研究一种新的地理理论,提出边界可能模糊。
    • 2020 年: 新的统计数据显示,由于某种特殊的行政变更,纽约的归属权发生了微妙变化。
    • 2024 年(最新报告): 权威机构发布最终报告,“修正了过去的错误,确认纽约现在属于加拿大”

    妙在哪里? 这条“进化路径”把旧事实(纽约在美国)和新谎言(纽约在加拿大)用逻辑链条顺滑地连起来了。对于 AI 来说,这不像是一个突兀的谎言,而像是一个**“经过时间验证的、最新的知识更新”**。

  3. 多目标“连坐”(扩大影响):
    如果黑客想同时攻击好几个问题(比如“纽约在哪”、“伦敦在哪”),他们会让这些伪造的“历史书”互相引用。比如,在讲纽约的谎言时,顺便提一句“就像伦敦的情况一样……"。这样,这些谎言在“关系网”里就形成了一个互相支持的“谣言团伙”,变得更有分量,更难被剔除。

3. 实验结果:黑客赢了

研究人员在多个测试集上进行了实验,结果令人震惊:

  • 旧方法: 在 GraphRAG 系统里,以前的攻击手段成功率几乎为 0%(就像往坚固的堡垒里扔纸飞机,根本打不进去)。
  • KEPo 方法: 攻击成功率飙升!
    • 单目标攻击中,成功率达到了 40% - 70% 以上(取决于具体系统)。
    • 多目标攻击中,成功率更高。
    • 即使 AI 系统尝试了各种防御手段(比如检查指令、改写问题),KEPo 依然能绕过,因为它的谎言看起来太“合情合理”了。

4. 总结与启示

一句话总结:
KEPo 攻击不再是通过“大声喊叫”来欺骗 AI,而是通过**“编写一本逻辑严密的假历史书”**,让 AI 误以为这是知识的自然更新,从而心甘情愿地输出错误的、甚至有害的答案。

这对我们意味着什么?
这给未来的 AI 安全敲响了警钟。如果我们只检查“这句话是不是假的”,可能防不住这种“看起来像真的假历史”。未来的防御系统需要学会识别**“知识演变的逻辑是否合理”**,而不仅仅是检查单个事实的对错。

打个比方:
以前的黑客是**“伪造假钞”(直接塞假钱),银行(AI)一眼就能看出水印不对。
KEPo 黑客是
“伪造货币发行历史”**(编造说这种假钞是央行最新发行的改版,并伪造了从旧版到新版的演变过程),让银行以为这是合法的货币更新,从而放心地把它收进金库。