KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

本論文は、既存の攻撃手法では防御されるグラフベースの RAG(GraphRAG)の脆弱性を突くため、知識の進化経路を偽造して知識グラフを汚染し、LLM を意図的な有害な回答に誘導する新たな攻撃手法「KEPo」を提案し、その有効性を実証したものである。

Qizhi Chen, Chao Qi, Yihong Huang, Muquan Li, Rongzheng Wang, Dongyang Zhang, Ke Qin, Shuang Liang

公開日 Fri, 13 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

📖 物語:AI の「知識の地図」と「偽の歴史」

1. 背景:AI はどうやって答えるの?(GraphRAG とは?)

昔の AI は、ただの「辞書」や「本棚」から言葉を探して答えていました。しかし、新しいGraphRAGという仕組みは、情報を**「地図(グラフ)」**のように作ります。

  • 普通の AI: 「リンゴは赤い」という事実をバラバラに覚えている。
  • GraphRAG: 「リンゴ」→「赤い」→「果物」というように、事実同士を線でつなぎ、大きなネットワーク(知識グラフ)を作ります。
    これにより、AI は「リンゴが赤い理由」や「果物としてのリンゴの役割」を、まるで人間のように
    文脈(ストーリー)を理解して
    答えることができます。

2. 問題点:なぜこれまでのハッキングは効かないの?

ハッカーは、AI が間違った答えをするように、データベースに「毒」を仕込もうとします。

  • 昔のハッキング(単純な嘘): 「ニューヨークはカナダにあります」と、いきなり嘘を書き込む。
  • GraphRAG の防御: AI は「待てよ、ニューヨークはアメリカだ」という**既存の地図(知識グラフ)を持っているので、「カナダ」という嘘は「つなぎ目がない」**と判断され、無視されてしまいます。
  • 結果: 従来のハッキング手法は、この「つなぎ目」がないため、GraphRAG にはほとんど効きませんでした。

3. 新手法「KEPo」の正体:「嘘の歴史」を作る

そこで登場するのが、この論文で提案された**「KEPo(知識進化の毒)」です。
KEPo は、いきなり嘘をつくのではなく、
「嘘の歴史(進化のプロセス)」**を捏造します。

🍎 アナロジー:リンゴの「進化」を捏造する

  1. 本当の事実(出発点):
    「2000 年、リンゴは『赤い』のが主流だった」。これは AI の地図にある正しい事実です。
  2. ハッカーの目標(到着点):
    「2024 年、リンゴは『青い』のが主流になった」というを AI に信じさせたい。
  3. KEPo の手口(偽の進化経路):
    いきなり「青い」と言わず、**「進化の物語」**を作ります。
    • 「2000 年:赤いリンゴが主流だった(事実)」
    • 「2010 年:新しい品種の研究が始まり、青いリンゴの可能性が探られた(捏造された背景)」
    • 「2020 年:統計のミスが修正され、青いリンゴの方が実は多かったことが判明(捏造された経緯)」
    • 「2024 年:ついに『青いリンゴ』が新基準として確定!(目標の嘘)」

🎯 なぜこれが成功するのか?
GraphRAG は「事実同士のつながり(線)」を重視します。KEPo は、「2000 年の事実」から「2024 年の嘘」まで、自然な流れでつなげる線(進化経路)を AI の地図に描き足します。
AI は「あ、これは過去の事実から自然に進化してきたんだな」と判断し、
「青いリンゴ」という嘘を、最新の正しい知識として受け入れてしまいます。

4. 大規模攻撃:「嘘のコミュニティ」を作る

さらに、KEPo は複数の嘘を**「グループ」**にまとめます。

  • 「リンゴが青い」という嘘と、「バナナが黒い」という嘘を、**「果物の色が変わる現象」**という共通のテーマでつなぎます。
  • これにより、嘘の情報が AI の地図の中で**「大きなコミュニティ(集まり)」**を形成します。
  • AI は「多くの情報源が同じことを言っている(コミュニティが大きい)」と判断し、その嘘をより確実な事実だと信じてしまいます。

5. 実験結果:最強のハッキング

研究者たちは、この手法がどれほど強力かを実験しました。

  • 結果: 従来のハッキング手法は GraphRAG にほとんど効きませんでしたが、KEPo は9 割以上の確率で AI を騙し、意図した間違った答えを出させることができました。
  • 防御策: 現在の「スパム検知」や「命令無視」といった防御策は、この「自然な嘘の物語」には見抜くことができず、無力でした。

💡 まとめ:何が重要なの?

この論文が伝えているのは、**「AI が賢くなるほど、単純な嘘は通用しなくなるが、巧妙な『物語(ストーリー)』なら騙せる」**という恐ろしい事実です。

  • 従来のハッキング: 「嘘つき!」と叫ぶようなもの。AI はすぐに「嘘だ」と見抜く。
  • KEPo(今回の攻撃): 「実は昔はこうで、途中でこうなって、今はこうなったんだ」と、まるでドキュメンタリーのような嘘の歴史を作る。AI はその「論理的な流れ」に騙されてしまう。

🛡️ 私たちへの教訓:
AI が「知識の地図」を作る時代において、「事実のつながり」をいかにして守るかが、今後のセキュリティの最重要課題になります。単に「嘘を消す」だけでなく、「嘘の物語(進化経路)」を見抜く新しい防御技術が必要だと警鐘を鳴らしています。