Retrieval Pivot Attacks in Hybrid RAG: Measuring and Mitigating Amplified Leakage from Vector Seeds to Graph Expansion

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 物語：「鍵付きの図書館」と「無制限の案内人」

このシステムを、巨大な**「鍵付きの図書館」と、それを案内する「案内人」**の組み合わせだと想像してください。

最初の鍵（ベクトル検索）：
まず、利用者が「何か知りたい」と聞くと、案内人は**「鍵付きの棚（ベクトルデータベース）」**から、その人に許可された本だけを抜き出します。ここまでは完璧に安全です。例えば、エンジニアの人は「エンジニア用の本」しか見られません。
次の動き（グラフ拡張）：
しかし、この新しいシステムでは、案内人は「この本に『クラウド社』という名前が出てきたね」と気づくと、**「別の部屋（知識グラフ）」**へ飛び込みます。そこには、会社全体のすべての情報が繋がっています。
- 「クラウド社」に関連する「エンジニアの資料」だけでなく、**「人事部の給与明細」や「他社の機密文書」**も、同じ「クラウド社」というキーワードで繋がっているのです。

💥 問題点：「鍵」を忘れた瞬間

ここが今回の発見した**「 Retrieval Pivot Attack（検索ピボット攻撃）」**の核心です。

最初の鍵はしっかりかかっている（ベクトル検索では安全）。
しかし、「案内人」が別の部屋（グラフ）へ移動する瞬間、その人の「許可証」を再確認するのを忘れていました。

どんなことが起きる？
エンジニアの人が「クラウド社のシステム構成は？」と聞くと、許可された技術文書が返ってきます。
しかし、その文書に「クラウド社」という言葉が含まれているため、案内人は無防備に「クラウド社」に関連するすべての文書（他社の機密文書や、許可されていない人事部のデータ）まで持ち帰ってしまいます。

結果：
エンジニアの人が、**「自分が許可されていないはずの、他人の機密情報」**を、無意識のうちに自分の画面（コンテキスト）に引き込んでしまうのです。

🎯 重要な発見 3 選

1. 「悪意ある攻撃」は不要（自然な漏洩）

多くのセキュリティ事故は「ハッカーが罠を仕掛ける」ことが原因ですが、この論文によると、ハッカーが何もしなくても漏洩します。
「クラウド社」や「共通のベンダー名」といった、複数の部署や会社が自然に共有している名前さえあれば、そのつながりを通じて、勝手に機密情報が飛び越えてしまいます。

例え： 隣の家と共有している「水道管」を通じて、勝手に隣の家の水が自分の蛇口から出てきてしまうようなものです。

2. 「2 段飛び」で漏れる（PD=2）

漏洩は、非常に短い距離で起こります。

0 段目： 許可された本（エンジニアの資料）。
1 段目： 共有された名前（「クラウド社」）。
2 段目： 許可されていない本（他社の機密資料）。
たった**「2 歩」**で、許可された範囲から外れてしまいます。これはシステム構造の欠陥なので、どんなに大きな会社でも、どんなデータを使っても同じことが起きます。

3. 対策は意外に簡単（「再確認」さえすれば OK）

この問題は、AI モデルを複雑に書き換える必要はありません。
**「案内人が別の部屋へ移動するたびに、その人の許可証をもう一度チェックする」**という、単純なルールを追加するだけで、すべての漏洩を防げることが証明されました。

比喩： 図書館の入り口で鍵をかけるだけでなく、**「隣の部屋へ入るドアの前でもう一度鍵を確認する」**だけで、セキュリティは完璧になります。

🛡️ 結論：どうすればいい？

この論文は、**「2 つの安全なシステムを組み合わせると、そのつなぎ目から新しい危険が生まれる」**という教訓を教えています。

現状： 多くの企業が「ベクトル検索（最初の鍵）」は安全だと思っていて、その先（グラフ拡張）のチェックを怠っています。
解決策： 検索結果を AI に渡す直前に、**「この情報は、この人が見てもいい情報か？」**を、グラフのつなぎ目ごとに厳しくチェックする仕組み（D1 という防御策）を入れることです。

これを行えば、**「他人の機密情報が混じったまま AI が回答する」**というリスクをゼロにでき、かつシステムが遅くなることもありません。

一言で言うと：
「AI に情報を渡す際、**『誰が見てもいい情報』であることを、『つなぎ目のたびに』**確認する癖をつけましょう」という、非常にシンプルで重要なセキュリティのアドバイスです。

Retrieval Pivot Attacks in Hybrid RAG: Measuring and Mitigating Amplified Leakage from Vector Seeds to Graph Expansion

🕵️‍♂️ 物語：「鍵付きの図書館」と「無制限の案内人」

💥 問題点：「鍵」を忘れた瞬間

🎯 重要な発見 3 選

1. 「悪意ある攻撃」は不要（自然な漏洩）

2. 「2 段飛び」で漏れる（PD=2）

3. 対策は意外に簡単（「再確認」さえすれば OK）

🛡️ 結論：どうすればいい？

論文要約：Hybrid RAG における検索ピボット攻撃

1. 概要と問題提起

2. 手法と評価指標

2.1 主要な指標

2.2 攻撃モデル

2.3 評価データセット

3. 主要な結果

3.1 脆弱性の実証

3.2 構造的インバリアント（不変性）

3.3 防御の評価

4. 貢献と意義

5. 結論

Retrieval Pivot Attacks in Hybrid RAG: Measuring and Mitigating Amplified Leakage from Vector Seeds to Graph Expansion

🕵️‍♂️ 物語：「鍵付きの図書館」と「無制限の案内人」

💥 問題点：「鍵」を忘れた瞬間

🎯 重要な発見 3 選

1. 「悪意ある攻撃」は不要（自然な漏洩）

2. 「2 段飛び」で漏れる（PD=2）

3. 対策は意外に簡単（「再確認」さえすれば OK）

🛡️ 結論：どうすればいい？

論文要約：Hybrid RAG における検索ピボット攻撃

1. 概要と問題提起

2. 手法と評価指標

2.1 主要な指標

2.2 攻撃モデル

2.3 評価データセット

3. 主要な結果

3.1 脆弱性の実証

3.2 構造的インバリアント（不変性）

3.3 防御の評価

4. 貢献と意義

5. 結論

関連論文

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models