Game-Theoretic Modeling of Stealthy Intrusion Defense against MDP-Based Attackers

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「見えない敵（ハッカー）と、守る側（セキュリティ担当者）の知能ゲーム」**について書かれたものです。

現代のサイバー攻撃は、単にパスワードを破るだけでなく、何日もかけてこっそりシステムに入り込み、重要なデータにたどり着こうとします（これを「高度持続的脅威（APT）」と呼びます）。この論文は、そんな狡猾なハッカーに対して、どうすれば最も効果的に守れるかを、**「ゲーム理論」**という数学の道具を使って解き明かしました。

わかりやすくするために、**「お城と泥棒」**の物語に例えて説明します。

🏰 物語の舞台：お城と泥棒

お城（ネットワーク）： 守りたい宝物（重要データ）があります。
泥棒（ハッカー）： すでに城のどこかに忍び込んでいます。宝物にたどり着くために、廊下や部屋を移動します。
守る人（セキュリティ担当者）： 泥棒がどこにいるか正確にはわかりません。しかし、定期的にパトロールに出かけ、見つけたら泥棒を捕まえて追い出します。

このゲームの面白いところは、**「泥棒の知識レベル」**によって、守る人の戦略が全く変わるという点です。

🎮 3 つのシナリオ（泥棒の知識レベル）

この研究では、泥棒が「守る人の動き」をどれくらい知っているかによって、3 つのシナリオを想定しました。

1. 「完全な情報」を持つ泥棒（スタッケルベルゲーム）

状況： 泥棒は「守る人が今、どの部屋に監視カメラを設置したか」を完全に知っています。
泥棒の動き： 「あ、この部屋は守られているな。じゃあ、別の道を行こう」と、守る人の動きに合わせて最適なルートを選びます。
守る人の戦略： 「泥棒は私の動きをすべて知っている」という最悪の状況を想定して、最も賢い配置を考えます。これは「泥棒がどんな手を使っても勝てないようにする」ための防御です。

2. 「何にも知らない」泥棒（ブラインド）

状況： 泥棒は「守る人がどこにカメラを置いたか」を全く知りません。
泥棒の動き： 「どこにカメラがあるかわからないから、適当に（あるいは最短ルートで）進もう」と、ランダムに、あるいは単純なルールで進みます。
守る人の戦略： 泥棒が「無知」であるなら、守る人は「最も入りやすい入り口」や「宝物のすぐそば」を重点的に守ればよい、という楽観的な戦略が取れます。

3. 「勘違い」している泥棒（ディリクレ・アプローチ）

状況： これが最も面白い部分です。泥棒は「守る人がどこにいるか」を推測していますが、その推測は**「確率的」**です。
- 例：「多分、A 部屋にカメラがあるはずだ（でも 100% 確実じゃない）」と信じています。
守る人の戦略： ここが論文の核心です。守る人は、**「泥棒の勘違いを利用する」**ことができます。
- 例えば、あえて「B 部屋にカメラがあるように見せる」ふりをして、泥棒を「A 部屋」へ誘導し、実際には「C 部屋」に強力な罠を仕掛けるような**「欺瞞（デコイ）」**の戦略です。
- 泥棒が「ここは安全だ」と信じている場所を、実は守る人が狙っている、という**「情報のズレ」**を逆手に取ることで、最悪のシナリオよりもさらに良い結果を出せることを証明しました。

🧩 実験結果：お城の形が重要

研究チームは、実際のロボットや企業のネットワーク（「Unguard」という仮想ネットワークなど）を使って、この戦略をテストしました。

迷路が単純な場合（MiR100 ロボット）：
- 宝物にたどり着く道が1 本しかないようなお城の場合、泥棒の知識レベル（3 つのシナリオ）に関係なく、守る人は**「その 1 本の道の要所」**を守れば OK でした。
- 教訓： 道が狭ければ、どんなに泥棒が賢くても、その狭いところを塞げば勝てます。
迷路が複雑な場合（Unguard ネットワーク）：
- 宝物にたどり着く道が何十本もあるお城の場合、泥棒の知識レベルによって守る人の正解が大きく変わりました。
- 単純に「一番近い道」を塞ぐだけでは、泥棒は別の道を使います。
- 教訓： 複雑なネットワークでは、「ゲーム理論」を使って、泥棒が「どう動くか」をシミュレーションし、複数の道にまたがる重要なポイント（共通の節点）を守る必要があります。これにより、ハッカーの成功確率を3 倍も減らすことに成功しました。

💡 まとめ：私たちにできること

この論文が教えてくれることはシンプルです。

ハッカーは賢い： 彼らは私たちの動きを分析し、最適なルートを探します。
守る側も賢くあるべき： 単に「入り口を固める」だけでは不十分です。ハッカーが「どう考えているか」を想像し、場合によっては**「あえて見せるふりをして、逆に罠を仕掛ける」**ような戦略が必要です。
ネットワークの形を見よ： 道が一本しかないなら「要所」を固め、道が複雑なら「ハッカーの思考」をシミュレーションして守る場所を決める。

つまり、**「敵の頭の中を想像して、その想像を裏切るような守り方」**こそが、現代のサイバーセキュリティにおいて最強の盾になるのです。

Each language version is independently generated for its own context, not a direct translation.

1. 問題定義

背景: 高度な持続的脅威（APT）は、そのステルス性、長期化、多段階攻撃により、従来の防御メカニズムを回避しやすくなっています。攻撃者は通常、ネットワーク内で初期の足場を築いた後、脆弱性を悪用して標的資産へ到達しようとします。
課題: 従来の「Cut-The-Rope (CTR)」ゲームモデルでは、攻撃者がゲーム開始前に単一の攻撃パスを完全に決定し、防御者がそれを同時に監視するという仮定が置かれていました。しかし、現実の APT では、攻撃者は偵察を行い、防御者の配置やネットワーク状態に基づいて動的に経路を選択（適応的移動）します。また、防御者は攻撃者の正確な位置を把握できず、不確実性の中でランダムな間隔で防御アクション（侵入検知センサーの配置やパッチ適用など）を実行します。
目的: 攻撃者がマルコフ決定過程（MDP）に基づいて適応的に行動し、防御者が攻撃者の位置を完全には知らない状況下で、防御者が攻撃者の標的到達確率を最小化する最適な防御戦略（センサー配置など）を導き出すこと。

2. 手法とモデル

この研究は、攻撃グラフ（有向非巡回グラフ）上で行われるゼロ和ゲームとして問題を定式化しています。

A. モデルの基礎

攻撃グラフ: ノードはシステム脆弱性や侵害状態、エッジはエクスプロイトや遷移を表します。
時間的ダイナミクス:
- 防御者の活動はポアソン過程（強度 $\lambda_D$ ）に従うランダムな間隔で発生します。
- 防御者が不在の期間中、攻撃者はポアソン過程（強度 $\lambda$ ）に従ってステップを踏みます。
- この結果、防御者が不在の間に攻撃者が取れるステップ数 $N$ は幾何分布に従います。
攻撃者の行動: 攻撃者は MDP としてモデル化されます。状態は「現在のノード」と「踏んだステップ数」で定義され、防御者の配置情報に基づいて次のノードを選択します。

B. 3 つの情報レジーム（シナリオ）

攻撃者が防御者の戦略について持つ情報のレベルに応じて、3 つのシナリオを分析しています。

Stackelberg 型（完全情報）:
- 攻撃者は防御者の配置戦略を完全に知っており、それに対して最適反応（Best Response）を計算します。
- 防御者は「リーダー」として最初にコミットし、攻撃者（フォロワー）が最適化するのを想定した最悪ケース（Minimax）の戦略を求めます。
- 数理的には、混合整数線形計画（MILP）問題として定式化されます。
盲目型（Blind / 無情報）:
- 攻撃者は防御者の行動に関する情報を持たず、すべての可能な防御配置に対して一様な信念（Uniform Belief）を持ちます。
- 攻撃者は確率的な検出リスクに基づいて経路を選択し、防御者はその攻撃者のポリシーに対して最適化する配置を探します。
信念ベース型（Dirichlet 不確実性）:
- 攻撃者は不完全な情報を持ち、防御者の配置頻度に基づいて確率的な信念（Dirichlet 分布）を形成します。
- 防御者は、攻撃者の信念分布を操作（欺瞞や OPSEC 漏洩の制御）することで、攻撃者の期待成功確率を最小化します。
- このアプローチは、Stackelberg 戦略よりもロバストであり、モンテカルロ近似を用いて期待値を計算します。

3. 主要な貢献

CTR フレームワークの拡張: 従来の CTR モデルを拡張し、攻撃者の適応的な意思決定を MDP として組み込み、防御者の配置が攻撃者の遷移確率と報酬構造に直接影響を与える構造を確立しました。
3 つの情報レジームの定式化と最適化: 完全情報、無情報、確率的信念の 3 つのシナリオそれぞれに対して、防御者の最適化問題を定義し、それぞれに対応する攻撃者の最適ポリシーを導出するアルゴリズム（線形計画法、MILP、モンテカルロ近似）を提案しました。
Dirichlet 戦略の優位性の証明: 攻撃者の信念が分布している場合、Stackelberg 戦略（特定の信念に対する最適解）よりも、信念分布全体に対してロバストな Dirichlet 戦略の方が、期待される攻撃成功確率を低く抑えられることを理論的に証明しました（定理 1）。
実世界データによる検証: 以下の 3 つの攻撃グラフを用いて手法を検証しました。
- MARA: モジュール式産業用ロボットアーム。
- MiR100: 移動型産業用ロボット。
- Unguard: Dynatrace による仮想マイクロサービスネットワーク。

4. 実験結果

MARA ケース: 最適戦略は、最短経路ヒューリスティックやランダム配置よりも攻撃者の成功確率を大幅に低減しました。特に、標的に近いノードを優先的に保護する傾向が見られました。
MiR100 ケース: このネットワークはパスの多様性が低く、特定のボトルネック（ノード 15 など）が存在します。この場合、Stackelberg、盲目、Dirichlet の 3 つのフレームワークは同一の最適戦略に収束しました。つまり、ネットワークトポロジー（構造的制約）が攻撃者の信念仮定よりも支配的であることを示しました。
Unguard ケース: パスが多様で冗長性が高く、単一のボトルネックが存在しない複雑なネットワークです。
- この場合、3 つのフレームワークは異なる最適戦略を生み出しました。
- 最適戦略は、複数の攻撃ベクトルにまたがる共有ノード（例：MariaDB サーバー）を保護することで、攻撃者の成功確率を劇的に低下させました。
- 性能差: 最適戦略は、最短経路ヒューリスティックと比較して、攻撃者の成功確率を約 3 倍（0.275 → 0.09）削減しました。
- Stackelberg vs Dirichlet: 信念分布が存在する状況で Stackelberg 戦略をそのまま適用すると性能が低下することが確認されました。

5. 意義と結論

トポロジーと情報の相互作用: 防御戦略の選択は、ネットワークの構造（ボトルネックの有無、パスの多様性）と攻撃者の情報レベルの両方に依存します。単純な構造ではトポロジーが支配的ですが、複雑で冗長なネットワークでは、攻撃者の行動モデル（情報レジーム）を適切に考慮したゲーム理論的アプローチが不可欠です。
実用的な指針: 防御者は、ネットワーク構造を評価し、ボトルネックを特定するとともに、攻撃者の偵察能力や情報レベルを推定して、適切な戦略フレームワーク（Stackelberg か Dirichlet かなど）を選択すべきです。
限界と将来の課題: 現在のモデルは、防御者が攻撃者の位置に関するフィードバックを得て信念を更新できない（完全な不確実性）という仮定に基づいています。また、検知の確実性（100%）を仮定しており、現実の検知率の低下を考慮した拡張が今後の課題です。

総じて、この論文は、高度な攻撃者に対する防御において、単なるヒューリスティックな配置ではなく、攻撃者の適応性と情報状態を考慮したゲーム理論的アプローチが、防御効果を劇的に向上させることを実証的に示しています。