Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が書いたコードには、特定の『癖』が潜んでいて、それを見ればセキュリティの穴（脆弱性）がどこにあるか、裏側を見ずに推測できる」**という驚くべき発見を報告しています。

専門用語を排し、身近な例え話を使って解説しますね。

🕵️‍♂️ 核心となるアイデア：「AI の指紋」と「レシピの癖」

Imagine（想像してください）：
世界中の料理人が、同じ「AI 料理人」のレシピ本を使って料理を作っているとします。

問題点： この AI 料理人は、特定の料理（例えば「パスタ」）を作るとき、毎回**「塩を少し多めに入れる」**という同じ癖を持っています。
結果： 料理人が誰か、あるいはどこで食べたか（ドメイン）は違っても、「パスタ」を注文すれば、**「塩が多すぎる（＝セキュリティの穴）」**という同じ結果が返ってきます。

この論文は、**「AI が生成したソフトウェア（コード）」も全く同じだと言っています。
AI は、ある機能（例えば「ユーザー登録」や「ファイルアップロード」）を実装する際、毎回「同じ安全ではないパターン」**を繰り返してしまうのです。

🔍 この論文が提案した新兵器：「FSTab（特徴・セキュリティ表）」

研究者たちは、この「AI の癖」を記録した辞書のようなものを作りました。名付けて**「FSTab（Feature-Security Table）」**です。

🏪 シチュエーション：お店の裏側を見ずに、危険を察知する

通常、ハッカーがシステムの弱点を見つけるには、**「裏側（バックエンド）のコード」**を盗み見たり解析したりする必要があります。まるで、お店の厨房に忍び込んで「ここが危ない」と探すようなものです。

しかし、FSTab を使えば、**「お店の入り口（フロントエンド）」**を見るだけで、厨房のどこが危ないかがわかります。

観察（リコナッサンス）：
ハッカーは、Web サイトの「ログインボタン」や「ファイルアップロード機能」といった目に見える機能を確認します。
照合（FSTab 検索）：
「このサイトは『GPT-5.2』という AI が作った」という情報と、「ログイン機能がある」という情報を FSTab に入力します。
予測：
FSTab は即座に**「その AI が『ログイン機能』を作るとき、90% の確率で『パスワード管理のミス』をしている」**と教えてくれます。

**つまり、「裏側（コード）を見なくても、表側（機能）を見るだけで、どこにセキュリティの穴があるか予測できる」**という、まるで「水晶玉」のような攻撃手法を確立したのです。

📊 実験結果：AI は「癖」が抜けない

研究者たちは、GPT-5.2 や Claude-4.5 など、最新の 6 つの AI モデルを使って実験を行いました。

驚きの結果：
AI に「同じ機能」を何度も作らせたり、言葉を変えて（言い換え）指示を出したりしても、「同じセキュリティの穴」が繰り返されることがわかりました。
ドメイン（分野）を超えて：
「EC サイト」で学習した AI の癖は、「ブログ」や「社内ツール」を作ってもそのまま適用されました。
- 例え話： 「パスタ屋」で「塩が多い」癖がある料理人が、「寿司屋」に行っても、**「寿司に塩を振る」**という同じ間違いを繰り返すようなものです。

**「AI が作ったコードのセキュリティリスクは、その AI 固有の『指紋』のようなものだ」**というのが、この研究の最大の結論です。

🛡️ 私たちにとっての意味は？

この研究は、ハッカーに武器を与えるだけでなく、**「守る側」**にも大きなヒントを与えています。

予防点検の革命：
これまで「コードを全部チェックして、バグを探す」のは大変でした。しかし、今後は**「この機能を使っているなら、この AI ならこのミスをするはずだ」と予測して、そこだけ重点的にチェック**すれば、セキュリティ対策が劇的に楽になります。
AI の「性格」を知る：
どの AI モデルが、どんな種類のミス（癖）を持つかを把握することで、重要なシステムには「癖の少ない AI」を選んだり、特定の機能には「二重のチェック」を入れたりする対策が可能になります。

🎯 まとめ

この論文は、**「AI がコードを書くとき、人間のように毎回違うアイデアを出すのではなく、機械的に同じ『安全ではないパターン』を繰り返してしまう」**という弱点を暴きました。

そして、**「表側の機能を見るだけで、その裏側の『癖』を予測できる」**という新しい攻撃（と防御）の視点を提示しました。

AI が作るソフトウェアが安全かどうかは、**「その AI がどんな『癖』を持っているか」**を知っているかどうかにかかっているのです。

Each language version is independently generated for its own context, not a direct translation.

1. 問題定義 (Problem)

LLM はコード生成において急速に普及していますが、その出力には確率的サンプリングによる「反復的なテンプレート」が含まれる傾向があります。これにより、単一の脆弱な実装パターンが多数の生成プログラムにわたって再現され、予測可能なセキュリティリスクを生み出しています。

既存のセキュリティ対策（静的解析ツールやベンチマーク）は、生成されたコードを個別に検査する「事後防御」に依存しており、**「生成モデル自体が持つ、プログラム間やドメインを超えた一貫した脆弱性パターン」**をモデル化していません。そのため、ソースコードやバックエンドへのアクセスがない「ブラックボックス」環境下では、目に見えるフロントエンドの機能から、隠れたバックエンドの脆弱性を推測する攻撃手法が存在しないという盲点がありました。

2. 手法：Feature–Security Table (FSTab)

本研究は、この盲点を突く新しい攻撃フレームワーク**「FSTab（Feature–Security Table）」を提案しました。これは、特定の LLM によって生成されたソフトウェアにおいて、「観測可能なフロントエンド機能（Feature）」と「隠れたバックエンドの脆弱性（Vulnerability）」の間の確率的な対応関係をマッピングした検索テーブル**です。

攻撃フロー

プログラム偵察 (Reconnaissance): 攻撃者は公開されている UI（例：「パスワードリセット」フォームや「ファイルアップロード」ボタン）を操作し、観測可能な機能 $F$ を特定します。ソースコードへのアクセスは不要です。
機能マッピング: 観測された要素を、FSTab で定義された標準化された機能スキーマにマッピングします。
データベース照会: 対象のモデル名（例：GPT-5.2, Claude-4.5 Opus など）と観測された機能 $F$ を用いて、FSTab を照会します。これにより、統計的に最も発生確率の高いバックエンドの脆弱性シグネチャ（セキュリティルール ID）が返されます。

構築プロセス

学習セットの生成: 対象の LLM を使用して大量のアプリケーションを生成します。
ラベリング: CodeQL や Semgrep などの静的解析ツールを用いて、生成されたコードの脆弱性を特定し、フロントエンド機能と紐付けます。
スコアリング (PMI): 単なる頻度ではなく、点相互情報量 (Pointwise Mutual Information, PMI) を使用して、特定の機能と脆弱性の関連性を評価します。これにより、一般的なエラーではなく、モデル固有の「癖」としての脆弱性を抽出します。
多様性促進: 特定の脆弱性がすべての機能にマッピングされるのを防ぐため、多様性を促進する選択アルゴリズム（貪欲法＋ペナルティ項）を用いて FSTab を構築します。

3. 主要な貢献 (Key Contributions)

ユニバーサルなブラックボックス攻撃: ソースコードやバックエンドへのアクセスなしに、モデルの身元と可視的な機能のみから、LLM 生成プログラムの潜在的な脆弱性を推論する新しい攻撃手法を提案しました。
FSTab 評価フレームワーク: モデルがどの程度一貫して脆弱性を再現するかを定量化するための 4 つの指標を導入しました。
- FVR (Feature Vulnerability Recurrence): 特定の機能（例：ログイン）が出現した際、モデルが同じ脆弱性を繰り返す度合い。
- RVP (Rephrasing Vulnerability Persistence): プロンプトの言い換え（リフレーズ）に対して、脆弱性がどの程度頑健に残存するか。
- DVR (Domain Vulnerability Recurrence): 特定のドメイン内での脆弱性の反復性。
- CDT (Cross-Domain Transfer): 異なるドメイン（例：EC サイトから社内ツールへ）で学習した FSTab が、ターゲットドメインの脆弱性を予測できるか。
実証的評価: 6 つの最先端コード生成モデル（GPT-5.2, Claude-4.5 Opus, Gemini-3 Pro/Flash, Composer, Grok）と 5 つのドメイン（EC、社内ツール、SNS など）を対象に大規模実験を行いました。

4. 実験結果 (Results)

実験は WebGenBench データセット（1,050 件の生成プログラム）を用いて行われました。

攻撃成功率 (ASR) の高さ:
- 多くのモデルで、FSTab を使用した攻撃は非常に高い成功率を示しました。例えば、Claude-4.5 Opus において、ターゲットドメインを学習データから除外した「クロスドメイン」設定でも、**攻撃成功率 94%、脆弱性カバレッジ 93%**を達成しました。
- GPT-5.2 や Composer は特に高い脆弱性反復性（RVP）を示し、プロンプトの言い換えが変わっても同じ脆弱性が生成される傾向が強く確認されました。
モデル固有の「指紋」:
- 各モデルは、特定の機能に対して固有の脆弱性パターン（指紋）を持っていました。例えば、「ユーザー登録」機能に対して GPT-5.2 は特定の脆弱性を 100% の確率で生成する一方、Grok はよりランダムな挙動を示すなど、モデルごとの「セキュリティ・パーソナリティ」が可視化されました。
ドメインを超えた転移性 (Universality Gap):
- 興味深いことに、脆弱性パターンはドメイン固有のものではなく、モデル固有の生成バイアスであることが示されました。あるドメイン（例：EC）で学習した FSTab は、全く異なるドメイン（例：ダッシュボード）の脆弱性も高い精度で予測できました（CDT > DVR）。これは、攻撃者があるアプリケーションタイプでモデルをプロファイリングし、別のアプリケーションを攻撃できることを意味します。

5. 意義と結論 (Significance)

新たな攻撃面の暴露: 本研究は、LLM 生成ソフトウェアにおいて、「観測可能な UI 機能」が「隠れたバックエンド脆弱性」の強力な予測子となり得るという、これまで未研究の攻撃面を明らかにしました。
防御への示唆:
- モデル中心の評価: 従来のコード単位の検査だけでなく、生成モデル自体の「脆弱性反復性」を評価する指標（FVR, RVP 等）の必要性を提唱しました。
- 予防的監査: 開発者は、生成されたコードのフロントエンド機能に基づいて、FSTab を用いて潜在的なリスクを事前に特定し、優先順位をつけることができます。
- モデル設計への提言: 脆弱性の反復性を減らすためには、モデルのテンプレート硬化（Template Rigidity）を緩和し、セキュリティを考慮したデコーディングやトレーニングの導入が必要であることが示唆されました。

結論として:
LLM によるコード生成は便利ですが、モデル固有の「確率的な癖」が構造的な脆弱性を生み出し、ブラックボックス環境下でも予測可能にしています。FSTab はこのリスクを可視化し、攻撃者だけでなく、防御者にとってもモデルの安全性を評価・改善するための重要なツールとなります。