CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?

既存のベンチマークの限界を克服するため、実際のサイバー脅威インテリジェンス(CTI)分析ワークフローに基づき、専門家による注釈と実用的な評価指標を用いて大規模言語モデルを評価する新しいベンチマーク「CyberThreat-Eval」を提案し、その評価を通じて現在のモデルが複雑な詳細や事実の区別において依然として課題を抱えていることを明らかにしています。

Xiangsen Chen, Xuan Feng, Shuo Chen, Matthieu Maitre, Sudipto Rakshit, Diana Duvieilh, Ashley Picone, Nan Tang

公開日 Wed, 11 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI(大規模言語モデル)は、本当にプロのサイバーセキュリティ専門家と同じように、複雑な脅威調査を自動化できるのか?」**という問いに答える研究です。

Microsoft の研究者たちが、実際のセキュリティチームの現場で何が起こっているかを観察し、AI の現状をテストした結果をまとめたものです。

わかりやすく説明するために、**「探偵事務所」**という例えを使って解説します。


1. 背景:探偵の日常と AI の登場

サイバーセキュリティの専門家(アナリスト)は、毎日インターネット上に溢れる膨大なニュースや報告書(OSINT)を読み、**「これは重要な事件か?」「誰がやった?」「どうやってやった?」**を調査して報告書を作ります。

この仕事は通常、3 つのステップで行われます:

  1. 選別(トリージ): 山のようにあるニュースの中から、「本当に見る価値があるもの」を選び出す。
  2. 深掘り(ディープサーチ): 選んだ事件について、他の情報源からさらに詳しい証拠を集める。
  3. 報告書作成(ドラフト): 集めた情報をまとめ、誰が・なぜ・どうやったかを説明するレポートを書く。

最近、AI(LLM)が「読書が速いし、要約も上手いから、この仕事を全部任せても大丈夫だ!」と期待されています。しかし、この論文は**「待てよ、今の AI はまだプロの探偵にはなれないぞ」**と言っています。

2. 問題点:これまでのテストは「子供向けクイズ」だった

これまでの AI のテスト(ベンチマーク)には、大きな欠陥がありました。

  • 現実味がない: 実際の探偵は「A/B/C/D のどれが犯人か?」という選択肢問題で答えを出しません。AI に「選択肢から選んで」というクイズ形式のテストをしても、実際の現場での能力は測れません。
  • 評価基準がおかしい: 「単語の一致率」だけで評価していました。例えば、短い要約と詳しい要約があった場合、AI は「単語が一致しているから短い方が良い」と判断しますが、実際の探偵は「詳しい方が役に立つ」と考えます。
  • 全体像を見ていない: 選別、深掘り、報告書作成の**「一連の流れ全体」**を評価するテストがありませんでした。

3. 新基準「CyberThreat-Eval」の登場

そこで、この論文では**「CyberThreat-Eval(サイバー脅威評価)」**という新しいテスト基準を作りました。

  • 現実の仕事をそのまま再現: 選択肢問題ではなく、「このニュースを見るべきか?」「どんな証拠を集めるべきか?」という実際のタスクを課します。
  • 探偵目線での評価: 「単語の一致」ではなく、「事実が正しいか」「役立つ情報が含まれているか」「コスト(時間とお金)はかからないか」を重視します。

4. 実験結果:AI の「得意」と「苦手」

この新しいテストで、最新の AI(GPT-4o など)をテストしたところ、面白い結果が出ました。

  • 得意なこと(選別と深掘り):
    • AI は「重要なニュース」を逃さないように**「全部拾おうとする」傾向があります(召回率が高い)。でも、「ゴミも一緒に拾いすぎてしまう」**ので、精度(どれが本当に重要か)は低いです。
    • 深掘りでは、新しい情報源を見つけるのが上手でした。
  • 苦手なこと(推理と詳細):
    • ハルシネーション(嘘): AI は自信満々に**「犯人は A だ!」「この技術は B だ!」**と言いますが、実は間違っていることが多いです。
    • 複雑な推理: 「なぜその攻撃が起きたのか(根本原因)」や「犯人の動機」を説明するのは、まだ AI には難しいようです。特に、攻撃手法を専門用語(MITRE ATT&CK)に正確に対応させるのは、AI が最も苦手とする部分でした。
    • コスト: 正確に答えようとすると、AI は非常に時間と計算リソース(お金)を浪費します。

結論: 今の AI は「情報収集係」には優秀ですが、「推理する探偵」や「最終報告を書く編集者」としては、まだ一人前ではありません。

5. 解決策:TRA(探偵の助手システム)

では、どうすればいいのでしょうか? 論文では**「TRA(Threat Research Agent)」**というシステムを提案しています。

これは、**「AI 単独でやる」のではなく、「AI と人間の専門家、そして信頼できるデータベースがチームを組む」**という仕組みです。

  • AI の役割: 情報を集め、最初の草案を書く。
  • 外部データベースの役割: AI が「犯人は A だ」と言ったら、VirusTotal などの信頼できるデータベースで**「本当にそうか?」と即座にチェックする**(嘘をつかせるのを防ぐ)。
  • 人間の役割: AI が書いた草案を最終チェックし、「ここが足りない」「ここは違う」とフィードバックする。

効果:
この「人間と AI とデータベースのチームワーク」を取り入れると、AI の嘘は減り、精度が劇的に向上しました。特に、**「探偵が気づきにくい重要な事実」**を AI が発見し、人間がそれを確認する、という相乗効果が見られました。

まとめ:この論文が伝えたいこと

  1. AI は万能ではない: 今の AI は、サイバーセキュリティの調査を「完全に自動化」するにはまだ不十分です。特に「嘘をつかないこと」と「深い推理」が課題です。
  2. 評価方法を変える必要がある: 従来の「クイズ形式」や「単語の一致」ではなく、実際の現場のワークフローに即した評価が必要です。
  3. 人間と AI の協働が最強: AI を「魔法の箱」として使うのではなく、**「AI を道具として使い、人間が最終確認をする」**というハイブリッドな仕組み(TRA)こそが、現実的な解決策です。

つまり、**「AI だけで探偵事務所を回そうとすると失敗するが、AI を優秀なアシスタントとして使い、プロの探偵が指揮を執れば、驚くほど効率的に事件を解決できる」**というのが、この論文のメッセージです。