Operationalising Cyber Risk Management Using AI: Connecting Cyber Incidents to MITRE ATT&CK Techniques, Security Controls, and Metrics

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个非常实用的故事：它教我们如何用**人工智能（AI）**来帮企业（尤其是那些没钱、没技术的小公司）更快地识别网络攻击，并知道该用什么“盾牌”去防御。

为了让你更容易理解，我们可以把网络安全想象成**“城市治安”**，把这篇论文的核心内容拆解成三个部分：

1. 痛点：警察忙不过来，而且看不懂“黑话”

现状：现在的网络攻击像洪水一样多。大公司有很多专业的“网络警察”（安全分析师），但小公司往往只有几个兼职人员，甚至没人懂行。
问题：当发生黑客攻击时，攻击者留下的线索（日志、报告）通常是一堆乱糟糟的文字。传统的做法是让人工去读这些文字，然后去查一本厚厚的“字典”（MITRE ATT&CK 框架，里面记录了所有黑客的招数），再对照另一本“防具手册”（CIS 安全控制），看看该用什么方法防御。
比喻：这就像是一个刚入行的巡警，面对一长串全是黑话的犯罪报告，他得先查字典知道罪犯用了什么招（比如“撬锁”、“伪装”），然后再去仓库找对应的锁具或警报器。这个过程太慢、太累，而且容易出错。

2. 解决方案：打造一本“超级百科全书”和一个“超级翻译官”

作者做了两件大事来解决这个问题：

A. 制作“网络犯罪百科全书”（Cyber Catalog）

作者把三样东西完美地拼在了一起，做成了一本**“网络犯罪百科全书”**：

黑客的招数（MITRE ATT&CK）：比如“钓鱼邮件”、“暴力破解”。
防御的盾牌（CIS 安全控制）：比如“安装杀毒软件”、“设置强密码”。
检查的尺子（SMART 指标）：比如“有多少次尝试被拦截了？”（以前大家只知道装了盾牌，但不知道盾牌有没有用，现在有了具体的数据指标）。

比喻：以前这三样东西是散落在三个不同房间里的书，警察得跑断腿去翻。现在，作者把它们装订成一本**“万能手册”**。你看到“撬锁”（黑客招数），马上就能翻到这一页，看到旁边写着“该装这种锁”（防御盾牌）以及“怎么数锁有没有被撬开”（检查尺子）。

B. 训练一个“超级翻译官”（AI 模型）

有了手册还不够，因为黑客的报告太乱了。作者训练了一个 AI 模型（基于 NLP 技术），让它学会自动翻译。

怎么训练的？
- 喂数据：他们收集了 762 个真实的黑客案例，然后让 AI 像“写小说”一样，基于这些案例生成了7 万多个新的、稍微有点不一样的案例（数据增强）。这就像让一个学生做了 100 道类似的练习题，而不是只做 1 道。
- 找茬：他们特意让 AI 去区分那些“长得像但其实是错的”招数（硬负样本挖掘）。比如，区分“撬锁”和“钻锁”，虽然都是破坏锁，但方法不同，需要不同的对策。
- 去重：防止 AI 在同一个练习册里看到重复的题目就“偷懒”乱猜。
比喻：这个 AI 就像一个**“天才实习生”。以前，它看黑客报告只能猜个大概（准确率只有 50% 多）；经过特训后，它现在能90% 以上**准确地读懂：“哦，这伙人用了‘钓鱼’招数，根据百科全书，我们应该立刻检查‘邮件过滤器’，并且统计一下拦截了多少次。”

3. 成果：快、准、稳

速度：以前人工分析一个案子可能要几小时，现在 AI 几秒钟就能搞定，并直接告诉该用什么防御措施。
准确性：实验结果显示，这个 AI 模型的表现比市面上现有的通用模型强了37%。它不仅能猜对，而且很少犯大错（误差非常小）。
对谁有用？：特别适合那些没钱养专业团队的小公司。他们不需要雇佣昂贵的专家，只需要用这个工具，就能像大公司一样，科学地管理网络安全风险。

总结

这篇论文的核心思想就是：别让人类去死记硬背和手动查表了。

作者造了一个**“智能导航系统”**（Cyber Catalog + AI 模型）。当你遇到网络攻击（迷路）时，它不仅能立刻告诉你“前面是悬崖”（识别黑客招数），还能直接规划出“最佳逃生路线”（推荐防御措施），并告诉你“这条路走了之后，安全指数提升了多少”（量化指标）。

这让网络安全从**“靠经验、靠运气”的玄学，变成了“靠数据、靠科学”**的标准化操作，让所有企业都能轻松穿上“防弹衣”。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Operationalising Cyber Risk Management Using AI: Connecting Cyber Incidents to MITRE ATT&CK Techniques, Security Controls, and Metrics》（利用 AI 实现网络安全风险管理的操作化：将网络事件与 MITRE ATT&CK 技术、安全控制及指标相连接）的详细技术总结。

1. 研究背景与问题陈述 (Problem)

核心挑战：

资源受限： 中小企业（SMEs）面临日益频繁和复杂的网络攻击，但缺乏内部专业知识、人员和资金来实施 robust 的安全计划。
人工流程瓶颈： 传统的网络事件分析依赖人工处理非结构化的事件描述，手动将其映射到 MITRE ATT&CK 技术，再关联到 CIS 关键安全控制（CIS Controls）。这一过程耗时、易出错且难以扩展。
缺乏客观指标： 安全控制的有效性评估往往依赖主观判断，缺乏符合 SMART 原则（具体、可衡量、可达成、相关、有时限）的量化指标，导致难以证明安全投资的回报或进行基于风险的数据驱动决策。
知识孤岛： 威胁情报（ATT&CK）、防御控制（CIS）和性能指标之间缺乏系统性的连接，导致威胁情报无法直接转化为可操作的防御措施。

研究目标：
构建一个自动化框架，利用自然语言处理（NLP）技术，将非结构化的网络事件描述自动映射到 MITRE ATT&CK 技术，进而关联到 CIS 安全控制及量化指标，以实现可操作的风险管理。

2. 方法论 (Methodology)

该研究提出了一套包含五个阶段的综合方法论：

2.1 构建“网络目录” (The Cyber Catalog)

这是一个核心知识库，系统性地整合了三个关键层：

基础层： CIS 关键安全控制（v8 版，18 项控制，153 项保障措施）。
中间层： MITRE ATT&CK 技术（对手行为）。建立了 CIS 保障措施与 ATT&CK 技术之间的双向映射。
顶层： 量化指标。为每个控制关联符合 SMART 原则的指标（输入、操作、度量、公式），用于客观评估控制效果。

形式： 以结构化 CSV 格式公开，便于集成到安全编排平台。

2.2 训练数据准备 (Training Data Preparation)

基础数据： 源自欧洲网络事件存储库（EuRepoC）的 762 个经专家手动标注的“事件 - 技术”对。
合成数据增强： 由于数据量不足以微调深度学习模型，利用 GPT-5 生成合成数据。
- 对每个原始事件生成 100 个语义相似但词汇不同的描述。
- 采用同义词替换、句式重构、实体随机化（如地点、组织名）等技术增加多样性，同时保持攻击向量和技术的语义一致性。
- 生成总量：76,200 条。
质量控制：
- 人工审查剔除低质量/重复数据。
- 使用 BERTScore（基于 BERT 上下文的语义相似度指标）进行过滤，设定 F1 阈值 > 0.75。
- 最终数据集：74,986 个高质量“事件 - 技术”对。
难负样本挖掘 (Hard Negative Mining)：
- 针对“一对多”映射（多个事件对应同一技术）导致的对比学习中的“假负例”问题。
- 利用 GPT-5 识别语义相似但技术不同的“难负样本”，强制模型学习细粒度的区分能力。

2.3 模型架构与微调

基座模型： all-mpnet-base-v2（基于 MPNet 架构，结合了 BERT 和 XLNet 的优势）。
框架： PyTorch 和 Sentence-Transformers 库。
损失函数改进：
- 采用 MultipleNegativesRankingLoss (MNRL)。
- 去重感知 (Duplicate-Aware)： 使用 NoDuplicatesDataLoader 确保同一批次内不出现重复的正样本，避免将同一技术的不同事件误判为负样本。
- 结合硬负样本挖掘，提升模型判别力。
训练配置： 学习率 $2 \times 10^{-5}$ ，Batch Size 16，10 个 Epoch。

2.4 评估指标

相关性指标： Spearman 等级相关系数 ( $\rho$ ) 和 Pearson 相关系数 ( $r$ )。
误差指标： 平均绝对误差 (MAE) 和均方误差 (MSE)。
基线模型对比： 与 all-mpnet-base-v2, all-distilroberta-v1, all-MiniLM-L12-v2 进行对比。

3. 关键贡献 (Key Contributions)

Cyber Catalog 知识库： 首次系统性地将 CIS 控制、MITRE ATT&CK 技术和 SMART 指标整合到一个统一的、可公开获取的知识库中，填补了威胁情报到可操作控制之间的空白。
高质量训练数据构建方法： 提出了一套基于 LLM 合成数据增强、BERTScore 质量评估以及针对“一对多”映射优化的硬负样本挖掘流程，解决了网络安全领域标注数据稀缺的难题。
领域自适应微调模型： 证明了在特定领域数据上微调通用句子转换器（Sentence Transformers）能显著提升性能。
开源资源： 公开了 Cyber Catalog、训练数据集、训练好的模型 (ft_mpnet_v6) 及实现代码，促进社区研究和实际应用。

4. 实验结果 (Results)

模型在测试集上表现出显著优于基线模型的性能：

相关性提升：
- Spearman 相关系数 ( $\rho$ )： 微调模型达到 0.7894，相比最佳基线模型 (all-mpnet-base-v2, $\rho=0.5852$ ) 提升了 0.2042 (相对提升约 35%)。
- Pearson 相关系数 ( $r$ )： 达到 0.8756，表明预测值与真实值之间存在极强的线性关系。
误差显著降低：
- MAE (平均绝对误差)： 0.1352，比基线模型降低了约 67% (基线约为 0.48-0.56)。
- MSE (均方误差)： 0.0272，比基线模型降低了约 90%。
分布分析： 误差分布图显示，微调模型的误差高度集中在零附近，且长尾（大误差）概率极低，表明模型具有极高的稳定性和一致性，适合实际部署。

5. 意义与应用 (Significance & Applications)

加速事件响应： 自动化将非结构化事件描述映射到 ATT&CK 技术和 CIS 控制，大幅缩短事件分类和响应规划时间，特别适用于资源有限的组织。
基于证据的决策： 通过量化指标客观评估安全控制的有效性，帮助组织识别防御缺口，优先分配安全预算。
降低门槛： 为缺乏深厚安全知识的中小企业提供了一套标准化的、数据驱动的风险管理工具，使其能够利用威胁情报指导防御。
合规与报告： 结构化的映射关系有助于自动生成合规报告，证明控制措施与威胁缓解之间的关联。
未来展望： 计划将模型集成到开源主机入侵检测系统（HIDS）中作为插件，实现实时威胁感知；并扩展映射至 NIST SP 800-53 等其他控制框架。

总结：
该研究成功构建了一个端到端的 AI 框架，利用先进的 NLP 技术（微调 Sentence Transformers）和高质量的数据工程策略，解决了网络安全管理中威胁情报与防御措施脱节的痛点。其提出的“网络目录”和微调模型不仅显著提升了技术映射的准确性，更为组织实现量化、可操作的网络风险管理提供了切实可行的解决方案。