What Are Adversaries Doing? Automating Tactics, Techniques, and Procedures Extraction: A Systematic Review

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**“网络安全界的侦探指南”**，它系统地梳理了研究人员是如何教电脑自动从海量的、杂乱无章的网络安全报告中，提取出黑客的“作案手法”的。

为了让你更容易理解，我们可以把整个网络安全世界想象成一个巨大的“犯罪现场”，而这份论文就是在分析**“如何训练超级侦探”**。

1. 背景：为什么我们需要“超级侦探”？

想象一下，全球每天都有成千上万的犯罪报告（网络安全报告）被写出来。这些报告里记录了黑客（坏人）是怎么入侵系统的。

TTPs（战术、技术和过程）：这就是黑客的“作案手法”。
- 战术 (Tactics)：黑客想干什么？（比如：想偷数据、想长期潜伏）。
- 技术 (Techniques)：他们用了什么招数？（比如：暴力破解密码、伪装成系统管理员）。
- 过程 (Procedures)：具体每一步是怎么操作的？（比如：先输入这个命令，再下载那个工具）。

问题在于：这些报告写得像天书，而且数量太多，人类侦探（安全分析师）根本看不过来，累得半死还容易漏掉关键线索。所以，研究人员想造出**“自动侦探”**（人工智能），让它能自动读报告，把黑客的 TTPs 提取出来，整理成一张清晰的“通缉令”。

2. 这篇论文做了什么？（系统综述）

作者们并没有发明一个新的“自动侦探”，而是把过去几年里所有关于“如何训练自动侦探”的研究（80 篇论文）都找出来，像整理书架一样整理了一遍。他们想看看：

大家都在研究什么？
用了什么数据？
用了什么方法？
效果怎么样？
有什么坑？

3. 他们发现了什么？（核心发现）

A. 大家都在做什么任务？（侦探在查什么？）

最热门的任务：“技术分类”。就像给案件贴标签，告诉系统“这个黑客用了‘暴力破解’这一招”。这是目前做得最多的。
被忽视的任务：
- 战术分类：只关心黑客的大目标（比如“他想偷数据”），这个做得比较少。
- 技术搜索：就像在图书馆里直接搜“有没有人用过‘钓鱼’这招”，而不是给整篇文章分类。这个领域还很空白。

B. 侦探们用什么“教材”学习？（数据来源）

主要教材：各大安全公司（像火眼金睛的专家）写的威胁情报报告。这是最丰富的来源。
其他教材：漏洞数据库、系统日志（像监控录像）、甚至黑客论坛的帖子。
现状：大家太依赖“报告”了，很少去研究“监控录像”（系统日志）或“代码”（恶意软件源码），这就像侦探只读报纸，不去现场看监控，有点片面。

C. 侦探们用什么“大脑”？（技术方法）

过去：用简单的规则（比如：只要看到“密码”这个词，就认为是暴力破解）。这就像用老式算盘，简单但笨拙。
现在：用Transformer 模型（如 BERT、SecureBERT）。这就像给侦探装上了**“超级大脑”**，能理解上下文。比如，它知道“密码”出现在“重置”旁边，和出现在“窃取”旁边，意思完全不同。
未来：开始尝试用大语言模型（LLM）（如 GPT 系列）。这就像请来了**“全能天才”**，不仅能分类，还能像人一样推理，甚至能根据零散的线索生成完整的作案剧本。

D. 最大的问题是什么？（局限性）

虽然技术很先进，但这行有个大毛病：“不透明”和“不通用”。

教材不公开：很多研究用的数据是保密的（像只给侦探看一部分案情），别人没法验证你的侦探厉不厉害。
代码不分享：很多研究只说“我做到了”，但不把“大脑”的代码公开，别人想学都学不会。
考试太简单：很多研究只在一种类型的报告上测试，就像侦探只在“银行抢劫案”里练手，真遇到“网络诈骗”可能就懵了。

4. 未来的方向（给侦探们的建议）

作者们给未来的研究提出了几个建议，让“自动侦探”更厉害：

用真实的“脏”数据：别只用整理好的完美教材，要用现实中那些杂乱、充满噪音的真实报告来训练。
考“综合题”：别只考“单选”，要考“多选”。因为一个黑客案件往往同时涉及多种战术和技术。
讲“故事”而不是“贴标签”：现在的模型喜欢把句子拆开看，但黑客作案是一个连续的故事。未来的模型要能理解整篇报告的时间线和因果关系。
共享一切：把数据、代码、标注标准都公开，让大家一起进步，而不是各自为战。

总结

这篇论文就像是在说：

“我们造了很多聪明的‘自动侦探’，它们能读懂黑客的作案手法。现在的技术已经从‘老式算盘’进化到了‘超级大脑’。但是，因为大家用的教材不一样、考试题目太简单、而且很多秘密都不肯分享，导致这些侦探在真实世界里可能还不够用。未来，我们需要更真实的教材、更复杂的考试，并且大家要把‘独门秘籍’（代码和数据）共享出来，才能真正保护我们的网络世界。”

这就好比网络安全界正在经历一场从“手工作坊”到“工业化流水线”的转型，虽然机器越来越聪明，但还需要更多的协作和标准化，才能应对日益狡猾的黑客。

What Are Adversaries Doing? Automating Tactics, Techniques, and Procedures Extraction: A Systematic Review

1. 背景：为什么我们需要“超级侦探”？

2. 这篇论文做了什么？（系统综述）

3. 他们发现了什么？（核心发现）

A. 大家都在做什么任务？（侦探在查什么？）

B. 侦探们用什么“教材”学习？（数据来源）

C. 侦探们用什么“大脑”？（技术方法）

D. 最大的问题是什么？（局限性）

4. 未来的方向（给侦探们的建议）

总结

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

3. 关键贡献与主要发现 (Key Contributions & Results)

A. 提取目标的分类 (RQ1)

B. 数据源与处理 (RQ2, RQ3, RQ4)

C. 方法论演变 (RQ5)

D. 评估与可复现性 (RQ6, RQ7)

4. 现有局限性与未来方向 (Limitations & Future Directions)

5. 意义 (Significance)

What Are Adversaries Doing? Automating Tactics, Techniques, and Procedures Extraction: A Systematic Review

1. 背景：为什么我们需要“超级侦探”？

2. 这篇论文做了什么？（系统综述）

3. 他们发现了什么？（核心发现）

A. 大家都在做什么任务？（侦探在查什么？）

B. 侦探们用什么“教材”学习？（数据来源）

C. 侦探们用什么“大脑”？（技术方法）

D. 最大的问题是什么？（局限性）

4. 未来的方向（给侦探们的建议）

总结

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

3. 关键贡献与主要发现 (Key Contributions & Results)

A. 提取目标的分类 (RQ1)

B. 数据源与处理 (RQ2, RQ3, RQ4)

C. 方法论演变 (RQ5)

D. 评估与可复现性 (RQ6, RQ7)

4. 现有局限性与未来方向 (Limitations & Future Directions)

5. 意义 (Significance)

类似论文

Evaluating Generalization and Robustness in Russian Anti-Spoofing: The RuASD Initiative

KAIJU: An Executive Kernel for Intent-Gated Execution of LLM Agents

Cardinality is Not Enough: Super Host Detection via Segmented Cardinality Estimation

A Dynamic Toolkit for Transmission Characteristics of Precision Reducers with Explicit Contact Geometry

Beyond Fixed Inference: Quantitative Flow Matching for Adaptive Image Denoising