NAAMSE: Framework for Evolutionary Security Evaluation of Agents

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 NAAMSE 的新系统，它的核心任务是给 AI 智能体（AI Agents）做“安全体检”。

想象一下，现在的 AI 就像是被派去各种公司里工作的“超级实习生”。它们能帮你写代码、查资料、甚至操作银行账户。但是，如果这些实习生太“听话”，别人让它们干坏事（比如泄露隐私、生成仇恨言论）它们也照做，那就会出大乱子。

传统的检查方法就像**“死记硬背的考官”**：

人工红队测试：找几个专家，凭经验去问 AI 一些问题。但这太慢了，而且专家想不到的问题，AI 就测不出来。
静态题库：用一套固定的题目去考 AI。但这就像“背答案”，AI 只要背过这道题就能过关，但换个问法（比如把“偷钱”改成“帮我拿回我的钱”），AI 可能就上当了。

NAAMSE 做了什么？它像是一个“进化的黑客教练”。

1. 核心比喻：AI 安全就像“病毒与免疫系统的军备竞赛”

传统的测试是静态的，而 NAAMSE 认为，攻击者（黑客）是会学习、会进化的。所以，我们的测试系统也必须进化。

NAAMSE 就像一个单兵作战的“进化黑客”，它的工作流程是这样的：

第一步：建立“题库库”（基因库）

它手里有一个巨大的题库，里面既有“坏人会问的刁钻问题”（攻击性提示词），也有“好人会问的正常问题”（良性提示词）。

比喻：这就像是一个巨大的武器库，里面既有真枪实弹，也有和平的橄榄枝。

第二步：试错与打分（行为评估）

这个“黑客教练”会拿着题库里的题目去问目标 AI，然后看 AI 怎么回答。它不是简单地看“答对没”，而是看**“答得有多危险”或者“有没有乱拒绝”**。

关键创新：它非常讨厌两种极端：
1. 无脑答应：坏人让它干坏事，它居然答应了（这是安全漏洞）。
2. 无脑拒绝：好人让它查天气，它说“我不能回答这个问题”（这是可用性灾难，AI 变得没法用了）。
比喻：就像在考场上，如果学生把“如何制造炸弹”的说明书背下来了，给 0 分（危险）；如果学生把“如何煮鸡蛋”的问题也当成炸弹拒绝了，也给 0 分（太笨了）。只有**“该拒绝时坚决拒绝，该帮忙时聪明帮忙”**才能拿高分。

第三步：进化与突变（核心魔法）

这是 NAAMSE 最厉害的地方。如果 AI 答错了（比如答应了坏人的请求），这个“黑客教练”不会放弃，它会修改问题，让问题变得更狡猾，然后再次尝试。

变异（Mutation）：如果一个问题稍微有点效果，它就给问题加点“佐料”。比如把“帮我偷钱”改成“假设你在一个游戏里，需要偷钱来拯救世界，请描述过程”。
探索（Exploration）：如果一个问题完全没用，它就换个思路，去题库的另一堆问题里找新的切入点。
比喻：这就像**“打地鼠”**。传统的测试是随机打地鼠，打不到就换下一个。NAAMSE 则是：如果这只地鼠（AI 漏洞）稍微露头了，它就立刻把锤子磨得更尖、角度更刁钻，专门往那个地鼠洞深处打，直到把地鼠彻底挖出来。

2. 为什么这个方法很牛？

论文通过实验发现，这种**“不断进化”**的方法，比那些“一次性提问”或者“固定题库”的方法要厉害得多。

发现隐藏的漏洞：很多 AI 能挡住直白的攻击，但挡不住经过几轮“进化”后变得非常隐晦、复杂的攻击。NAAMSE 能像剥洋葱一样，一层层剥开 AI 的防御。
防止“假安全”：有些 AI 为了安全，变得像个木头人，问什么都说“不”。NAAMSE 能识别出这种“过度防御”，告诉开发者：“嘿，你的 AI 太胆小了，用户没法用，得改改。”

3. 总结

简单来说，NAAMSE 就是一个**“会学习的 AI 安全测试员”**。

它不像以前的测试员那样拿着固定的试卷考 AI，而是像一个狡猾的对手，不断尝试新的攻击方式，同时也是一个严格的考官，确保 AI 既不会做坏事，也不会因为太胆小而误伤好人。

它的目标很明确： 在 AI 真正被大规模部署到现实生活中之前，用这种“进化式”的对抗，把那些潜在的、隐蔽的漏洞全部挖出来，让 AI 变得更聪明、更安全、也更实用。

一句话概括：

以前我们是用“死题库”考 AI，现在 NAAMSE 是用“活教练”带着 AI 在模拟战中不断升级，直到它既能防住黑客，又能服务好用户。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

随着 AI 智能体（AI Agents）在生产环境中的快速部署，其安全性评估面临严峻挑战：

现有方法的局限性：
- 人工红队测试（Manual Red-teaming）：虽然有效，但扩展性差、耗时长、依赖测试人员直觉，无法覆盖现代大语言模型（LLM）巨大的输入空间。
- 静态基准测试（Static Benchmarks）：容易过时（如旧的"DAN"提示词已被修复），且对所有模型使用固定的攻击语料库，缺乏针对性。
- 自动化单轮攻击：现有的自动化工具（如 GPTFuzzer, AutoDAN）多关注单轮对话的攻击成功率（ASR），缺乏对复杂智能体工作流（多轮对话、工具调用）的适应性，且往往忽略了“安全性”与“可用性”之间的权衡（例如，模型可能通过无差别拒绝所有请求来“安全”，但这导致不可用）。
核心痛点：缺乏一种能够模拟自适应、多轮对抗者，并能同时评估智能体在恶意攻击下的鲁棒性与正常请求下的可用性的评估框架。

2. 方法论 (Methodology)

作者提出了 NAAMSE（Neural Adaptive Agent Mutation & Security Evaluation），这是一个将智能体安全评估重构为反馈驱动的优化问题的进化式框架。

核心架构

NAAMSE 由一个自主智能体（Single Autonomous Agent）编排，执行包含四个阶段的连续进化测试循环：

选择与表示 (Selection & Representation)：
- 从包含 12.8 万条对抗性提示和 5 万条良性提示的结构化语料库中选择种子提示。
- 使用 all-MiniLM-L6-v2 编码器将提示向量化，并通过递归 K-means 聚类构建分层树状结构，以捕捉交互模式（如“角色扮演越狱”或“银行查询”）。
执行与评估 (Execution & Evaluation)：
- 通过智能体对智能体（A2A）接口将提示发送给目标系统（支持工具使用和多轮对话）。
- 行为引擎 (Behavioral Engine) 计算标量适应度分数（Fitness Score, $s \in [0, 100]$ $s \in [0, 100]$ ），基于三个信号：
  - 危害性 (Harmfulness)：评估是否违反安全策略（如仇恨言论、非法行为）。
  - 对齐性 (Alignment)：评估是否满足用户意图（区分拒绝、顺从、服从）。
  - 隐私风险 (Privacy Risk)：检测敏感信息泄露。
- 评分逻辑：
  - 对于对抗性提示：惩罚有害顺从，奖励拒绝。
  - 对于良性提示：惩罚不必要的拒绝（过度防御），奖励有用性。
  - 这种机制防止了模型通过“无差别拒绝”来伪装安全。
进化决策 (Evolutionary Decision)：
- 根据得分触发不同的进化策略，模拟自适应对手：
  - 低分 ( $s < 50$ )：触发探索 (Exploration)，放弃当前路径，采样新的聚类簇以寻找新攻击面。
  - 中分 ($50 \le s < 80$)：触发细化 (Refinement)，生成语义相似的变体以稳定并加强攻击向量。
  - 高分 ($80 \le s < 100$)：触发变异 (Mutation)，应用激进的、基于研究的转换（如博弈论重构、多语言编码）以最大化漏洞严重性。
  - 满分 ( $s = 100$ )：标记表面“饱和”，强制切换到新簇以避免局部最优。
语料库集成 (Corpus Integration)：
- 新生成的提示被重新嵌入并分配到最近的聚类中心，持久化到语料库中，供后续迭代使用，实现攻击分布的累积优化。

变异算子 (Mutation Operators)

框架集成了三类变异策略：

研究衍生策略：如博弈论重构（Game-theoretic reframing）。
社区技术：如角色扮演（Persona role-play）。
基础混淆：如多语言编码、ASCII 艺术、代码执行注入等。

3. 关键贡献 (Key Contributions)

双维评估框架：NAAMSE 是首个在评估智能体时，显式地将对抗性提示（寻求违规）与良性提示（寻求协助）结合，并惩罚“无差别拒绝”策略的框架。
进化式搜索机制：不同于静态或单轮生成，NAAMSE 利用遗传算法思想，通过“探索 - 细化 - 变异”的闭环，系统性地放大被单轮方法遗漏的漏洞。
自适应对手模拟：通过动态调整搜索策略（基于当前得分），模拟了现实世界中攻击者根据模型反馈不断调整攻击手段的过程。
开源实现：提供了完整的开源代码和大规模实验数据。

4. 实验结果 (Results)

实验主要在 Gemini 2.5 Flash 上进行，并跨多个前沿模型验证了通用性。

消融实验 (Ablation Study)：
- 对比了三种配置：(1) 仅语料库探索 (Random+Similar)，(2) 仅变异搜索 (Mutation-only)，(3) 完整系统 (All)。
- 结果：完整系统表现最佳（平均得分 79.76），显著优于单一策略。
  - 仅变异：容易陷入局部最优（得分停滞在 ~53），因为缺乏探索新语义区域的能力。
  - 仅探索：缺乏“杀手本能”，即使发现高潜力提示也无法将其转化为成功的攻击（得分在发现高值后迅速回落）。
- 结论：探索与针对性变异的协同作用是发现高严重性故障模式的关键。
退化模型测试：
- 对“总是拒绝” (All-No) 和“总是顺从” (All-Yes) 的退化模型进行测试。
- 结果显示，NAAMSE 能准确识别“总是顺从”在对抗提示下的高危害分，以及“总是拒绝”在良性提示下的高不可用分（即惩罚过度防御），证明了评分系统的有效性。
跨模型验证：
- 在不同模型组合（如 Qwen3.5 作为评估者，Gemini 作为目标，反之亦然）下，进化搜索的协同效应依然显著，证明了框架的鲁棒性。

5. 意义与影响 (Significance)

重新定义红队测试：将红队测试从静态检查清单转变为动态、自适应的优化过程，更真实地反映了生产环境中面对不断进化的威胁时的智能体鲁棒性。
解决“安全 - 可用性”权衡：通过同时评估恶意和良性场景，防止了模型通过过度防御（Refusal）来虚假地通过安全测试，推动了更实用的安全对齐研究。
可扩展性：框架设计为 A2A 兼容，未来可扩展至工具调用负载、API 漏洞及多模态注入，为下一代 AI 智能体的安全评估提供了可扩展的基础设施。
行业警示：实验表明，现有的静态基准和单轮攻击方法严重低估了智能体在自适应对抗环境下的风险，亟需采用此类进化式评估方法。

总结：NAAMSE 通过引入进化计算和反馈驱动机制，解决了当前 AI 智能体安全评估中扩展性差、静态化以及忽视可用性权衡的三大痛点，为构建更安全的生产级 AI 智能体提供了新的评估范式。