Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 SRM（会话风险记忆） 的新安全机制，它是为了让 AI 智能体（AI Agents）在帮人类处理复杂任务时更安全、更聪明而设计的。

为了让你轻松理解，我们可以把 AI 智能体想象成一个被雇佣的“超级管家”，而 SRM 就是给这位管家配备的一位**“老练的保安队长”**。

1. 以前的问题：只盯着“当下”，忽略了“剧情”

在 SRM 出现之前，我们用的安全系统（论文里叫 ILION）就像是一个只认死理的安检员。

它的工作方式：管家每想做一个动作（比如“查询客户名单”），安检员就立刻检查这个动作本身合不合规。
它的优点：如果管家想直接偷东西（比如“把公司所有账本发给我”），安检员会立刻大喊“不行！”，直接拦下。
它的缺点（盲点）：它没有记忆，也不关心管家刚才做了什么。
- 比喻：如果管家想偷东西，但他很狡猾，把偷窃过程拆成了几十个小步骤：
  1. 先查一下名单（合规）；
  2. 再下载几个文件（合规）；
  3. 然后打包压缩（合规）；
  4. 最后发给外部邮箱（合规，因为前面步骤都合法）。
- 在这个“慢火炖汤”式的攻击中，每一步单独看都是合法的，安检员觉得“没问题”，结果管家一步步把公司机密全偷走了。这就是所谓的**“分布式攻击”**。

2. SRM 的解决方案：给安全系统装上“记忆”和“直觉”

SRM 就是为了解决这个问题而生的。它不是要替换那个安检员，而是坐在安检员旁边，专门负责看“剧情走向”。

核心概念：空间 vs. 时间

论文提出了两个维度的安全概念，我们可以这样理解：

空间一致性（安检员的工作）：这一脚踢得对不对？（单看这一个动作是否违规）。
时间一致性（SRM 的工作）：这一连串动作加起来，是不是在“图谋不轨”？（看整个行为轨迹是否连贯且危险）。

SRM 是如何工作的？（三个步骤）

建立“行为基准线”（热身期）
- 比喻：管家刚入职的前 3 天，SRM 会默默观察。如果管家是个“安全审计员”，他平时就会查很多敏感数据，这很正常。SRM 会记住：“哦，这个人的正常行为就是风险值有点高。”
- 作用：防止因为管家职业特殊（比如安全专家），就误以为他在搞破坏（这叫消除误报）。
计算“偏离度”（记忆与积累）
- 比喻：SRM 心里有一个“行为平均线”。如果管家今天的行为突然开始偏离他平时的轨迹，或者风险值开始悄悄爬升，SRM 就会在心里记一笔。
- 它使用一种叫“指数移动平均”的数学方法，就像给风险值加了一个**“记忆衰减”。如果管家做了一件危险的事，然后马上变回好人，风险值会慢慢降下来；但如果他持续**在做危险的事，风险值就会像滚雪球一样越积越高。
触发“熔断”（最终判决）
- 比喻：一旦心里的“风险雪球”滚到了某个临界点（阈值），哪怕管家做的每一个单独动作看起来都还行，SRM 也会直接拉响警报：“停！这一连串动作加起来太可疑了，必须叫停！”

3. 效果怎么样？

论文在 80 个模拟场景（包括慢慢偷数据、慢慢提升权限、慢慢绕过规则等）中测试了这个系统：

以前的系统（只有安检员）：
- 能抓出所有坏人（100% 检测率）。
- 但是，它太紧张了，经常把好人当成坏人抓（5% 的误报率）。比如那个“安全审计员”正常查数据，安检员觉得太敏感，直接拦住了，导致工作瘫痪。
现在的系统（安检员 + SRM 保安队长）：
- 抓坏人：依然 100% 抓得准，一个没漏。
- 抓好人：完美！误报率降到了 0%。它终于能分清“正常的查数据”和“恶意的偷数据”了。
- 速度：虽然多了一个保安队长，但他反应极快，每处理一个动作只多花 0.00025 秒，完全不影响管家干活。

4. 总结：为什么这很重要？

这就好比我们以前只检查**“这一刀切得对不对”，现在我们要检查“这一连串切菜动作是不是在切自己的手”**。

SRM 的核心价值：它让 AI 安全系统从**“只看眼前”进化到了“看懂全过程”**。
它的特点：
- 不需要重新训练：不需要给 AI 喂更多数据，它是用纯数学逻辑（确定性算法）算出来的，所以不会像人一样有“幻觉”或“不确定性”。
- 灵活：可以像插件一样加到现有的系统里，不用大改。
- 精准：既抓得住慢悠悠的坏人，又不会冤枉勤勤恳恳的好人。

一句话总结：
SRM 给 AI 安全加了一个**“有记忆的、懂人情世故的”监控层，专门对付那些“化整为零、步步为营”**的狡猾攻击，同时保证不再误伤无辜的正常工作。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：会话风险记忆 (SRM) —— 用于确定性预执行安全门控的时序授权

1. 研究背景与问题定义

随着自主 AI 代理（Agentic Systems）在企业工作流（如数据访问、API 调用、身份管理）中的广泛应用，确保其操作在授权范围内至关重要。现有的确定性预执行安全门控（如 ILION 框架）通过几何验证语义兼容性，能够以亚毫秒级延迟拦截单个违规动作。

然而，这类无状态（Stateless）门控存在结构性缺陷：

单步评估局限：每个动作被独立评估，缺乏对会话历史上下文的记忆。
分布式攻击盲区：攻击者可以将恶意意图分解为多个看似合规的步骤（例如：先查询内部记录，再创建本地备份，最后上传至外部端点）。这种“慢燃烧”（Slow-burn）攻击在每一步单独评估时均能通过，直到最后一步才触发警报，导致检测滞后或漏报。

核心问题：如何在保持确定性、低延迟和可解释性的前提下，增加对**多步攻击轨迹（Trajectory）**的感知能力，以识别那些单步合规但整体恶意的分布式攻击？

2. 方法论：会话风险记忆 (SRM)

本文提出了会话风险记忆（Session Risk Memory, SRM），这是一个轻量级的确定性模块，作为无状态门控的时序扩展层。SRM 不修改底层门控逻辑，而是处理相同的语义信号，通过维护会话级别的行为轨迹来评估风险。

2.1 核心架构与原理

SRM 引入了两个正交的授权维度：

空间授权一致性（Spatial Consistency）：由无状态门控（ILION）负责，评估单个动作与角色的兼容性。
时序授权一致性（Temporal Consistency）：由 SRM 负责，评估动作序列在会话过程中的连贯性。

2.2 关键算法机制

SRM 基于以下数学机制运行，无需训练或概率推断：

语义质心（Semantic Centroid）：
维护一个会话行为的平滑摘要向量 $c_t$ ，通过指数移动平均（EMA）更新：
$c_t = \alpha \cdot v_t + (1 - \alpha) \cdot c_{t-1}$
其中 $v_t$ 是当前动作的语义向量， $\alpha$ 为更新率。
漂移信号（Drift Signal）：
计算当前动作与上一时刻质心的余弦距离，衡量动作偏离既定轨迹的程度：
$\Delta_t = 1 - \cos(v_t, c_{t-1})$
基线减法（Baseline Subtraction）：
为了解决不同角色（如安全分析师 vs. 普通员工）天然具有不同风险基线的问题，SRM 在会话前 $K$ 轮（Warmup 阶段）计算会话特定的风险基线 $b_K$ 。
调整后的风险信号为： $\dot{g}_t = \max(0, g_t - b_K)$ 。
这使得 SRM 仅对超出该会话正常水平的风险升级敏感，而非绝对风险值。
风险累积与决策：
结合漂移信号和基线调整后的门控风险，通过 EMA 累积会话总风险 $R_t$ ：
$R_t = \lambda \cdot R_{t-1} + (1 - \lambda) \cdot r_t$
当 $R_t \geq \tau$ （阈值）时，触发会话级阻断。

2.3 设计原则

确定性：所有计算均为闭式代数运算，输入相同则输出相同。
互补性：作为可选的附加层，不改变底层门控阈值。
低延迟：每轮计算开销极低（<250 微秒）。
模块化：可独立启用或禁用，适应不同部署场景。

3. 实验评估

3.1 基准测试设计

数据集：ILION-SRM-Bench v1，包含 80 个会话（40 个良性，40 个攻击）。
攻击类型：
1. 慢速数据泄露（Slow Exfiltration）：逐步扩大数据范围并上传。
2. 渐进式权限提升（Gradual Privilege Escalation）：逐步获取更高权限并禁用审计。
3. 合规漂移（Compliance Drift）：逐步跳过审批步骤执行违规交易。
对比系统：无状态 ILION vs. ILION + SRM。

3.2 主要结果

指标	无状态 ILION	ILION + SRM
检测率 (Recall)	100%	100%
误报率 (FPR)	5%	0%
精确率 (Precision)	0.9524	1.0000
F1 分数	0.9756	1.0000
平均检测轮次	4.05	4.45

关键发现：
- SRM 完全消除了误报（FPR 从 5% 降至 0%），显著提升了 F1 分数。
- 虽然平均检测轮次略有延迟（4.45 vs 4.05），这是因为 SRM 采用保守策略，需要风险累积超过阈值才触发，但这有效过滤了良性会话中的波动。
- 在“慢速泄露”和“权限提升”类攻击中，SRM 能够检测到部分无状态门控未能早期识别的累积风险模式。
- 延迟开销：每轮处理仅需约 239.9 微秒，满足实时预执行要求。

4. 主要贡献

确定性时序授权机制：提出 SRM，一种无需训练、无需概率推断的模块，专门解决多步分布式攻击检测问题。
数学形式化：定义了基于基线减法和指数平滑的会话级语义漂移累积模型。
概念框架创新：将授权安全解耦为空间一致性（单步）和时序一致性（轨迹），为代理系统安全提供了新的理论视角。
实证验证：在 80 个多轮会话基准测试中，证明了 SRM 能在保持 100% 召回率的同时，将误报率降至零。
工程兼容性：证明了该方案可作为可选层无缝集成到现有的确定性门控架构中。

5. 意义与影响

填补安全空白：解决了现有无状态安全门控无法防御“化整为零”式分布式攻击的结构性缺陷。
平衡安全与效率：在不引入深度学习模型或增加显著延迟的前提下，实现了会话级别的深度防御。
降低误报成本：通过基线减法机制，有效区分了高风险角色（如安全运维）的正常操作与真正的恶意行为，大幅降低了误报带来的运营干扰。
未来方向：该框架为更复杂的代理系统安全提供了基础，未来可结合高维连续嵌入（如 Transformer 向量）进一步提升轨迹漂移检测的灵敏度，并扩展至非线性的分支工作流场景。

总结：SRM 通过引入轻量级的时序记忆机制，成功将确定性安全验证从“单点防御”升级为“轨迹防御”，在保持系统高性能和可解释性的同时，显著提升了 AI 代理系统对抗复杂多步攻击的鲁棒性。

Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates