From Features to Actions: Explainability in Traditional and Agentic AI Systems

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣且重要的话题：当人工智能从“做题家”变成“行动派”时，我们该如何理解它的错误？

为了让你轻松理解，我们可以把这篇论文的核心思想想象成**“从检查一张试卷，到复盘一场足球比赛”**的区别。

1. 过去的 AI：只会做选择题的“做题家”

（传统静态 AI）

场景：想象一个学生（AI）正在做一道数学题。你给他题目（输入），他给出答案（输出）。
旧的解释方法：如果学生做错了，老师（解释系统）会拿着红笔在题目上圈出来：“你看，因为你没注意到这个‘负号’，所以错了。”
特点：这种解释只关注**“输入”和“输出”**之间的关系。它很擅长告诉你“哪个词”或“哪个数字”影响了结果。
论文发现：对于这种简单的“做题”场景，旧方法（如 SHAP、LIME）非常管用，很稳定，能准确指出是哪里出了问题。

2. 现在的 AI：会思考、会行动的“足球运动员”

（智能体/Agentic AI）

场景：现在的 AI 不再只是做题，它像是一个足球队的队长。它要完成一个复杂任务（比如“帮用户订机票”）。
- 它要先查天气（观察）。
- 然后决定去哪个网站（决策）。
- 接着调用订票 API（使用工具）。
- 如果网站报错，它得想办法换一家（纠错）。
- 最后把票发给你。
新挑战：如果这个“队长”搞砸了任务，仅仅告诉他“最后的结果是错的”有什么用呢？
- 是因为他一开始选错了球队？
- 是因为他在第 5 步记错了比分（状态不一致）？
- 还是因为他用了错误的战术（工具调用错误）？
旧方法的失效：如果你还用老办法（像分析数学题那样），试图找出“哪个词”导致了失败，你会发现完全行不通。因为失败往往不是由某一个词决定的，而是由一连串的动作、记忆偏差和错误的连锁反应导致的。

3. 论文的核心发现：我们需要“比赛复盘”，而不是“试卷批改”

作者通过实验发现了一个巨大的鸿沟：

旧方法（归因法）：就像只给球员看最后比分。它能告诉你“进攻”和“防守”哪个更重要（整体相关性），但无法告诉你为什么刚才那个球没进——是因为传球失误？还是守门员判断错了？它无法定位到具体的某一步哪里出了问题。
新方法（轨迹追踪法）：就像比赛录像回放（Trace）。
- 作者提出了一种新的“解释包”（MEP），它记录了球员每一步的思考、每一个动作、每一次传球。
- 通过回放录像，他们发现：
  - 在订机票任务中，80% 的失败是因为球员“记错了比分”（状态跟踪不一致）。比如他以为票已经买好了，其实还没付钱，这种记忆错误随着时间推移会越积越大，最后导致任务彻底崩盘。
  - 在网页搜索任务中，失败往往是因为**“选错了路”**（工具选择错误），一旦走错，就很难回头了。

4. 一个生动的比喻：导航软件 vs. 自动驾驶

传统 AI 解释：就像导航软件告诉你“你迟到了 10 分钟”。它只告诉你结果，不告诉你过程。
Agentic AI 解释：就像自动驾驶的黑匣子。它记录了你每一秒的转向、加速、刹车。
- 如果车撞了，我们不能只说“因为车速太快”。
- 我们需要看黑匣子：是不是在第 3 秒时，司机（AI）误判了红绿灯？是不是在第 5 秒时，它忘记更新地图数据了？
- 这篇论文就是告诉我们：要修好自动驾驶，必须看黑匣子（轨迹），而不是只看事故报告（最终结果）。

5. 总结：我们要改变什么？

这篇论文呼吁大家改变看待 AI 错误的视角：

从“找原因”到“看过程”：不要只盯着最后的输出，要看它是怎么一步步走到那一步的。
从“静态”到“动态”：AI 的行为是流动的，解释也必须跟着时间流动。
从“模糊”到“精准”：新的方法能精准地指出：“嘿，你在第 12 步时，把‘取消订单’当成了‘修改订单’，这就是失败的原因。”

一句话总结：
以前的 AI 解释是**“批改作业”，告诉学生哪道题错了；现在的 AI 解释必须是“战术复盘”**，告诉教练在比赛的第几分钟、哪个环节、因为什么决策失误导致了输球。只有这样，我们才能真正信任并改进这些越来越聪明的 AI 助手。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题陈述 (Problem Statement)

核心矛盾：
传统的可解释人工智能（XAI）方法（如 SHAP、LIME）主要设计用于静态预测场景（Static Prediction），即针对单一输入 - 输出映射进行事后解释。然而，随着大语言模型（LLM）驱动的智能体 AI 系统（Agentic AI Systems）的兴起，AI 的行为不再是一次性的预测，而是表现为随时间展开的多步轨迹（Multi-step Trajectories），涉及观察、决策、工具调用和状态更新。

现有方法的局限性：

静态 XAI 的失效： 传统的归因方法（Attribution-based methods）试图解释单个预测的特征重要性，但无法有效诊断智能体在长程执行中为何失败。它们无法捕捉状态漂移、工具选择错误或策略转变等轨迹层面的动态问题。
解释单位的错位： 在智能体系统中，解释的基本单位应从“单一预测”转变为“轨迹”（即状态、动作和观察的序列）。
核心问题： 现有的归因方法能否可靠地诊断智能体执行层面的失败？如果不能，我们需要什么样的新解释框架？

2. 方法论 (Methodology)

为了弥合静态预测与智能体行为之间的差距，作者提出了以下方法论框架：

2.1 概念区分与分类学

作者明确区分了两种范式：

静态范式 (Static)： $y = f(x)$ ，解释针对单一输入输出。
智能体范式 (Agentic)： $\tau = (s_0, a_0, o_0, \dots, s_T)$ ，解释针对整个轨迹，涉及工具调用、状态更新和环境反馈。

2.2 最小解释包 (Minimal Explanation Packet, MEP)

作者提出了 MEP 概念，作为连接行为、证据和验证的统一单元。一个完整的 MEP 包含：

解释工件 (Artifact)： 人类可理解的解释（如特征归因图或推理轨迹）。
关联证据与执行上下文 (Linked Evidence & Context)： 支撑工件的材料（如输入实例、执行日志、检索文档、工具调用记录、状态快照）。
验证信号 (Verification Signals)： 指示解释可靠性的指标（如扰动稳定性、基于规则的违反标记、重放一致性检查）。

2.3 实验设置

研究在两个互补的场景下进行了实证比较：

静态场景： 使用在线职位发布数据集（IT vs. 非 IT 分类），应用 TF-IDF + 逻辑回归和 Text CNN 模型，使用 SHAP 和 LIME 进行解释。
智能体场景： 使用两个基准测试：
- TAU-bench Airline： 结构化航空客服任务（API 交互）。
- AssistantBench： 基于 Web 的辅助任务（多步导航与信息收集）。
- 模型： 使用 GPT-4.1 和 o4-mini 等 LLM 作为智能体核心。
评估指标：
- 静态： 解释稳定性（扰动下的特征排名相关性，Spearman $\rho$ ）。
- 智能体： 基于执行轨迹的**行为规则（Behavioral Rubrics）**评估。使用 LLM 法官（GPT-5）对轨迹进行后处理标记，评估维度包括：意图对齐、计划遵循、工具正确性、工具选择准确性、状态一致性、错误恢复等。

3. 关键贡献 (Key Contributions)

形式化区分： 首次明确区分了静态预测器的可解释性与智能体系统的可解释性，指出前者关注特征影响，后者关注轨迹决策账目。
跨范式分类学： 提出了从“特征级归因”到“轨迹级账目”的解释目标和工件分类体系。
实证对比与发现： 通过对比静态任务中的归因方法与智能体基准中的轨迹诊断，揭示了传统方法在智能体场景下的局限性，并证明了基于轨迹的规则评估在定位故障方面的有效性。
提出 MEP 框架： 为智能体系统提供了一种结构化的解释包装方式，强调解释必须与执行上下文和验证信号相结合。

4. 实验结果 (Results)

4.1 静态场景结果

稳定性高： 在静态分类任务中，归因方法（SHAP, LIME）表现稳定。TF-IDF + 逻辑回归模型的特征排名在扰动下具有高度一致性（Spearman $\rho = 0.86$ ）。
局限性： 这些方法仅能解释最终预测，无法揭示中间推理步骤或决策动态。

4.2 智能体场景结果

归因方法的失效： 即使将轨迹压缩为特征向量并应用 SHAP，归因方法也只能提供全局相关性（即哪些行为维度与成功相关），但无法可靠地定位特定失败运行中的具体约束违反（例如，无法指出具体哪一步的状态更新导致了后续崩溃）。
轨迹规则评估的有效性：
- TAU-bench Airline： 失败主要与状态跟踪不一致 (State Tracking Consistency) 相关。该指标在失败运行中的出现概率是成功运行的 2.7 倍，且当该规则被违反时，任务成功率下降了 49%。这表明失败往往是状态漂移累积导致的“缓慢崩溃”。
- AssistantBench： 失败主要由稀疏但决定性的错误驱动，特别是工具选择准确性 (Tool Choice Accuracy)。该指标在失败运行中出现概率极高（Ratio = $\infty$ ），且一旦违反，成功率为 0。这表明失败往往是“快速崩溃”，源于错误的分支决策。
诊断能力： 基于轨迹的规则评估能够直接定位执行层面的故障（如工具误用、状态不一致），而不仅仅是统计相关性。

4.3 桥接实验

通过将轨迹编码为规则特征向量并训练逻辑回归模型，SHAP 可以识别出哪些规则（如状态一致性）对结果影响最大。但这仍然是相关性分析，无法替代对具体执行轨迹的诊断性分析。

5. 意义与影响 (Significance)

范式转变： 论文论证了 XAI 必须从“静态解释”转向“轨迹级解释”。对于自主 AI 系统，解释不再是关于“模型为什么输出这个标签”，而是关于“智能体在执行过程中哪里出了问题以及为什么”。
安全与监管： 在医疗分诊、金融操作等高风险领域，仅解释最终输出是不够的。基于轨迹的解释（Trace-grounded explanations）能够支持审计、调试和可靠性评估，帮助理解错误是如何随时间累积的。
未来方向： 呼吁建立标准化的轨迹级解释框架，开发更强的验证机制（如反事实干预），并将可解释性与智能体评估更紧密地结合，以支持可信的自主 AI 部署。

总结

该论文通过实证研究证明，传统的基于特征归因的 XAI 方法无法有效诊断智能体 AI 在多步执行中的失败原因。相反，基于执行轨迹和规则（Rubrics）的诊断方法能够更准确地定位故障（如状态不一致或工具选择错误），为构建可审计、可信赖的自主智能体系统提供了新的理论基础和实践路径。