From Features to Actions: Explainability in Traditional and Agentic AI Systems

该论文通过对比静态分类任务中的归因解释与智能体基准测试中的轨迹诊断,揭示了传统特征归因方法无法有效诊断智能体执行失败,从而论证了转向轨迹级可解释性对于评估和诊断自主 AI 行为(特别是状态跟踪不一致问题)的必要性。

Sindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori, Muskan Garg, Dhanesh Ramachandram, Shaina Raza

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣且重要的话题:当人工智能从“做题家”变成“行动派”时,我们该如何理解它的错误?

为了让你轻松理解,我们可以把这篇论文的核心思想想象成**“从检查一张试卷,到复盘一场足球比赛”**的区别。

1. 过去的 AI:只会做选择题的“做题家”

(传统静态 AI)

  • 场景:想象一个学生(AI)正在做一道数学题。你给他题目(输入),他给出答案(输出)。
  • 旧的解释方法:如果学生做错了,老师(解释系统)会拿着红笔在题目上圈出来:“你看,因为你没注意到这个‘负号’,所以错了。”
  • 特点:这种解释只关注**“输入”和“输出”**之间的关系。它很擅长告诉你“哪个词”或“哪个数字”影响了结果。
  • 论文发现:对于这种简单的“做题”场景,旧方法(如 SHAP、LIME)非常管用,很稳定,能准确指出是哪里出了问题。

2. 现在的 AI:会思考、会行动的“足球运动员”

(智能体/Agentic AI)

  • 场景:现在的 AI 不再只是做题,它像是一个足球队的队长。它要完成一个复杂任务(比如“帮用户订机票”)。
    • 它要先查天气(观察)。
    • 然后决定去哪个网站(决策)。
    • 接着调用订票 API(使用工具)。
    • 如果网站报错,它得想办法换一家(纠错)。
    • 最后把票发给你。
  • 新挑战:如果这个“队长”搞砸了任务,仅仅告诉他“最后的结果是错的”有什么用呢?
    • 是因为他一开始选错了球队?
    • 是因为他在第 5 步记错了比分(状态不一致)?
    • 还是因为他用了错误的战术(工具调用错误)?
  • 旧方法的失效:如果你还用老办法(像分析数学题那样),试图找出“哪个词”导致了失败,你会发现完全行不通。因为失败往往不是由某一个词决定的,而是由一连串的动作、记忆偏差和错误的连锁反应导致的。

3. 论文的核心发现:我们需要“比赛复盘”,而不是“试卷批改”

作者通过实验发现了一个巨大的鸿沟:

  • 旧方法(归因法):就像只给球员看最后比分。它能告诉你“进攻”和“防守”哪个更重要(整体相关性),但无法告诉你为什么刚才那个球没进——是因为传球失误?还是守门员判断错了?它无法定位到具体的某一步哪里出了问题。
  • 新方法(轨迹追踪法):就像比赛录像回放(Trace)
    • 作者提出了一种新的“解释包”(MEP),它记录了球员每一步的思考、每一个动作、每一次传球。
    • 通过回放录像,他们发现:
      • 在订机票任务中,80% 的失败是因为球员“记错了比分”(状态跟踪不一致)。比如他以为票已经买好了,其实还没付钱,这种记忆错误随着时间推移会越积越大,最后导致任务彻底崩盘。
      • 在网页搜索任务中,失败往往是因为**“选错了路”**(工具选择错误),一旦走错,就很难回头了。

4. 一个生动的比喻:导航软件 vs. 自动驾驶

  • 传统 AI 解释:就像导航软件告诉你“你迟到了 10 分钟”。它只告诉你结果,不告诉你过程。
  • Agentic AI 解释:就像自动驾驶的黑匣子。它记录了你每一秒的转向、加速、刹车。
    • 如果车撞了,我们不能只说“因为车速太快”。
    • 我们需要看黑匣子:是不是在第 3 秒时,司机(AI)误判了红绿灯?是不是在第 5 秒时,它忘记更新地图数据了?
    • 这篇论文就是告诉我们:要修好自动驾驶,必须看黑匣子(轨迹),而不是只看事故报告(最终结果)。

5. 总结:我们要改变什么?

这篇论文呼吁大家改变看待 AI 错误的视角:

  1. 从“找原因”到“看过程”:不要只盯着最后的输出,要看它是怎么一步步走到那一步的。
  2. 从“静态”到“动态”:AI 的行为是流动的,解释也必须跟着时间流动。
  3. 从“模糊”到“精准”:新的方法能精准地指出:“嘿,你在第 12 步时,把‘取消订单’当成了‘修改订单’,这就是失败的原因。”

一句话总结
以前的 AI 解释是**“批改作业”,告诉学生哪道题错了;现在的 AI 解释必须是“战术复盘”**,告诉教练在比赛的第几分钟、哪个环节、因为什么决策失误导致了输球。只有这样,我们才能真正信任并改进这些越来越聪明的 AI 助手。