Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何让 AI 金融助手在银行里既聪明又听话”**的故事。

想象一下，你是一家大银行的经理，你雇佣了一群超级聪明的 AI 助手（也就是论文里的"LLM Agents"）来处理复杂的金融任务，比如检查洗钱交易、批准投资或者修复数据错误。

但是，银行有个大麻烦：监管局（就像警察或审计员）会随时来查账。

🕵️‍♂️ 核心问题：为什么 AI 会“变脸”？

如果监管员问：“昨天那笔交易为什么被标记为可疑？”
你的 AI 助手必须能完美地重演当时的决策过程。

理想情况：你给 AI 同样的输入（同样的交易数据），它必须给出完全一样的结论，甚至完全一样的思考步骤。
现实情况：现在的 AI 有点像“薛定谔的猫”。你让它做同样的题，它这次可能答对了，下次可能答错了；或者这次它查了 A 数据库，下次它查了 B 数据库。

在普通聊天机器人里，这没关系（只要回答有趣就行）。但在金融领域，如果 AI 今天说“批准”，明天说“拒绝”，或者今天查了证据，明天瞎编理由，银行就会面临巨大的法律风险。

🛠️ 解决方案：DFAH（确定性 - 忠实度保障工具）

作者发明了一个叫 DFAH 的“测试工具箱”。它就像给 AI 助手戴上了一个**“测谎仪”和“复读机”**。

这个工具箱主要测两件事：

确定性（Determinism）：AI 是个“复读机”吗？
- 比喻：就像你让一个演员演同一个角色。如果你让他演 10 次，他每次说的台词、走的路线、做的动作都一模一样，那他就是“高确定性”。
- 现状：有些小模型（像 7B-20B 参数的小个子 AI）非常听话，让它做什么就做什么，每次结果都一样（确定性 100%）。但它们太死板了，经常答非所问（准确率很低，只有 20%-40%）。
- 现状：有些大模型（像 Claude、Gemini 这些“天才”）很聪明，能处理复杂问题，但它们太“有个性”了。每次思考的路径都不一样，甚至有时候结论会变（确定性只有 50%-90%）。
忠实度（Faithfulness）：AI 是“诚实”的吗？
- 比喻：AI 在写报告时，是真的去查了档案（证据），还是在瞎编故事（幻觉）？
- 现状：很多 AI 即使结论对了，理由也可能是编的。DFAH 会检查 AI 的每一个结论是否都能在它查到的资料里找到“铁证”。

🔥 最惊人的发现：聪明和听话，竟然不能兼得！

作者测试了 4700 多次，发现了一个反直觉的真相：

AI 的“确定性”和“准确性”之间，没有任何关系！

小模型（Tier 1）：像个死板的机器人。它每次都说“我要调查”，不管是不是真的可疑。
- 优点：每次结果都一样，审计员查起来很爽（确定性 100%）。
- 缺点：经常误判，准确率很低。
大模型（Frontier）：像个有主见的专家。它能分析得很准，但每次分析的路径都不一样。
- 优点：判断比较准。
- 缺点：你让它重演一遍，它可能换了个理由，甚至结论变了。审计员会抓狂：“你上次不是这么说的！”

结论：目前没有任何一个 AI 既能100% 听话（确定性高），又能100% 聪明（准确率高）。

💡 给银行的建议：怎么选？

既然没有完美的 AI，银行该怎么用？论文给出了“分层策略”：

对于“生死攸关”的任务（如反洗钱、监管报告）：
- 选小模型 + 严格规则。
- 比喻：就像用自动售货机。虽然它只能卖固定的几种饮料（功能有限），但你投同样的币，出来的东西永远一样。审计员最喜欢这种，因为可预测、可重演。哪怕它偶尔卖错，只要它是“稳定地错”，总比“随机地错”好。
- 做法：给 AI 套上“紧箍咒”（Schema-first），强制它按固定格式输出，不要让它自由发挥。
对于“辅助建议”的任务（如投资研究、客户咨询）：
- 选大模型 + 人工审核。
- 比喻：就像请天才顾问。他很有才华，能给出绝妙的建议，但他每次思考的方式都不同。
- 做法：让他出主意，但必须有人类经理签字确认才能执行。人类就是那个“确定性”的保障。

📝 一句话总结

这篇论文告诉我们要放弃“既要又要”的幻想。在金融监管领域，“可重复的平庸”比“不可预测的聪明”更安全。

如果你想让 AI 进银行，先别管它有多聪明，先问它：“你能保证每次做同样的事，都给出完全一样的结果吗？” 如果它不能，那它就不适合做那些需要审计的关键工作。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem Definition)

核心问题：
大型语言模型（LLM）智能体在金融领域的快速部署（如合规审查、投资组合再平衡）面临一个关键挑战：监管审计重放（Regulatory Audit Replay）的失败。
当监管机构要求机构在输入完全相同的情况下重放某个被标记的交易决策时，大多数现有的 LLM 智能体部署无法返回一致的结果。

具体痛点：

确定性缺失 (Lack of Determinism)： 即使温度参数设为 0.0，智能体在不同运行中可能调用不同的工具序列（轨迹漂移），导致最终决策虽然可能一致，但内部推理路径不可复现。
忠实性存疑 (Unfaithfulness)： 智能体的决策可能基于虚构的推理（幻觉），而非检索到的真实证据。
评估指标错位： 现有的评估往往关注任务准确率（Accuracy），但在受监管的金融环境中，可复现性（Reproducibility） 比单纯的准确率更关键。如果模型无法在相同输入下产生相同输出，其准确率在审计视角下是不可信的。

目标：
建立一个框架，用于量化工具使用型智能体的轨迹确定性、决策确定性以及基于证据的忠实性，并探究这些指标之间的关系。

2. 方法论：DFAH 框架 (Methodology: DFAH Framework)

作者提出了 确定性 - 忠实性保障框架 (Determinism-Faithfulness Assurance Harness, DFAH)，该框架包含以下核心组件和定义：

2.1 核心指标定义

动作确定性 (Action Determinism)： 工具调用序列是否完全一致。
签名确定性 (Signature Determinism)： 工具调用序列及其参数是否完全一致（最严格的审计标准）。
决策确定性 (Decision Determinism)： 最终决策结果（如“升级”、“驳回”）是否一致。
- 注：审计通常要求 $Pass_k$ （所有 $k$ 次尝试都成功），而非 $Pass@k$ （至少一次成功）。
证据忠实性 (Evidence-Conditioned Faithfulness)： 决策理由中的主张是否与检索到的证据对齐。
- 实现： 使用启发式算法（词法/语义重叠、数值精确匹配）而非 LLM 裁判，以避免评估过程本身引入随机性。

2.2 评估架构

任务运行器 (Task Runner)： 在受控随机性（T=0.0）下执行智能体试验。
轨迹存储 (Trajectory Store)： 记录所有工具调用、参数和结果，用于重放和比较。
评分器套件 (Grader Suite)：
- 代码级评分器： 用于确定性检查（无随机性）。
- 人类评分器： 用于校准忠实性（金标准）。
压力测试场景： 包括重新部署扰动、数据质量故障注入、时间偏移（过时数据）和市场冲击模拟。

2.3 实验设置

规模： 4,700+ 次智能体运行。
模型： 7 个模型（涵盖 4 个提供商），分为三个层级：
- Tier 1 (7-20B)： 本地推理，如 Qwen2.5-7B, Granite-3-8B。
- Tier 2 (40-70B)： 云推理，如 Llama-3-70B。
- Frontier (前沿)： API 模型，如 Claude Opus/Sonnet, Gemini 2.0/2.5。
基准测试： 3 个金融领域基准（各 50 个案例）：
1. 合规分类 (Compliance Triage)： 决定交易是升级、驳回还是调查。
2. 投资组合约束 (Portfolio Constraint)： 验证交易是否违反持仓限制。
3. DataOps 异常 (DataOps Exception)： 处理金融数据管道中的异常。

3. 关键发现与结果 (Key Results)

3.1 确定性与准确率无相关性 (核心发现)

统计结果： 在 21 种模型 - 基准配置中，决策确定性与任务准确率之间没有检测到显著相关性 ( $r = -0.11, p = 0.63$ )。
含义： 模型可以是确定的但不准确，也可以是准确的但不确定。因此，必须独立测量这两个指标，不能仅用准确率来推断确定性。

3.2 模型层级的表现差异

小模型 (Tier 1, 7-20B)：
- 表现： 实现了近乎完美的确定性（94%-100%），但准确率较低（20%-42%）。
- 原因： 通过僵化的模式匹配（Pattern Matching）实现确定性。例如，Qwen2.5-7B 在 76% 的合规案例中默认选择“调查”，导致高确定性但低准确率。
前沿模型 (Frontier Models)：
- 表现： 确定性中等（50%-96%），准确率较高但波动大（14%-69%）。
- 原因： 它们通过探索多样化的工具路径来推理，导致“结论相同，推理路径不同”（Same Conclusion, Different Reasoning）的现象。
- 数据： Claude Opus 在合规任务中准确率达 68.7%，但决策确定性仅为 72%，签名确定性（工具序列）仅为 44%。
结论： 没有任何模型同时实现了完美确定性和高准确率。

3.3 任务结构的影响

结构化任务（如 SQL 生成）比半结构化任务（如 DataOps 异常处理）具有更高的确定性。
在智能体设置中，工具调用路径的方差是复现性失败的主要来源，而非最终决策的方差。

3.4 压力测试

Tier 1 模型配合“Schema-First"（基于 Schema 的约束）架构，在重新部署和数据故障注入下仍能保持高确定性。
前沿模型在面对压力时表现出更大的行为方差。

4. 主要贡献 (Contributions)

DFAH 框架： 首次为工具使用型智能体形式化了轨迹确定性、决策确定性和证据忠实性的定义，并提供了开源实现。
实证发现： 证明了确定性与准确率之间不存在相关性，推翻了“高准确率隐含高可靠性”的假设，确立了多指标独立评估的必要性。
大规模评估： 提供了涵盖 7 个模型、4 个提供商、3 个金融基准的 4,700+ 次运行数据，揭示了不同模型层级的确定性特征。
权衡特征化： 揭示了“小模型通过模式匹配获得高确定性但牺牲准确率”与“大模型通过多样化路径获得高准确率但牺牲确定性”之间的权衡。
实践指南： 提出了基于模型层级的部署建议（如合规任务首选 Tier 1 + Schema 架构，咨询任务可使用 Frontier 模型但需人工监督）。

5. 意义与启示 (Significance)

5.1 监管合规视角

审计优先： 在金融监管中，可复现性（Reproducibility） 优于边际准确率提升。如果一个模型无法在相同输入下重放相同决策，其准确率在审计中是无效的。
Passk 标准： 监管审查要求所有历史决策都能被重放（Passk），而非只要有一次成功（Pass@k）。DFAH 框架直接针对这一需求。

5.2 部署策略建议

Tier 1 模型 (7-20B)： 适合 AML（反洗钱）、合规审查等需要严格审计重放的场景。建议配合“Schema-First"架构使用，以牺牲部分准确率换取可审计性。
Frontier 模型： 适合研究、复杂咨询等需要人类在环（Human-in-the-Loop）监督的场景。其高准确率值得人工审核带来的开销，但不能用于自主合规任务。
验证成本： 小模型所需的验证样本量远小于大模型（Tier 3 模型需要 Tier 1 模型 3.7 倍的样本量才能达到同等统计可靠性），这使得小模型在经济上更适合合规部署。

5.3 行业影响

该研究挑战了当前盲目追求更大参数模型的趋势，指出在受监管的金融环境中，经过优化的中小模型配合结构化约束可能是更优的解决方案。它强调了在 AI 治理中，必须将“确定性”作为与“准确性”同等重要的核心指标。

总结

这篇论文通过构建 DFAH 框架，揭示了当前 LLM 智能体在金融应用中存在的“确定性 - 准确性”解耦现象。它证明了在监管环境下，可复现的中等准确率比不可复现的高准确率更有价值，并为金融机构选择模型、设计架构和制定审计策略提供了基于数据的科学依据。