Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 NabaOS 的新系统，它的核心目的是解决一个让 AI 助手非常头疼的问题：“一本正经地胡说八道”（幻觉）。

想象一下，你让 AI 帮你查邮件、看股票或者找新闻。AI 可能会自信满满地告诉你：“爱丽丝给你发了 3 封邮件，主题是‘截止日期’。”
但真相可能是：AI 根本没查邮件，或者查了但只找到 1 封，甚至它把邮件主题编造成了“截止日期”。

传统的解决方法（比如零知识证明）就像是为了验证这句话，要求 AI 先花几分钟在超级计算机上跑一个复杂的数学证明。这太慢了，就像为了确认“今天天气不错”，让你先花半小时去气象局跑个实验，根本没法用在日常对话中。

NabaOS 的解决方案：给 AI 发“小票”（Receipts）

作者从古老的印度哲学（正理派 Nyāya）中汲取灵感，提出了一种更聪明、更轻量的方法。我们可以把它想象成**“给 AI 的每一次操作都打印一张带防伪码的小票”**。

1. 核心比喻：餐厅的小票 vs. 厨师的口头承诺

以前的 AI（口头承诺）： 厨师（AI）端上一盘菜，说：“这是刚炒的，有 5 个虾仁。”你只能选择相信他，或者怀疑他。如果他说谎，你很难当场揭穿。
NabaOS 系统（带小票）：
1. 当你问 AI 问题时，AI 会去“厨房”（调用工具，比如查邮件 API）干活。
2. 厨房干活时，会自动生成一张加密的“小票”（Tool Receipt）。这张小票记录了：“在 10:00 查了邮件，找到了 3 封，内容是……" 并且盖上了一个只有厨房有、AI 拿不到的防伪印章（HMAC 签名）。
3. AI 把菜端给你时，必须同时出示这张小票。
4. 系统会瞬间核对：AI 说的"5 个虾仁”和小票上的"3 封邮件”对得上吗？AI 提到的“小票编号”真的存在吗？

如果 AI 想撒谎（比如编造没查过的邮件），它拿不出那张带防伪章的小票，或者小票上的数字对不上，系统会立刻报警：“嘿，你在撒谎！”而且这个过程只需要15 毫秒，比你眨眼还快。

2. 聪明的分类法：不是非黑即白，而是“信任分级”

传统的验证系统通常只给两个结果：“是真的”或“是假的”。但这很笨，因为 AI 有时候是在推理，而不是在陈述事实。

NabaOS 像一位聪明的老学究，把 AI 说的话分成五类（基于印度哲学的知识来源分类）：

亲眼所见 (Pratyaks.a)： AI 直接引用了小票上的数据。
- 例子： “爱丽丝发了 3 封邮件。”（系统核对小票，确认无误 -> 完全可信）
合理推测 (Anumāna)： AI 根据数据猜出来的。
- 例子： “爱丽丝看起来很焦虑。”（系统知道小票里只有邮件内容，没有“焦虑”这个词，所以标记为：这是 AI 的推测，仅供参考）
听人说的 (Śabda)： AI 引用了外部新闻。
- 例子： “据路透社报道……"（系统会去检查是否真的抓取了路透社的页面 -> 可信度取决于来源）
没找到 (Abhāva)： AI 说“没找到结果”。
- 例子： “没找到爱丽丝的邮件。”（系统核对小票，确认确实返回了空列表 -> 可信）
瞎编的 (Ungrounded)： AI 没有任何依据，纯粹瞎说。
- 例子： “爱丽丝可能去了火星。”（系统没找到任何相关小票 -> 不可信，请忽略）

这种分类的好处是： 它不会把 AI 的“合理推测”当成谎言直接杀掉，而是告诉用户：“这是推测，你要自己判断。”这比简单的“通过/不通过”要人性化得多。

3. 为什么它比“零知识证明”好？

零知识证明 (ZK)： 就像为了验证一道数学题，要求 AI 在黑板上写满几页复杂的公式，证明它算对了。虽然数学上无懈可击，但太慢了，而且就算算对了，如果题目本身是错的（比如 AI 算错了 2+2=5 但过程完美），它还是错的。
NabaOS (小票法)： 不关心 AI 怎么算的，只关心它有没有真的去查。它直接看“小票”上的结果。
- 速度： 快如闪电（<15 毫秒）。
- 硬件： 普通手机或电脑就能跑，不需要昂贵的超级显卡。
- 针对性： 专门抓“胡说八道”，而不是抓“计算过程”。

4. 实验结果：真的管用吗？

作者做了一个叫 NyayaVerifyBench 的考试，里面有 1800 个场景，故意让 AI 犯各种错误（比如编造工具调用、数错数量、瞎编新闻来源）。

结果： NabaOS 抓出了 91% 的谎言。
对比： 其他方法要么太慢（比如让 AI 自己检查自己，慢 3-5 秒），要么准确率只有 50% 左右。
多语言： 无论用英语、中文、印地语还是西班牙语，效果都很稳定。因为“小票”是数字和代码，跟语言没关系。

总结

NabaOS 就像是给 AI 助手配了一个“随身审计员”。

它不要求 AI 变得完美无缺，而是通过**“小票验证”和“知识分类”**，让用户清楚地知道：

哪些话是 AI 亲眼看到的（可信）；
哪些话是 AI 猜的（仅供参考）；
哪些话是 AI 瞎编的（千万别信）。

这让 AI 变得透明且实用，不再是一个只会一本正经胡说八道的黑盒子，而是一个我们可以放心托付日常任务的智能伙伴。

Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

1. 核心比喻：餐厅的小票 vs. 厨师的口头承诺

2. 聪明的分类法：不是非黑即白，而是“信任分级”

3. 为什么它比“零知识证明”好？

4. 实验结果：真的管用吗？

总结

论文技术总结：工具收据而非零知识证明：AI 代理幻觉检测的实用方案

1. 研究背景与问题定义 (Problem)

2. 方法论：NabaOS 验证框架 (Methodology)

2.1 认识论分类体系 (Pramāṇa Classification)

2.2 工具执行收据 (Tool Execution Receipts)

2.3 验证协议流程

2.4 深度代理交叉检查 (Deep Agent Cross-Checking)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与结论 (Significance)

Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

1. 核心比喻：餐厅的小票 vs. 厨师的口头承诺

2. 聪明的分类法：不是非黑即白，而是“信任分级”

3. 为什么它比“零知识证明”好？

4. 实验结果：真的管用吗？

总结

论文技术总结：工具收据而非零知识证明：AI 代理幻觉检测的实用方案

1. 研究背景与问题定义 (Problem)

2. 方法论：NabaOS 验证框架 (Methodology)

2.1 认识论分类体系 (Pramāṇa Classification)

2.2 工具执行收据 (Tool Execution Receipts)

2.3 验证协议流程

2.4 深度代理交叉检查 (Deep Agent Cross-Checking)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与结论 (Significance)

类似论文

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem