Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

本文提出了名为 NabaOS 的轻量级验证框架,该框架借鉴印度认识论(Nyaya Shastra)对 LLM 主张进行来源分类,并通过 HMAC 签名的工具执行收据在实时交互中高效检测幻觉,从而在极低延迟下实现了比零知识证明更实用的成本 - 延迟 - 覆盖权衡。

Abhinaba Basu

发布于 Thu, 12 Ma
📖 2 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 NabaOS 的新系统,它的核心目的是解决一个让 AI 助手非常头疼的问题:“一本正经地胡说八道”(幻觉)

想象一下,你让 AI 帮你查邮件、看股票或者找新闻。AI 可能会自信满满地告诉你:“爱丽丝给你发了 3 封邮件,主题是‘截止日期’。”
但真相可能是:AI 根本没查邮件,或者查了但只找到 1 封,甚至它把邮件主题编造成了“截止日期”。

传统的解决方法(比如零知识证明)就像是为了验证这句话,要求 AI 先花几分钟在超级计算机上跑一个复杂的数学证明。这太慢了,就像为了确认“今天天气不错”,让你先花半小时去气象局跑个实验,根本没法用在日常对话中。

NabaOS 的解决方案:给 AI 发“小票”(Receipts)

作者从古老的印度哲学(正理派 Nyāya)中汲取灵感,提出了一种更聪明、更轻量的方法。我们可以把它想象成**“给 AI 的每一次操作都打印一张带防伪码的小票”**。

1. 核心比喻:餐厅的小票 vs. 厨师的口头承诺

  • 以前的 AI(口头承诺): 厨师(AI)端上一盘菜,说:“这是刚炒的,有 5 个虾仁。”你只能选择相信他,或者怀疑他。如果他说谎,你很难当场揭穿。
  • NabaOS 系统(带小票):
    1. 当你问 AI 问题时,AI 会去“厨房”(调用工具,比如查邮件 API)干活。
    2. 厨房干活时,会自动生成一张加密的“小票”(Tool Receipt)。这张小票记录了:“在 10:00 查了邮件,找到了 3 封,内容是……" 并且盖上了一个只有厨房有、AI 拿不到的防伪印章(HMAC 签名)
    3. AI 把菜端给你时,必须同时出示这张小票。
    4. 系统会瞬间核对:AI 说的"5 个虾仁”和小票上的"3 封邮件”对得上吗?AI 提到的“小票编号”真的存在吗?

如果 AI 想撒谎(比如编造没查过的邮件),它拿不出那张带防伪章的小票,或者小票上的数字对不上,系统会立刻报警:“嘿,你在撒谎!”而且这个过程只需要15 毫秒,比你眨眼还快。

2. 聪明的分类法:不是非黑即白,而是“信任分级”

传统的验证系统通常只给两个结果:“是真的”或“是假的”。但这很笨,因为 AI 有时候是在推理,而不是在陈述事实

NabaOS 像一位聪明的老学究,把 AI 说的话分成五类(基于印度哲学的知识来源分类):

  1. 亲眼所见 (Pratyaks.a): AI 直接引用了小票上的数据。
    • 例子: “爱丽丝发了 3 封邮件。”(系统核对小票,确认无误 -> 完全可信
  2. 合理推测 (Anumāna): AI 根据数据猜出来的。
    • 例子: “爱丽丝看起来很焦虑。”(系统知道小票里只有邮件内容,没有“焦虑”这个词,所以标记为:这是 AI 的推测,仅供参考
  3. 听人说的 (Śabda): AI 引用了外部新闻。
    • 例子: “据路透社报道……"(系统会去检查是否真的抓取了路透社的页面 -> 可信度取决于来源
  4. 没找到 (Abhāva): AI 说“没找到结果”。
    • 例子: “没找到爱丽丝的邮件。”(系统核对小票,确认确实返回了空列表 -> 可信
  5. 瞎编的 (Ungrounded): AI 没有任何依据,纯粹瞎说。
    • 例子: “爱丽丝可能去了火星。”(系统没找到任何相关小票 -> 不可信,请忽略

这种分类的好处是: 它不会把 AI 的“合理推测”当成谎言直接杀掉,而是告诉用户:“这是推测,你要自己判断。”这比简单的“通过/不通过”要人性化得多。

3. 为什么它比“零知识证明”好?

  • 零知识证明 (ZK): 就像为了验证一道数学题,要求 AI 在黑板上写满几页复杂的公式,证明它算对了。虽然数学上无懈可击,但太慢了,而且就算算对了,如果题目本身是错的(比如 AI 算错了 2+2=5 但过程完美),它还是错的。
  • NabaOS (小票法): 不关心 AI 怎么算的,只关心它有没有真的去查。它直接看“小票”上的结果。
    • 速度: 快如闪电(<15 毫秒)。
    • 硬件: 普通手机或电脑就能跑,不需要昂贵的超级显卡。
    • 针对性: 专门抓“胡说八道”,而不是抓“计算过程”。

4. 实验结果:真的管用吗?

作者做了一个叫 NyayaVerifyBench 的考试,里面有 1800 个场景,故意让 AI 犯各种错误(比如编造工具调用、数错数量、瞎编新闻来源)。

  • 结果: NabaOS 抓出了 91% 的谎言。
  • 对比: 其他方法要么太慢(比如让 AI 自己检查自己,慢 3-5 秒),要么准确率只有 50% 左右。
  • 多语言: 无论用英语、中文、印地语还是西班牙语,效果都很稳定。因为“小票”是数字和代码,跟语言没关系。

总结

NabaOS 就像是给 AI 助手配了一个“随身审计员”。

它不要求 AI 变得完美无缺,而是通过**“小票验证”“知识分类”**,让用户清楚地知道:

  • 哪些话是 AI 亲眼看到的(可信);
  • 哪些话是 AI 猜的(仅供参考);
  • 哪些话是 AI 瞎编的(千万别信)。

这让 AI 变得透明实用,不再是一个只会一本正经胡说八道的黑盒子,而是一个我们可以放心托付日常任务的智能伙伴。