Proof-of-Perception: Certified Tool-Using Multimodal Reasoning with Compositional Conformal Guarantees

本文提出了 Proof-of-Perception (PoP) 框架,通过将多模态推理构建为具有组合保形保证的可执行图,利用带校准不确定性的工具调用来实现可验证的证据 grounding、减少幻觉,并在文档、图表及多图像问答任务中实现了比现有基线更优的性能与计算效率。

Arya Fayyazi, Haleh Akrami

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 “感知证明” (Proof-of-Perception, 简称 PoP) 的新系统。

为了让你轻松理解,我们可以把现在的多模态大模型(能看图说话的 AI)想象成一个才华横溢但有点急躁的“天才侦探”

1. 现在的 AI 侦探有什么问题?

传统的 AI 侦探在破案(回答问题)时,通常是这样工作的:

  • 一眼定案:它看一眼图片,脑子里瞬间闪过一个想法,然后直接给出答案。
  • 盲目自信:即使它看错了(比如把"3"看成了"8",或者把“苹果”看成了“橘子”),它也会非常自信地继续推理,最后给出一个看似合理但完全错误的答案。
  • 没有退路:它一旦走错第一步,后面所有的推理都会建立在错误的基础上,就像多米诺骨牌一样倒塌,而且它自己还不知道。

痛点:这种“单步走”的模式容易犯错,而且一旦犯错,AI 会编造理由来圆谎(这就是所谓的“幻觉”)。


2. PoP 系统:给侦探配上了“质检员”和“预算管家”

PoP 把破案过程变成了一个有严格流程的“流水线工厂”,而不是靠灵光一现。它引入了三个核心角色:

🧩 角色一:带“安全网”的工人(节点与符合性预测)

在 PoP 里,AI 不再直接给答案,而是把任务拆成很多小步骤(比如:先读文字、再找物体、最后算数据)。

  • 以前的做法:工人 A 读完文字,直接说:“这是'100'。”
  • PoP 的做法:工人 A 读完文字,会给出一个**“可能性的集合”**。
    • 比喻:就像你让一个翻译官翻译一句话,他不敢只给一个词,而是说:“这句话可能是‘苹果’,也可能是‘梨’,或者是‘橘子’,但我有 90% 的把握答案就在这三个词里。”
    • 技术叫法:这叫符合性预测 (Conformal Prediction)。它给每个步骤都打上了“置信度标签”,告诉系统:“在这个步骤,我有 90% 的把握答案在这个圈子里。”

🧠 角色二:精明的“预算管家”(自适应控制器)

这是 PoP 最聪明的地方。系统里有一个管家,手里拿着**“计算预算”**(比如只能花 10 块钱算力)。

  • 以前的做法:不管问题难不难,AI 都花同样的力气,或者盲目地重试很多次。
  • PoP 的做法:管家看着每个工人的“安全网”。
    • 如果工人 A 说:“我很有把握,答案就在'苹果'和'梨'里。” -> 管家说:“好,不用多花钱了,直接通过,进入下一步。”(节省算力
    • 如果工人 B 说:“哎呀,我看不太清,答案可能在'苹果'、'梨'、'橘子'、'香蕉'甚至'西瓜'里,我很不确定。” -> 管家说:“别急着过!你太不确定了。我给你加钱,让你换个高清镜头再试一次,或者叫个专家来帮忙。”(按需投入
    • 结果:简单的问题快刀斩乱麻,难的问题才舍得花钱,绝不浪费

🔍 角色三:自我训练的“找茬专家”(自博弈反例挖掘)

为了让这个系统更皮实,PoP 还会自己给自己“制造麻烦”。

  • 比喻:就像教练故意把图片弄模糊、把字体换掉、或者把图表打乱,让 AI 侦探去练。
  • 作用:如果 AI 在这种“恶劣环境”下还能保持“安全网”不破裂,那它在真实世界里就绝对不会翻车。

3. 这个系统带来了什么好处?

  1. 不再“一本正经胡说八道”
    因为每一步都有“安全网”,如果某一步不确定,系统会停下来检查或重试,而不是硬着头皮编答案。这大大减少了幻觉(Hallucinations)。

  2. 省钱又高效
    它不像以前的系统那样,不管问题多简单都死磕到底。它像是一个精明的管家,该省则省,该花则花。在同样的算力预算下,它能算得更准;或者在同样的准确度下,它花的钱更少。

  3. 有据可查
    当它给出答案时,你能看到它是怎么一步步推导出来的,每一步都有证据支持(比如:“我之所以选'苹果',是因为 OCR 工具在'苹果'和'梨'之间犹豫,但结合上下文排除了'梨'")。

总结

PoP 就是把 AI 从一个“自信过头的直觉派”,变成了一个“严谨、懂得权衡、步步为营的专家”。

  • 以前:AI 说:“我觉得是 A。”(错了也不承认)
  • 现在:AI 说:“我有 90% 的把握是 A 或 B。如果不确定,我会多花点力气确认一下。如果确认了还是不行,我就告诉你‘我不知道’,而不是瞎编。”

这就是**“感知证明”**的核心:让 AI 的每一个感知步骤都有据可依,让每一次计算都花在刀刃上。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →