Proof-of-Perception: Certified Tool-Using Multimodal Reasoning with Compositional Conformal Guarantees

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 “感知证明” (Proof-of-Perception, 简称 PoP) 的新系统。

为了让你轻松理解，我们可以把现在的多模态大模型（能看图说话的 AI）想象成一个才华横溢但有点急躁的“天才侦探”。

1. 现在的 AI 侦探有什么问题？

传统的 AI 侦探在破案（回答问题）时，通常是这样工作的：

一眼定案：它看一眼图片，脑子里瞬间闪过一个想法，然后直接给出答案。
盲目自信：即使它看错了（比如把"3"看成了"8"，或者把“苹果”看成了“橘子”），它也会非常自信地继续推理，最后给出一个看似合理但完全错误的答案。
没有退路：它一旦走错第一步，后面所有的推理都会建立在错误的基础上，就像多米诺骨牌一样倒塌，而且它自己还不知道。

痛点：这种“单步走”的模式容易犯错，而且一旦犯错，AI 会编造理由来圆谎（这就是所谓的“幻觉”）。

2. PoP 系统：给侦探配上了“质检员”和“预算管家”

PoP 把破案过程变成了一个有严格流程的“流水线工厂”，而不是靠灵光一现。它引入了三个核心角色：

🧩 角色一：带“安全网”的工人（节点与符合性预测）

在 PoP 里，AI 不再直接给答案，而是把任务拆成很多小步骤（比如：先读文字、再找物体、最后算数据）。

以前的做法：工人 A 读完文字，直接说：“这是'100'。”
PoP 的做法：工人 A 读完文字，会给出一个**“可能性的集合”**。
- 比喻：就像你让一个翻译官翻译一句话，他不敢只给一个词，而是说：“这句话可能是‘苹果’，也可能是‘梨’，或者是‘橘子’，但我有 90% 的把握答案就在这三个词里。”
- 技术叫法：这叫符合性预测 (Conformal Prediction)。它给每个步骤都打上了“置信度标签”，告诉系统：“在这个步骤，我有 90% 的把握答案在这个圈子里。”

🧠 角色二：精明的“预算管家”（自适应控制器）

这是 PoP 最聪明的地方。系统里有一个管家，手里拿着**“计算预算”**（比如只能花 10 块钱算力）。

以前的做法：不管问题难不难，AI 都花同样的力气，或者盲目地重试很多次。
PoP 的做法：管家看着每个工人的“安全网”。
- 如果工人 A 说：“我很有把握，答案就在'苹果'和'梨'里。” -> 管家说：“好，不用多花钱了，直接通过，进入下一步。”（节省算力）
- 如果工人 B 说：“哎呀，我看不太清，答案可能在'苹果'、'梨'、'橘子'、'香蕉'甚至'西瓜'里，我很不确定。” -> 管家说：“别急着过！你太不确定了。我给你加钱，让你换个高清镜头再试一次，或者叫个专家来帮忙。”（按需投入）
- 结果：简单的问题快刀斩乱麻，难的问题才舍得花钱，绝不浪费。

🔍 角色三：自我训练的“找茬专家”（自博弈反例挖掘）

为了让这个系统更皮实，PoP 还会自己给自己“制造麻烦”。

比喻：就像教练故意把图片弄模糊、把字体换掉、或者把图表打乱，让 AI 侦探去练。
作用：如果 AI 在这种“恶劣环境”下还能保持“安全网”不破裂，那它在真实世界里就绝对不会翻车。

3. 这个系统带来了什么好处？

不再“一本正经胡说八道”：
因为每一步都有“安全网”，如果某一步不确定，系统会停下来检查或重试，而不是硬着头皮编答案。这大大减少了幻觉（Hallucinations）。
省钱又高效：
它不像以前的系统那样，不管问题多简单都死磕到底。它像是一个精明的管家，该省则省，该花则花。在同样的算力预算下，它能算得更准；或者在同样的准确度下，它花的钱更少。
有据可查：
当它给出答案时，你能看到它是怎么一步步推导出来的，每一步都有证据支持（比如：“我之所以选'苹果'，是因为 OCR 工具在'苹果'和'梨'之间犹豫，但结合上下文排除了'梨'"）。

总结

PoP 就是把 AI 从一个“自信过头的直觉派”，变成了一个“严谨、懂得权衡、步步为营的专家”。

以前：AI 说：“我觉得是 A。”（错了也不承认）
现在：AI 说：“我有 90% 的把握是 A 或 B。如果不确定，我会多花点力气确认一下。如果确认了还是不行，我就告诉你‘我不知道’，而不是瞎编。”

这就是**“感知证明”**的核心：让 AI 的每一个感知步骤都有据可依，让每一次计算都花在刀刃上。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

核心痛点：
现有的多模态大语言模型（MLLMs）在处理文档理解、图表推理和多图问答等复杂任务时，存在以下主要缺陷：

单值中间态的脆弱性： 传统的推理过程（如 Chain-of-Thought 或 ReAct 代理）通常在每一步生成单一的中间结果（如一个 OCR 字符串、一个检测框）。一旦早期感知步骤出错，错误会级联传播，导致后续步骤基于错误信息进行“合理化”推理，产生自信但无依据的答案（幻觉）。
缺乏不确定性量化： 现有方法很少对中间步骤的不确定性进行量化。计算资源的分配通常基于启发式规则（如固定重试次数），而非基于可靠性的原则。
校准缺失： 即使有校准，通常也只针对最终答案，缺乏对感知和逻辑推理链中每一步的可靠性保证。

目标：
提出一种新的框架，将多模态推理转化为具有显式可靠性保证的可执行图，通过工具调用来生成经过校准的不确定性集合，从而在有限的计算预算下实现更准确、更可靠的推理。

2. 方法论 (Methodology)

论文提出了 Proof-of-Perception (PoP) 框架，其核心是将多模态推理建模为有向无环图 (DAG) 的执行过程，每个节点都配备共形预测 (Conformal Prediction, CP) 证书。

2.1 推理图表示 (Reasoning Graph)

节点类型：
- 感知节点 (Tool Nodes)： 调用外部工具（如 OCR、目标检测、图表解析器），输出结构化数据。
- 融合节点 (Fusion Nodes)： 在 MLLM 内部运行，聚合上游节点的感知证据和原始查询，生成逻辑推理或最终答案。
执行流程： 规划器（Planner）生成一个 DSL 程序，将其解析为 DAG，然后按拓扑顺序执行节点。

2.2 节点级共形预测 (Node-Level Conformal Prediction)

这是 PoP 的核心创新。对于每个节点 $v$ （类型为 $t$ ），系统不输出单一值，而是输出一个校准的集合 $\Gamma^{(t)}_{\delta}(x)$ 。

非一致性分数 (Nonconformity Score)： 定义函数 $s^{(t)}(x, z)$ $s^{(t)} (x, z)$ 衡量候选输出 $z$ $z$ 相对于输入 $x$ $x$ 的“异常程度”。
- 例如：OCR 字符串使用 $1 - P(z|x)$ ；检测框使用 $1 - \text{IoU}(z, \hat{z}_{MAP})$ 。
共形集合构建： 利用划分共形预测 (Split Conformal Prediction)，基于校准集计算阈值 $\tau^{(t)}_{\delta}$ $τ_{δ}^{(t)}$ 。
- 输出集合： $\Gamma^{(t)}_{\delta}(x) = \{z : s^{(t)}(x, z) \le \tau^{(t)}_{\delta}\}$ 。
- 保证： 在交换性假设下，真实值落在该集合内的概率至少为 $1-\delta$ （边际覆盖保证）。

2.3 自适应控制器 (Adaptive Controller)

一个轻量级的策略网络 $\pi_{\phi}$ 根据每个节点的证书状态（集合大小、分散度）和全局计算预算，决定下一步行动：

ACCEPT (接受)： 当前集合满足要求，进入下一节点。
RETRY (重试)： 以更高保真度（如更高分辨率裁剪）重新运行当前节点。
EXPAND (扩展)： 增加新的子节点（如调用额外的工具或并行处理）以细化当前节点。
ABORT (中止)： 如果预算耗尽且无法解决，提前终止。
作用： 将不确定性转化为计算策略，仅在需要时增加计算量，避免不必要的计算浪费。

2.4 训练与自我博弈 (Training & Self-Play)

损失函数： 结合任务损失、规划损失、证书损失（确保分数与阈值对齐）和控制器损失（平衡准确率与计算成本）。
自我博弈对抗挖掘 (Self-Play Counterexample Mining)： 学生模型与冻结的对抗模型进行博弈。对抗模型生成扰动样本（如字体变换、遮挡、布局混乱），筛选出难以处理的“对抗样本”加入校准池。这使得共形阈值能覆盖现实分布的偏移，提高鲁棒性。

3. 主要贡献 (Key Contributions)

首个多模态推理的节点级共形保证： 将共形预测引入多模态推理的每一步（OCR、检测、逻辑等），而非仅针对最终答案，提供了可验证的中间步骤可靠性。
基于证书的自适应计算分配： 提出了一种控制器，利用共形集合的不确定性信息动态调整计算资源（重试或扩展），实现了准确率与计算成本之间的原则性权衡。
减少幻觉与误差级联： 通过保留多个校准候选项直到证据消除歧义，显著减少了因早期感知错误导致的后续推理幻觉。
自我博弈增强鲁棒性： 引入对抗性样本挖掘机制，确保证书在分布外（OOD）或复杂场景下依然有效。

4. 实验结果 (Results)

实验在 DocVQA, TextVQA, InfographicVQA, ChartQA, MultiDoc2Dial 等多个基准上进行。

性能提升 (Q1)：
- 在多个数据集上，PoP 的准确率（EM/F1）显著优于强基线（Direct-MLLM, M-CoT, MM-ReAct, ProgVLM）。
- 幻觉率大幅降低： 相比最强基线，幻觉率降低了 27% - 45%。
- 计算效率： 在达到更高准确率的同时，使用的计算预算（工具调用次数）更少或相当。
覆盖保证 (Q2)：
- 节点级共形集合达到了预期的覆盖率目标（90%）。
- 即使在合成扰动（字体替换、遮挡、仿射变换）下，覆盖率依然保持稳定（约 90%），证明了自我博弈机制的有效性。
准确率 - 计算权衡 (Q3)：
- 在预算扫描实验中，PoP 在帕累托前沿上表现优异。例如，在 TextVQA 上，PoP 使用 12 单位预算即可达到其他基线在 16 单位预算下的性能，节省 25% 计算量。
- 控制器能够智能地在不确定性降低时停止扩展，避免过度计算。
消融实验 (Q4)：
- 移除共形预测 (No-CP) 导致准确率下降且幻觉率上升。
- 仅在最终答案使用 CP 不如节点级 CP 有效，证明了中间步骤校准的重要性。
- 使用启发式控制器（固定重试）比学习到的自适应控制器消耗更多预算且效果略差。

5. 意义与总结 (Significance)

学术价值：
PoP 解决了多模态推理中“黑盒”决策和错误级联的关键问题。它首次将形式化的统计保证（共形预测）与工具使用的多模态推理相结合，为 MLLM 的中间推理步骤提供了可验证的可靠性。

实际应用价值：

可解释性与信任： 系统不仅给出答案，还给出带有证据链的“感知证明”，用户可以看到哪些步骤是确定的，哪些是不确定的。
成本控制： 在资源受限的场景下（如边缘设备或高并发服务），PoP 能够根据任务难度动态调整计算量，实现性价比最优。
通用性： 该框架与底层的 MLLM 和具体工具无关，可以作为一个插件式模块集成到现有的多模态系统中。

结论：
Proof-of-Perception (PoP) 通过引入节点级的共形证书和自适应控制策略，成功地将多模态推理从“单次猜测”转变为“可验证的证据链”，在显著提升准确率和降低幻觉的同时，实现了计算资源的高效利用。这为构建高可靠性、可解释的下一代多模态 AI 系统提供了重要的技术路径。