Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild

本文提出了 Real5-OmniDocBench,这是首个对 OmniDocBench v1.5 进行全规模物理重建的基准测试,通过覆盖扫描、形变、屏幕拍摄、光照和倾斜五种真实场景,首次实现了对文档解析性能下降因素的精确归因,揭示了当前视觉语言模型在真实物理世界中的显著差距。

Changda Zhou, Ziyue Gao, Xueqing Wang, Tingquan Gao, Cheng Cui, Jing Tang, Yi Liu

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一个名为 Real5-OmniDocBench 的新工具,它的出现是为了解决人工智能(AI)在“考试”和“实战”之间的巨大差距。

我们可以把这篇论文的故事想象成一场**“从模拟考到真实战场”的升级行动**。

1. 背景:AI 的“温室花朵”困境

想象一下,现在的文档识别 AI(比如能把 PDF 转成 Markdown 的模型)就像是在无菌温室里长大的优等生。

  • 过去的考试(OmniDocBench): 这些 AI 在“温室”里表现完美。试卷是电脑直接生成的,字迹清晰、纸张平整、光线完美。它们能拿到 99 分,大家觉得它们已经无所不能了。
  • 现实的战场: 但一旦把它们扔到现实生活中,问题就来了。现实中的文件可能是:
    • 被书脊压弯的(Warping/弯曲);
    • 在昏暗台灯下拍的(Illumination/光照不均);
    • 对着电脑屏幕翻拍的,有摩尔纹(Screen-Photography/屏幕翻拍);
    • 拿在手里拍歪了的(Skew/倾斜);
    • 或者是扫描仪扫出来的,带着纸张纹理和阴影(Scanning/扫描)。

痛点: 以前没有一种测试方法,能拿着同一份完美的电子试卷,去模拟这五种不同的“恶劣环境”,然后看看 AI 到底哪里崩了。以前的测试要么太假(全是完美图片),要么太乱(全是乱拍的照片,不知道原图长啥样,没法对比)。

2. 解决方案:Real5-OmniDocBench —— “物理复刻实验室”

作者团队(来自百度 PaddlePaddle 和港科大)做了一个非常硬核的实验,他们发明了 Real5-OmniDocBench

它的核心玩法是“物理复刻”:

  1. 原材料: 他们拿来了 1,355 页原本完美的电子文档(来自 OmniDocBench)。
  2. 打印与拍摄: 他们把这些文档用专业打印机打印出来,变成真实的纸张。
  3. 制造“灾难”: 然后,他们把这 1,355 份纸质文档,分别放入 5 种不同的“折磨”场景中:
    • 扫描场景: 像老式扫描仪那样扫,或者故意扫歪、夹书钉。
    • 弯曲场景: 把纸折起来、揉成团、卷成圆筒、或者放在书脊上拍。
    • 屏幕翻拍: 把文档显示在电脑、手机、平板上,再用手机去拍屏幕(制造摩尔纹)。
    • 光照场景: 用强光手电筒照、制造阴影、或者用有色灯光照。
    • 倾斜场景: 故意把手机拿歪了拍,制造 3D 透视变形。
  4. 黄金标准: 最关键的是,每一张“受折磨”的照片,背后都对应着那张完美的原始电子文档答案

这就好比: 以前我们只考 AI“背课文”,现在我们要考它“在狂风暴雨中、在摇晃的船上、在昏暗的灯光下,能不能把同一篇课文听写出来”。而且,因为我们有标准答案,我们可以精确地知道:AI 是因为看不清字错了,还是因为搞错了段落顺序错了,或者是把表格画歪了错了。

3. 惊人的发现:小模型反而更“皮实”

在这个新测试中,作者测试了 15 种最先进的 AI 模型,结果发现了一个反直觉的现象:

  • 大模型(General VLMs): 像 Qwen3-VL-235B 或 Gemini-3 Pro 这样的“巨无霸”模型,参数有几百亿甚至上千亿。它们在“温室”里很强,但在“物理战场”上,面对纸张弯曲或光线不好时,表现反而不如一些小模型
  • 小模型(Specialized VLMs):PaddleOCR-VL-1.5,参数只有 0.9B(9 亿),是个“小个子”。但它在所有恶劣环境下都表现得最稳定、最准确,甚至超过了那些大得多的模型。

比喻:
这就像是一个博学的教授(大模型)和一个经验丰富的老工匠(小模型)。

  • 教授读过万卷书,理论满分,但让他去处理一张被雨水泡烂、折得皱皱巴巴的旧报纸,他可能会因为太纠结于“完美的排版逻辑”而卡壳。
  • 老工匠虽然书读得少,但他每天都在处理各种烂摊子,他练就了一双“火眼金睛”,不管纸怎么皱、光怎么暗,他都能一眼看出重点在哪里,把字认对,把表格理顺。

结论: 在现实世界的文档处理中,“经验”(针对特定场景的训练)比“智商”(参数量大小)更重要

4. 这个测试有什么用?

Real5-OmniDocBench 就像是一个**“压力测试机”“体检中心”**。

  • 它不再只是给 AI 排个名(谁第一谁第二),而是能诊断:你的 AI 到底是因为“视力不好”(看不清字)失败了,还是因为“空间感差”(搞不懂透视)失败了?
  • 它告诉未来的开发者:别光想着把模型做大,要想办法让模型学会适应真实世界的“脏、乱、差”。

总结

这篇论文告诉我们:AI 文档识别技术离真正的“落地”还有很长的路要走。 现在的 AI 在电脑屏幕上很聪明,但到了现实世界(手里拿着皱巴巴的发票、在昏暗的地下室拍文件)就经常“掉链子”。

Real5-OmniDocBench 就是那个照妖镜,它把 AI 从温室里拽出来,放在真实的物理世界里摔打,告诉我们:想要真正的智能,光有大数据不够,还得有抗造的能力。而目前看来,那些专门针对文档训练的小模型,反而比通用的巨型模型更“抗造”。