DocSplit: A Comprehensive Benchmark Dataset and Evaluation Approach for Document Packet Recognition and Splitting

本文提出了首个综合基准数据集 DocSplit 及新颖评估指标,旨在解决现实场景中多文档混合包(包含乱序、交错或缺乏明确分隔等复杂情况)的识别与拆分难题,并通过实验揭示了当前多模态大语言模型在此任务上的显著性能差距,为法律、金融等文档密集型领域的理解能力发展提供了系统性框架。

Md Mofijul Islam, Md Sirajus Salekin, Nivedha Balakrishnan, Vincil C. Bishop, Niharika Jain, Spencer Romo, Bob Strahan, Boyi Xie, Diego A. Socolinsky

发布于 2026-02-19
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DocSplit 的新工具和新标准,旨在解决现实生活中一个非常头疼的问题:如何把一捆乱糟糟的“文件包”自动拆分成整齐、有序的单份文件。

为了让你轻松理解,我们可以把这篇论文的核心内容想象成**“整理乱序的乐高积木”“整理被猫打翻的拼图”**。

1. 核心问题:一捆乱糟糟的文件包

想象一下,你收到一个大信封(文档包),里面装着几份不同的文件:一份是医疗账单,一份是房屋契约,还有一份是个人简历

但在现实生活中,这些文件往往不是整齐地叠在一起的,而是:

  • 打乱了顺序:账单的第 1 页、契约的第 3 页、简历的第 2 页混在一起。
  • 穿插在一起:账单的几页和契约的几页像洗牌一样交错排列。
  • 没有明显界限:有时候两份文件连在一起,中间没有明显的“结束”或“开始”标记。

现在的 AI 虽然很聪明,能看懂单页文件(比如识别这是一张发票),但面对这种**“一锅乱炖”**的文件包,它们往往分不清哪里是一份文件的结束,哪里是另一份的开始,更别提把打乱的页面重新排好序了。

2. 解决方案:DocSplit(文档拆分基准)

为了解决这个问题,亚马逊的研究团队推出了 DocSplit。你可以把它想象成**“整理文件的终极考试”“训练教材”**。

A. 五套不同难度的“考题” (数据集)

为了测试 AI 到底有没有真本事,他们设计了五种不同难度的场景(就像游戏里的关卡):

  1. 同类型连续:全是同一种文件(比如全是发票),只是连在一起。这就像把同色的乐高积木混在一起,只要看颜色就能分开。
  2. 同类型打乱:全是同一种文件,但页面顺序全乱了。这就像把同一盒乐高倒出来,需要靠形状拼回去。
  3. 多类型连续:不同文件(发票、合同、简历)按顺序放好,但混在一个包里。这就像把不同颜色的乐高块按顺序堆叠,需要识别颜色变化来拆分。
  4. 多类型穿插:不同文件的页面像扑克牌一样交错在一起。这就像把红蓝两色的乐高块完全混在一起,需要极高的逻辑能力把它们分开。
  5. 多类型大乱炖:所有页面随机打乱,毫无规律。这是“地狱难度”,完全考验 AI 的直觉和推理能力。

B. 新的“评分标准” (评估指标)

以前,我们评价 AI 做得好不好,通常只看“全对”还是“全错”(非黑即白)。但这在整理文件时不公平:

  • 如果 AI 把 10 页文件分对了 9 页,只错了一页,按旧标准可能算“不及格”。
  • 如果 AI 把顺序完全颠倒了,旧标准可能和“顺序乱了一点点”给一样的低分。

DocSplit 提出了一套更细腻的评分系统

  • 聚类分(Clustering):看它能不能把属于同一份文件的页面“认对”并聚在一起。
  • 排序分(Ordering):看它能不能把页面按正确的先后顺序排好。
  • 综合分:结合两者,给 AI 一个更公平的分数。哪怕它只错了一点点,也能得到相应的分数,而不是直接判零分。

3. 实验结果:AI 还需要努力

研究人员用这套新标准测试了目前最厉害的几种 AI 模型(像 Claude, Qwen, DeepSeek 等)。结果发现:

  • 简单题做得不错:如果文件类型不同且顺序没乱,AI 能分得很准。
  • 难题就露馅了:一旦文件类型相同且页面打乱,或者完全随机混合,AI 的表现就大幅下降。
  • 主要瓶颈:AI 最擅长的是“排顺序”,但最弱的是“分界线”。它很难判断“这份文件到底在哪一页结束,下一份文件从哪一页开始”。

4. 为什么这很重要?

想象一下现实世界:

  • 医院:病人的病历、化验单、保险单混在一起,如果分错了,可能导致误诊或理赔失败。
  • 银行:贷款申请里夹着房产证、收入证明和身份证,如果整理错了,贷款审批就会卡住。
  • 法律:案件证据成千上万页,如果分错了文件,可能会输掉官司。

DocSplit 就像给这些行业提供了一个**“训练场”和“标尺”**,告诉开发者们:“看,现在的 AI 在这里还做得不够好,我们需要更聪明的模型来自动整理这些文件。”

总结

这篇论文就像是在说:

“现在的 AI 是个‘单页识别专家’,但面对一捆乱糟糟的文件包时,它还是个‘整理困难户’。我们造了一套高难度的整理游戏(DocSplit 数据集)和一把更精准的尺子(新评估指标),测出来大家都不及格。希望未来的 AI 能学会像人类一样,不仅能认出文件,还能把乱成一团的文件包,自动拆分成一份份整齐、有序的文件。”

作者已经把这套“游戏”和“尺子”免费公开了,邀请全球的科学家一起来挑战,让 AI 变得更聪明,更好地服务于我们的日常生活。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →