From PDF to RAG-Ready: Evaluating Document Conversion Frameworks for Domain-Specific Question Answering

该研究通过基于葡萄牙语行政文档的基准测试,系统评估了四种开源 PDF 转换框架对检索增强生成(RAG)问答性能的影响,发现数据预处理质量(特别是元数据增强和层级分块策略)比转换工具本身更为关键,且自动化工具(如 Docling)在结合图像描述和层级分割后能达到接近人工标注的准确率,而缺乏本体引导的 GraphRAG 实现则表现不佳。

José Guilherme Marques dos Santos, Ricardo Yang, Rui Humberto Pereira, Alexandre Sousa, Brígida Mónica Faria, Henrique Lopes Cardoso, José Duarte, José Luís Reis, Luís Paulo Reis, Pedro Pimenta, José Paulo Marques dos Santos

发布于 2026-04-08
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章其实是在讲一个关于**“如何教 AI 读懂文件”**的有趣故事。

想象一下,你是一位大厨师(AI 大模型),你的任务是回答关于“葡萄牙军队人事规定”的复杂问题。但是,你面前堆满了PDF 格式的旧文件(就像一堆印在纸上的菜单、合同和说明书)。

这些 PDF 文件对电脑来说,就像是一堆**“乱码”**。它们是为了给人眼看的(排版好看、有表格、有图片),而不是给电脑读的。如果直接把这些乱码扔给厨师,他做出来的菜(回答)就会很难吃,甚至全是错的。

这篇文章的研究团队就像一群**“厨房改造专家”**,他们想搞清楚:到底用哪种方法把 PDF 文件“翻译”成厨师能读懂的“干净食材”(Markdown 文本),做出来的菜最好吃?

他们测试了四种不同的“翻译工具”(Docling, MinerU, Marker, DeepSeek OCR),并尝试了不同的“切菜”和“摆盘”策略。

以下是这篇论文的通俗解读:

1. 核心发现:食材处理比厨师更重要

以前大家都觉得,只要找个最厉害的厨师(比如最先进的 AI 模型),或者用最好的切菜刀(检索算法),就能做出美味佳肴。
但这篇论文发现了一个惊人的事实:如果食材本身处理得不好(PDF 转换质量差),再厉害的厨师也做不出好菜。

  • 比喻: 就像给你一堆发霉的面粉和烂掉的鸡蛋,就算你是米其林三星大厨,也做不出蛋糕。
  • 数据: 他们发现,处理得最差的方案,正确率只有 71%;而处理得最好的方案,正确率高达 94%。这 23% 的巨大差距,完全取决于“食材处理”这一步,而不是厨师本身。

2. 谁是最好的“翻译工具”?

他们测试了几个开源工具,结果如下:

  • Docling(冠军): 它像是一个细心的图书管理员。它不仅能把字认出来,还能看懂哪里是标题、哪里是表格,甚至能描述图片内容。它把 PDF 转换成了结构清晰的“干净文本”。
  • MinerU(表现不稳定): 它有时候很厉害,但经常把表格弄乱,或者把葡萄牙语里的特殊符号(比如 ç)认错。
    • 有趣的小插曲: 葡萄牙语里的 caça(打猎/野味)如果被认成 caca(便便),意思就完全变了!Docling 没犯这个错,但其他工具可能会。
  • DeepSeek OCR(垫底): 虽然它是个强大的视觉模型,但在这个任务里,它把文件结构搞得太乱了,导致 AI 找不到答案。

3. 比“翻译”更重要的是“切菜”和“贴标签”

研究发现,仅仅把字认对还不够,怎么把文章切块(Chunking)和怎么加标签(Metadata) 才是关键。

  • 切菜策略(Splitting):

    • 乱切(Recursive): 就像把书撕成碎片,不管它是标题还是正文。这样厨师拿到碎片,不知道这段话是在讲“工资”还是“休假”。
    • 按章节切(Hierarchical): 就像按目录把书切成块,并且每一块都贴上标签:“这是《第 3 章:休假规定》里的第 2 段”。
    • 结果: 加上“章节标签”后,AI 的回答准确率直接飙升。这就像给厨师提供了导航地图,让他知道每句话的上下文在哪里。
  • 重建标题(Hierarchy):

    • 他们发现,根据字体大小自动判断标题(比如大字号是标题,小字号是正文),比让 AI 去“猜”哪里是标题要准确得多。AI 有时候会“想太多”反而猜错,而看字体大小这种“死规则”反而更靠谱。

4. 那个很火的“知识图谱”(GraphRAG)没用?

最近很流行一种叫 GraphRAG 的技术,它的想法是:给 AI 画一张**“关系网”**(比如:A 是 B 的上级,B 在 C 部门工作),让 AI 通过关系网来找答案。

  • 实验结果: 团队尝试了这种方法,结果翻车了。准确率只有 82%,反而不如直接读“干净文本”的 94%
  • 原因: 就像你想画一张城市地图,结果画得太乱,全是杂乱的线条,反而让司机(AI)迷路了。如果没有专业的“地图绘制指南”(领域本体),自动生成的关系网充满了噪音,不仅没帮助,还增加了计算成本。
  • 结论: 在把基础工作(把 PDF 变干净)做好之前,搞复杂的“关系网”是画蛇添足。

5. 总结:给普通人的启示

这篇文章给所有想用 AI 处理文档的人(无论是律师、HR 还是研究人员)一个非常重要的建议:

不要只盯着 AI 模型本身,先花时间去把数据“洗干净”。

  • 垃圾进,垃圾出(Garbage In, Garbage Out): 如果你给 AI 一堆乱糟糟的 PDF,它给出的答案就是垃圾。
  • 最好的策略: 选一个靠谱的转换工具(如 Docling),把 PDF 变成结构清晰的文本,给每一段话加上“章节标签”,然后再喂给 AI。
  • 性价比: 这样做,甚至能达到人工手动整理文件 97% 的效果,而且不需要人工花几个月去整理。

一句话总结:
在 AI 的世界里,把文件整理得井井有条,比找一个更聪明的 AI 更重要。 就像做饭一样,好食材和干净的厨房,才是美味的前提。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →