CMRAG: Co-modality-based visual document retrieval and question answering

本文提出了 CMRAG 框架,通过统一编码模型和统一共模态检索方法,将文本与图像信息融合以解决现有视觉文档问答任务中单模态处理的局限性,并发布了大规模三元组数据集,显著提升了复杂文档问答的性能。

Wang Chen, Wenhan Yu, Guanqiang Qi, Weikang Li, Yang Li, Lei Sha, Deguo Xia, Jizhou Huang

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 CMRAG 的新方法,旨在解决让电脑“读懂”复杂文档(比如包含图表、公式、文字混排的 PDF 报告)并回答问题的难题。

为了让你轻松理解,我们可以把传统的文档问答系统比作一个只会看字或只会看图的人,而CMRAG则是一个既识字又识图的“全能侦探”

1. 以前的困境:盲人摸象

在处理像财务报表、科学论文或产品手册这样的文档时,以前的方法主要有两种,但都有缺陷:

  • 方法 A:只读文字(Text-based RAG)
    • 比喻:就像给一个人戴上了眼罩,只让他通过 OCR(文字识别技术)把文档里的字“读”出来。
    • 问题:如果文档里有一张复杂的图表、一张照片或者一个特殊的公式,这个人就完全瞎了。他只能读到“图 1 显示...",却看不懂图里到底画了什么。这就像你只读了菜谱的文字描述,却没看到菜长什么样,做出来的菜肯定不对味。
  • 方法 B:只看图片(Image-based RAG)
    • 比喻:就像给一个人蒙上了嘴,只让他看文档的截图(像看照片一样)。
    • 问题:虽然他能看见图表和布局,但面对密密麻麻的文字时,他就像在看天书。他很难精准地定位到某一段具体的文字细节,就像你看着一张满是字的报纸,想找一个特定的电话号码,光靠“看”效率很低,容易看花眼。

2. CMRAG 的解决方案:全能侦探

CMRAG 的核心思想是:别二选一,我们要“图文双修”。它把文字和图片结合起来,让系统同时拥有“识字眼”和“看图眼”。

它主要由两个“超能力”组件构成:

组件一:统一编码模型 (UEM) —— “翻译官”

  • 作用:想象文档里有文字、有图片,它们原本说的是不同的“语言”(文字语言 vs 视觉语言)。UEM 就像一个超级翻译官
  • 比喻:它把用户的问题(Query)、文档里的文字、文档里的图片,全部“翻译”成同一种通用的“密码”(向量空间)。
  • 效果:在这个“密码世界”里,文字和图片是可以直接比较的。比如,用户问“苹果多少钱?”,系统不仅能匹配到写着“苹果 5 元”的文字,也能匹配到一张画着苹果和价格标签的图片,因为它们在这个空间里是“亲戚”。

组件二:统一检索方法 (UCMR) —— “公正的裁判”

  • 作用:既然文字和图片都被翻译成了“密码”,怎么判断哪个更相关呢?
  • 比喻:以前直接比较,就像拿“苹果的重量”和“橘子的甜度”比大小,根本没法比(因为它们的数值分布不一样)。UCMR 就像一位公正的裁判,它先给所有的分数“标准化”(归一化),把文字分数和图片分数都调整到同一个起跑线上(比如都变成 0 到 1 之间的标准分)。
  • 效果:这样,裁判就能公平地决定:是文字更相关,还是图片更相关,或者两者结合最好,从而选出最完美的答案线索。

3. 实际效果:为什么它更厉害?

论文通过大量实验证明,CMRAG 就像是一个经验丰富的老侦探

  • 场景:假设你问一个关于 IBM 广告费用的问题。
    • 旧方法(只看图):可能看到了表格里的数字,但没读懂表头,导致算错。
    • 旧方法(只看字):可能读到了“广告费用增加了”,但没看到具体的百分比数字。
    • CMRAG:它既看到了表格里的数字(视觉),又读懂了表头的含义(文字),最后精准地告诉你:“增加了 1.4%"。

4. 总结

简单来说,CMRAG 就是给 AI 装上了一副**“双焦眼镜”**:

  1. 一只眼睛看文字,捕捉精确的语义和细节。
  2. 一只眼睛看图片,捕捉图表、布局和视觉信息。
  3. 大脑(UEM 和 UCMR)把这两只眼睛看到的画面完美融合,不再让文字和图片“打架”,而是让它们互相补台

这项技术对于处理企业内部的复杂报告、科学文献、或者任何“图文并茂”的文档问答,都是一个巨大的进步,让 AI 真正学会了像人类一样“既读文又看图”地思考。