QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

本文提出了 QA-Dragon,一种面向知识密集型视觉问答的查询感知动态检索增强生成系统,通过引入领域路由器和搜索路由器协同文本与图像检索代理,有效解决了现有方法在复杂多跳推理及多源知识融合方面的局限,并在 KDD Cup 2025 Meta CRAG-MM 挑战赛中显著提升了基座模型的推理性能与准确率。

Zhuohang Jiang, Pangjing Wu, Xu Yuan, Wenqi Fan, Qing Li

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 QA-Dragon(问答龙)的智能系统。你可以把它想象成一个拥有“超级大脑”和“全能助手团队”的视觉侦探,专门用来解决那些看图说话、但光靠看图还答不上来的复杂问题。

为了让你更容易理解,我们用几个生活中的比喻来拆解它的工作原理:

1. 核心痛点:为什么现在的 AI 会“胡编乱造”?

现在的多模态大模型(能看图也能说话的 AI)虽然很聪明,但就像是一个博学的学生,他脑子里装了很多知识,但有两个致命弱点:

  • 记性不好:对于冷门知识或最新新闻,他可能记不清,容易瞎编(这叫“幻觉”)。
  • 不会查书:遇到复杂的逻辑题,他习惯凭感觉猜,而不是去翻书找证据。

QA-Dragon 的出现,就是给这个学生配了一个“超级图书馆”和“专业顾问团”,让他学会“不懂就查,查完再答”。


2. QA-Dragon 的“超能力”工作流

想象一下,你戴着一副智能眼镜,拍了一张照片问:“这辆蓝色车的引擎有多大?”QA-Dragon 会按以下步骤处理:

第一步:分诊台(领域路由器)——“这是哪类问题?”

  • 比喻:就像医院的分诊护士。
  • 作用:当你问问题时,它先判断这个问题属于哪个领域(是“汽车”、“美食”还是“动物”?)。
  • 为什么重要:问“这辆车多少钱”和问“这只猫叫什么品种”,需要的查资料方式完全不同。分诊台能确保把问题派给最懂行的专家去处理。

第二步:预思考(D-CoT)——“先自己想想,别急着查”

  • 比喻:学生在查字典前,先自己在草稿纸上写写画画。
  • 作用:系统会先尝试自己根据图片推理出一个初步答案。
  • 关键点:它会诚实地自我反省:“我确定吗?还是我在瞎猜?”如果它觉得自己能确定(比如图片上直接写着字),它就直接回答;如果它觉得“我不确定”或者“图片里没写”,它就会触发下一步。

第三步:调度中心(搜索路由器)——“该不该查?查什么?”

  • 比喻:这是整个系统的总指挥。它根据刚才的“预思考”结果,决定走哪条路:
    1. 直接输出:如果问题很简单(比如“伞上写了什么字”),直接回答,不用浪费时间查资料。
    2. 搜索验证:如果大概知道答案但不确定(比如“这辆车是哪年生产的”),就去查资料验证一下。
    3. 检索增强(RAG):如果完全不知道(比如“这个品牌的创始人是谁”),那就必须去大搜特搜,把找到的资料拼凑成答案。

第四步:特工小队(工具路由器 + 搜索代理)——“派谁去查?”

  • 比喻:总指挥决定派谁去执行任务。
    • 图片特工:如果问题是“这是什么车?”,就派图片搜索特工,去数据库里找长得像的车,比对细节。
    • 文字特工:如果问题是“这车多少钱?”,图片里肯定没有价格,就派文字搜索特工去网上搜新闻和参数。
    • 混合双打:有时候需要两个特工一起上,先找车,再搜价格。

第五步:精挑细选(重排序器)——“去伪存真”

  • 比喻:就像你在网上搜了 100 条结果,但只有前 3 条是有用的。
  • 作用:搜索回来的资料可能很杂(有广告、有无关信息)。这个模块像一位严厉的编辑,用“粗筛”和“细筛”两遍,把最相关、最靠谱的证据挑出来,把垃圾信息扔掉。

第六步:最终审核(后回答模块)——“双重保险”

  • 比喻:考试前的最后检查。
  • 作用
    1. 生成答案:结合挑出来的证据,写出最终答案。
    2. 双重验证
      • 白盒检查:检查 AI 自己“心里有没有底”(概率够不够高)。
      • 黑盒检查:让另一个 AI 专家来审查:“你的推理逻辑通顺吗?证据支持你的结论吗?”
    • 如果通不过,系统会老实说“我不知道”,而不是胡编乱造。

3. 它厉害在哪里?(比赛成绩)

这个系统在 KDD Cup 2025 的比赛中(一个专门考 AI 看图问答和查资料能力的比赛)表现非常出色:

  • 单源任务(只查一种资料):比第二名强了 5%
  • 多源任务(既要查图又要查网):比第二名强了 6.35%
  • 多轮对话(像聊天一样连续问):比第二名强了 5%

简单来说:以前的 AI 像是“死记硬背的学生”,遇到不会的就瞎蒙;QA-Dragon 像是“会查资料、会分工、会自我纠错的学霸”,不仅答得准,而且知道什么时候该承认自己不知道。

总结

QA-Dragon 就是一个懂行、会查、爱思考的 AI 助手。它不再盲目自信,而是通过分诊、思考、调度、搜索、筛选、验证这一套严密的流程,确保给出的每一个答案都有据可依,极大地减少了“胡说八道”的情况。这对于医疗、法律、科研等需要高度准确性的领域来说,是一个巨大的进步。