Agentic DAG-Orchestrated Planner Framework for Multi-Modal, Multi-Hop Question Answering in Hybrid Data Lakes

本文提出了 A.DOT 框架,通过将有向无环图(DAG)规划与智能体协同相结合,实现了在混合数据湖中对结构化与非结构化数据的高效多跳推理与多模态问答,显著提升了答案的准确性、完整性及可解释性。

Kirushikesh D B, Manish Kesarwani, Nishtha Madaan, Sameep Mehta, Aldrin Dennis, Siddarth Ajay, Rakesh B R, Renu Rajagopal, Sudheesh Kairali

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 A.DOT(Agentic DAG-Orchestrated Transformer,即“智能代理有向无环图编排器”)的新系统。

为了让你轻松理解,我们可以把企业里的混合数据湖想象成一个巨大的超级图书馆,而 A.DOT 就是这位图书馆里最聪明的全能图书管理员

1. 背景:混乱的“超级图书馆”

现在的企业里,数据分两堆:

  • 结构化数据:像整齐的Excel 表格(比如发票金额、客户地址)。
  • 非结构化数据:像散乱的文档、合同、邮件(比如发票的具体条款、合同细节)。

以前的做法(笨办法):
当老板问:“帮我查一下德克萨斯州客户的发票总额,以及他们的付款条款。”
以前的系统(比如普通的 RAG 系统)就像是一个只会蛮干的实习生

  1. 它不管三七二十一,先把所有“德克萨斯州”的表格全翻一遍。
  2. 再把所有“发票”相关的文档全翻一遍。
  3. 把翻出来的几千页纸堆在一起,让大模型去读,试图拼凑出答案。
    缺点:效率低(翻书太慢)、容易泄露隐私(把不相关的机密也翻出来了)、而且如果答案需要“先查表再查文档”这种多步推理,它经常晕头转向,答非所问。

2. A.DOT 的解决方案:聪明的“项目经理”

A.DOT 不像实习生,它像一位经验丰富的项目经理。当接到任务时,它不会盲目行动,而是先画一张作战地图(这就是论文里的 DAG 执行计划)。

核心功能比喻:

  • 画地图(DAG 计划生成)
    项目经理接到问题后,会把它拆解成几个小任务,并画出它们之间的依赖关系。

    • 任务 A:去 Excel 表里查“德克萨斯州”的客户 ID。
    • 任务 B:拿着这些 ID,去文档库里找对应的“付款条款”。
    • 任务 C:把 A 和 B 的结果加起来,算出总额。
      这张地图(DAG)告诉系统:哪些任务可以同时做(比如查不同部门的表),哪些必须排队做(必须先有 ID 才能查文档)。
  • 双重安检(验证器)
    在真正开始干活前,A.DOT 会先让两个“安检员”检查地图:

    • 结构安检:检查地图上的路通不通?(比如:表里真的有“德克萨斯”这一列吗?)
    • 语义安检:检查任务逻辑对不对?(比如:能不能用“金额”去匹配“日期”?)
      如果地图画错了,它会在出发前就修正,而不是等到撞了南墙再回头。
  • 智能纠错(DataOps 系统)
    万一在执行过程中出了意外(比如某个表突然连不上了),A.DOT 不会直接崩溃。它有一个急救小组

    • 诊断员:找出哪里坏了。
    • 修理工:尝试小修小补(比如换个字段名)。
    • 重规划师:如果问题太大,就重新画一张新地图。
      这就像汽车抛锚了,它不是直接熄火,而是自动尝试换条路或者叫拖车。
  • 只传关键信息(变量绑定)
    以前的系统喜欢把整本书都传给下一个环节。A.DOT 很聪明,它只传递关键线索(比如只传递“客户 ID",而不是把整个客户资料都传过去)。这既省流量,又保护隐私。

  • 记忆库(缓存机制)
    如果老板问:“查一下加州的客户”(和刚才的德克萨斯问题很像),A.DOT 会想:“这跟刚才那个问题差不多,我直接复用刚才的地图,只改个地名就行。”这大大加快了速度。

3. 为什么它更厉害?(实验结果)

论文在“混合问答”(HybridQA)这个很难的测试集上做了实验。

  • 普通 RAG:像是一个博学的但有点迷糊的图书管理员,偶尔能答对,但遇到复杂问题就乱套。
  • ReAct(另一种智能体):像是一个很努力但容易钻牛角尖的助手,一步步问,但容易卡死或走弯路。
  • A.DOT:像是一个指挥若定的将军
    • 准确率:比最好的对手高了 14.8%
    • 完整性:比对手高了 10.7%
    • 可追溯性:最重要的是,A.DOT 会留下证据链。如果你问它“为什么是这个答案?”,它能拿出:“我是先查了表里的 ID,再查了文档里的条款,最后算出来的。”这让企业用户非常放心,因为所有数据都有据可查。

4. 总结

简单来说,A.DOT 就是把“查数据”这件事,从“盲目搜索”变成了“精密指挥”

它不仅能同时处理表格和文档,还能像人类专家一样,先想清楚步骤(画 DAG 图),检查步骤对不对(验证),遇到错误能自己修(DataOps),并且只传递必要的信息。

目前,这个系统正在 IBM 的 Watsonx.data 产品中进行测试,未来可能会成为企业处理复杂数据查询的“标配大脑”,让老板们能像问人一样自然地提问,并得到准确、安全、有证据支持的答案。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →