Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Graph2Eval 的新系统，它的核心任务是：自动为 AI 智能体（Agent）生成“考试题”，用来测试它们到底聪不聪明。

为了让你轻松理解，我们可以把 AI 智能体想象成正在实习的“超级管家”，而 Graph2Eval 就是专门给这些管家出题的“考官”。

以下是用通俗语言和创意比喻对这篇论文的解读：

1. 为什么要发明这个系统？（老考官的困境）

现状： 以前测试 AI 管家，就像让学生做固定的老试卷。

问题： 如果试卷永远不变，聪明的学生（AI）可能不是真的学会了，而是把答案背下来了（死记硬背）。一旦换个新环境，它们就傻眼了。
尝试过的方法： 有人试图让 AI 自己出题（用大语言模型生成题目），但这就像让一个还没学会做饭的人去设计菜谱。AI 容易“胡编乱造”（幻觉），导致题目逻辑不通，或者根本做不出来（比如题目问“把苹果放进冰箱”，但题目里根本没给冰箱）。

Graph2Eval 的解决方案：
它不再让 AI 凭空瞎编，而是建了一个**“知识地图”（知识图谱）。这就好比考官手里有一张详细的城市地图**，上面标好了所有的路、建筑、红绿灯和规则。出题时，考官是照着地图来设计路线的，保证题目既真实，又一定能走通。

2. Graph2Eval 是怎么工作的？（五个步骤）

想象 Graph2Eval 是一个自动化的“出题工厂”，它的工作流程如下：

第一步：收集素材（数据摄入）

比喻： 就像厨师去菜市场买菜。
做法： 系统会自动去网上“逛”各种网页，或者读取各种文档（PDF、文章）。它不只是看文字，还会把网页里的按钮、表格、图片都当成“食材”收集起来。

第二步：画地图（构建知识图谱）

比喻： 这是最核心的一步。系统把收集来的杂乱信息，整理成一张结构清晰的“关系网”。
做法： 它把“苹果”和“红色”连起来，把“登录按钮”和“提交表单”连起来。这就形成了一张巨大的知识地图，上面每个点（节点）和线（关系）都是真实存在的，不再是 AI 瞎编的。

第三步：选路线（子图采样）

比喻： 考官想出一道题，不需要把整张地图都搬出来，只需要截取地图的一小块。
做法：
- 如果是读文档的题，它就截取一段相关的文字和图表。
- 如果是网页操作的题，它就截取一个“搜索框 -> 点击搜索 -> 看到结果”的局部路径。
- 它会根据不同的难度（简单、困难），像玩“寻宝游戏”一样，从地图里挖出合适的片段。

第四步：写考题（任务生成）

比喻： 拿着选好的地图片段，套用**“填空题模板”**。
做法： 系统里有现成的模板（比如“请比较 A 和 B"、“请找到 C 的详细信息”）。它把地图里的具体信息填进去，生成一道具体的题目。因为是基于真实地图生成的，所以题目逻辑严密，绝对能解出来。

第五步：质检与筛选（覆盖优化）

比喻： 就像老师批改试卷前的**“挑题”**。
做法： 系统会检查这道题是不是太简单？是不是和上一道题太像了？是不是太难了根本做不了？通过一系列筛选，确保最终留下的题目既有挑战性，又公平合理。

3. 这个系统做成了什么？（Graph2Eval-Bench）

作者用这个系统造出了一个**“超级题库”（Graph2Eval-Bench）**，里面包含了 1319 道 精心设计的题目：

1002 道 是“阅读理解题”（让 AI 读文档找答案）。
317 道 是“实操题”（让 AI 在网页上点点点、填表单、搜东西）。

4. 效果怎么样？（实战演练）

作者拿这个新题库去测试了各种 AI 模型（比如 GPT-4o, Qwen, DeepSeek 等）：

更公平： 以前的题库，AI 可能靠背答案拿高分；现在的题库，AI 必须真的懂逻辑、会操作才能得分。
更精准： 实验发现，用 Graph2Eval 生成的题目，逻辑一致性提高了 20%，可解性提高了 17%。这意味着题目不再“胡扯”，AI 的分数更能反映它真实的智商。
区分度高： 这个题库能一眼看出哪个 AI 是“学霸”，哪个是“学渣”。比如，有些模型在简单的网页点击上就卡住了，而有些模型能完成复杂的“搜索 - 筛选 - 下单”流程。

5. 总结：这有什么意义？

Graph2Eval 就像是给 AI 行业建立了一套**“动态驾照考试系统”**。

以前的考试是死记硬背，考完就忘。
现在的考试是路考，考官（Graph2Eval）根据真实的交通规则（知识图谱），随机生成不同的路况（题目），看司机（AI）能不能真正安全、正确地到达目的地。

这不仅让 AI 的测试更真实、更可靠，也为未来开发更聪明的 AI 智能体提供了源源不断的“训练场”和“试金石”。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

随着多模态大语言模型（MLLM）驱动的智能体（Agents）在自主性和泛化能力上的进步，传统的静态评估数据集面临以下核心挑战：

静态数据的局限性：现有的评估基准（如 GAIA, Mind2Web 等）多依赖人工标注或静态资源复用，难以应对动态变化的现实环境，且存在数据泄露风险（智能体可能通过记忆而非推理完成任务）。
现有生成方法的缺陷：利用 LLM 直接生成任务的方法存在两大痛点：
1. 缺乏显式的实体关系建模：直接基于文本/图像生成任务，往往导致生成的任务在语义上不一致（Semantic Inconsistency），或者任务本身不可解（Solvability Issues），无法捕捉高阶推理所需的复杂依赖关系。
2. 难以适应动态环境：现有的 Web 任务生成多基于静态页面关系或简化的环境模拟，无法有效建模真实网页中复杂的内容和页面跳转关系，导致生成的任务难以迁移到真实的动态 Web 场景中。

核心问题：如何构建一个可扩展、语义一致且可自动生成的多模态智能体任务评估框架，以真实反映智能体在复杂、动态环境下的泛化能力？

2. 方法论 (Methodology)

为了解决上述问题，作者提出了 Graph2Eval，这是一个基于**知识图谱（Knowledge Graph, KG）**驱动的自动化多模态智能体任务生成框架。其核心思想是将多源异构数据构建为结构化的知识图谱，将其作为“潜在任务空间”，通过子图采样和模板引导来生成任务。

2.1 核心流程 (Workflow)

整个数据集生成流程包含五个阶段：

数据摄入 (Data Ingestion)：
- 文档数据：对文档进行语义分块（Semantic Chunking），保留段落、表格、标题等层级结构，并提取元数据。
- Web 数据：通过自动化爬虫收集网页，提取 DOM 结构和截图，并模拟人类交互进行导航。
知识图谱构建 (KG Construction)：
- 将非结构化/半结构化内容转化为计算友好的语义空间。
- 节点 (Nodes)：提取文档元素（段落、标题）或网页元素（按钮、表单、链接），并融合文本和视觉内容（通过多模态 Embedding）。
- 边 (Edges)：构建异构边，包括文本关系（结构、语义关联）和 Web 交互关系（导航、点击触发、布局流）。
子图采样 (Subgraph Sampling)：
- 根据任务目标，从 KG 中采样局部子图。
- 文档理解：基于语义相关性和结构一致性采样。
- Web 交互：采用种子驱动策略 (Seed-Driven)，先识别关键操作节点（如按钮、搜索框），再采集其 $k$ -hop 邻居以构建交互上下文。
任务生成 (Task Generation)：
- 任务模板：预定义任务模板（如问答、比较、推理），规定节点类型、边类型和复杂度。
- 变量提取与上下文工程：从采样子图中提取变量（内容、关系），结合模板生成具体的任务实例。
- Web 任务特有机制：引入元路径 (Meta-path) 匹配，将子图转化为具体的任务链（如：搜索 -> 过滤 -> 查看详情）。
覆盖优化 (Coverage Optimization)：
- 通过多阶段过滤（可达性分析、LLM 评分、相似性分析）确保任务的多样性、可解性和新颖性。使用最大边际相关性 (MMR) 策略选择任务。

2.2 两种任务类型

文档理解任务 (RAG Agents)：侧重于从文档中提取、比较、推理信息。
Web 交互任务 (Web Agents)：侧重于多步导航、表单填写、动态页面交互。

3. 主要贡献 (Key Contributions)

新视角的任务生成：提出将多源数据构建的知识图谱作为“潜在任务空间”，有效解决了合成任务中语义不一致和不可解的问题。
Graph2Eval 框架：首个统一支持 RAG 智能体和 Web 智能体的自动化任务生成框架。它利用数据内部的语义关系，提供了一条可复现、高效的快速数据集构建流水线。
Graph2Eval-Bench 数据集：
- 构建了包含 1,319 个多样化任务的基准数据集。
- 包含 1,002 个文档理解任务和 317 个 Web 交互任务。
- 涵盖了从基础检索到复杂多步推理的多种场景。
实验验证：证明了该框架生成的任务在语义一致性（提升 20%）和可解性（提升 17%）上显著优于无 KG 的基线方法，并能有效区分不同规模模型的性能差异。

4. 实验结果 (Results)

4.1 任务质量评估

对比基线：与无 KG 的生成方法（直接基于 LLM 生成）相比，Graph2Eval 生成的任务在人工评估和智能体评估中表现更优。
- 语义一致性：提升约 20%。
- 可解性：提升约 17%。
- 原因：无 KG 方法生成的 Web 任务常局限于单页交互，且多页工作流常因缺乏页面间关系而不可解；而 Graph2Eval 利用 KG 强制保证了语义连贯性和逻辑可执行性。

4.2 智能体性能评估 (Graph2Eval-Bench)

文档理解：在单智能体和多智能体（Planner, Retriever, Reasoner 等协作）设置下，测试了 GPT-4o, Qwen-VL, DeepSeek 等模型。结果显示，Graph2Eval-Bench 能有效区分不同模型的能力（例如 GPT-4o 和 DeepSeek-V3 表现较好，而小模型在复杂推理上差距明显）。
Web 交互：测试了 SoM Agent 和 Agent S 2.5。
- Agent S 2.5（具备反思和记忆机制）在大多数任务类型上显著优于 SoM Agent（仅依赖视觉定位），特别是在多步推理任务中。
- 在 Gemini 2.5 Flash 上，Agent S 2.5 的总成功率达到 69.20%，而 SoM Agent 仅为 14.51%，证明了该基准能有效评估高级推理和反思能力。
效率：生成效率较高，平均每个文档任务耗时约 34.87 秒，每个 Web 任务耗时约 95.51 秒，远低于人工构建成本。

5. 意义与未来展望 (Significance & Future Work)

评估范式的转变：Graph2Eval 推动了智能体评估从“静态记忆测试”向“动态泛化能力测试”的转变。通过自动化生成无限多样的任务，避免了数据污染，能更真实地反映智能体在开放世界中的表现。
可扩展性与通用性：该框架不仅适用于当前的 RAG 和 Web 场景，其基于 KG 的抽象设计使其易于扩展到其他多模态交互场景。
未来方向：
1. 安全评估：利用 KG 生成对抗性任务，评估智能体在恶意环境下的鲁棒性。
2. 细粒度诊断：利用 KG 的节点和边结构，精确定位智能体在推理链条中的具体错误（是检索错误、理解错误还是执行错误），提供可解释的改进建议。

总结：Graph2Eval 通过引入知识图谱作为任务生成的中间表示，成功解决了自动化生成高质量、可解且语义一致的多模态智能体任务这一难题，为下一代智能体的评估提供了强有力的基础设施。