WebExpert: domain-aware web agents with critic-guided expert experience for high-precision search

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 WebExpert 的新系统。简单来说，它是一个**“懂行”的互联网搜索助手**，专门用来解决那些普通搜索引擎搞不定的专业难题（比如金融投资、生物医药、制药等）。

为了让你更容易理解，我们可以把普通搜索助手和 WebExpert 比作两种不同的“侦探”：

1. 普通搜索助手 vs. WebExpert：菜鸟侦探 vs. 老刑警

普通搜索助手（Generic Agent）：
想象成一个刚入职的菜鸟侦探。接到一个案子（用户提问），他虽然很努力，但不懂行规。
- 问题： 他可能会问一些太宽泛的问题（比如“怎么治感冒？”而不是“上海地区流感高发期的儿童用药禁忌”），导致搜出一堆无关的网页。他在网上乱逛，浪费了很多时间（页面跳转多），最后找到的证据也是模棱两可的，甚至被噪音误导。
- 结果： 在专业领域（如金融、医疗），他很容易“跑偏”，答非所问。
WebExpert（我们的主角）：
这是一个经验丰富的老刑警，而且他随身带着一个**“专家经验手册”**。
- 核心优势： 在开始搜索之前，他先翻阅“手册”，里面记录了过去专家处理类似案件总结出的**“行规”和“潜台词”**。
- 例子： 如果用户问“某股票怎么样？”，普通助手可能直接搜新闻。但 WebExpert 会先调取经验手册，知道在金融领域，必须考虑“时间跨度”、“地区政策”和“行业细分”。于是他会立刻生成更精准的问题：“该股票在2023 年 Q4、中国华东地区、受最新环保政策影响下的表现如何？”

2. WebExpert 是怎么工作的？（三步走策略）

这个系统就像是一个经过严格训练的专家团队，分三步走：

第一步：建立“专家经验库”（离线准备）

做法： 研究人员收集了大量的专家问答、行业报告，让 AI 像做阅读理解一样，把里面最有价值的“句子”提取出来。
比喻： 就像把几千本厚厚的法律条文和案例，提炼成几百条“办案口诀”。
- 比如把“不同资产相关性越低，分散风险效果越好”这样的废话少说，提炼成核心规则。
- 系统会自动把这些规则分类（时间、地区、政策、行业），形成一个结构化的“行规字典”。

第二步：智能“查字典”与“定计划”（推理过程）

做法： 当用户提问时，WebExpert 不会直接去搜，而是先查“经验库”。
比喻： 就像侦探在出发前，先问老前辈：“这种案子通常要注意什么？”
- 经验门控（Experience Gate）： 如果查到的经验很靠谱，他就严格按照经验里的“行规”去设计搜索词；如果经验库没找到靠谱信息，他就自动切换回“普通模式”，避免被错误的经验带偏。
- 结果： 他生成的搜索词（Query）非常精准，直接命中要害，不再浪费时间去点那些无关的网页。

第三步：深度搜索与优化（训练过程）

做法： 系统通过不断的“实战演练”（微调训练），学会如何更好地利用这些经验。
比喻： 就像给侦探安排**“模拟法庭”**。如果侦探按照经验找到了正确答案，就奖励他；如果搜偏了，就批评他。久而久之，他不仅学会了用经验，还学会了如何把经验用得恰到好处。

3. 效果怎么样？（实战成绩）

论文在几个高难度的测试（GAIA, GPQA 等）中进行了对比，结果非常亮眼：

更准： 答案的准确率（Exact Match）比目前最强的普通搜索助手提高了 1.5% 到 3.6%。在专业领域，这 1% 的提升往往意味着巨大的价值。
更快： 因为搜索词更精准，它不需要像普通助手那样在网页间跳转很多次（Page Hops 减少），效率更高。
更稳： 即使面对复杂的、需要多步推理的问题，它也能保持逻辑清晰，不容易被噪音干扰。

4. 总结：为什么这很重要？

以前的 AI 搜索助手就像是一个博闻强记但缺乏常识的学生，什么都能搜，但不懂“行话”。

WebExpert 则像是一个带着“行业导师”的实习生。它通过**“批判性提取专家经验”（Critic-Guided Extraction），把专家脑子里的隐性知识变成了显性的规则，让 AI 在搜索时能“有的放矢”**。

一句话总结：
WebExpert 就是给 AI 装上了一本**“行业红宝书”**，让它不再是盲目地在网上大海捞针，而是像真正的专家一样，带着问题、带着规则去精准地寻找答案。这对于金融、医疗等对准确性要求极高的领域来说，是一个巨大的进步。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

现有的通用 Web 浏览智能体（Web Agents）在处理开放域任务时表现良好，但在金融、生物医药、制药等高度专业化的领域场景中效果显著下降。主要痛点包括：

缺乏领域先验知识：通用智能体无法理解特定领域的上下文因素（如季节性、地区法规、行业粒度），导致查询偏离目标（Off-target queries）。
证据噪声与漂移：在搜索过程中容易迷失在无关页面，且难以从海量信息中筛选出高可信度的证据。
推理脆弱性：缺乏专家经验引导，导致推理链条脆弱，容易遗漏关键证据。

2. 核心方法论 (Methodology)

WebExpert 提出了一种**领域感知（Domain-Aware）**的 Web 智能体架构，其核心思想是在深度浏览之前，通过“批评家引导（Critic-Guided）”的提取链，将专家经验注入到查询生成和推理过程中。系统流程分为三个主要阶段：

2.1 离线阶段：专家经验库构建 (Critic-Guided Expert Experience Extraction)

系统从标注数据（QA 对）和专家材料中提取可复用的经验，构建结构化经验库 $E$ ：

问题采集与标准化：收集 QA 元组，通过改写挖掘和无模式去词汇化（Schema-free delexicalization）将问题转化为标准意图。
多视图聚类：利用 HDBSCAN 或 BERTopic 对问题和答案进行多视图密度聚类，识别语义相似的问题簇，即使答案粒度不同也能归并。
证据聚合与去重：对每个簇聚合答案和推理依据，利用 BM25 和密集检索排序，并通过最大边际相关性（MMR）确保多样性。
抗矛盾摘要（Critic-Guided Summarization）：使用大型推理模型（如 DeepSeek-R1）作为“批评家”，对簇内的答案/依据进行总结，生成包含条件、核心指导、边缘案例和已知失败模式的简洁规则（Rule）。
分面化与归一化：自动将规则分面为关键维度（时间、地区、政策、二级行业），并归一化实体名称。
持续更新：经验库支持版本管理和流式更新。

2.2 训练阶段：偏好优化与监督微调 (SFT & Training)

模型：基于 QwQ-32B 进行全参数微调。
目标函数：联合优化查询规划和检索。
- 规划损失 ( $L_{plan}$ )：根据检索到的经验分面（Facets）加权，鼓励生成符合领域先验的查询。
- 检索损失 ( $L_{ret}$ )：采用对比学习（Contrastive Learning），拉近查询与正样本经验的距离，推远硬负样本。
- 覆盖度优化：引入覆盖度感知（Coverage-aware）目标，确保检索经验覆盖关键领域维度。

2.3 在线推理阶段 (Inference)

经验检索：根据用户问题 $q$ 检索 Top- $k$ 条相关经验 $E^{(k)}$ 。
经验门控（Experience Gate）：
- 计算检索置信度（Top- $k$ 经验的平均余弦相似度）。
- 若置信度高于阈值（ $\theta=0.3$ ），门控机制引导解码器偏向激活特定的领域分面（如特定省份、政策类型）。
- 若置信度低，则回退到通用查询生成，避免过度约束。
深度浏览：将生成的多步查询计划（Multi-query plan）输入到搜索 - 浏览控制器中，结合检索到的文档进行推理并生成最终答案。

3. 主要贡献 (Key Contributions)

批评家引导的经验提取链：提出了一种将非结构化专家材料转化为可复用、分面化的句子级经验规则的方法，有效解决了领域先验缺失问题。
轻量级分面诱导（Schema-light Facet Induction）：无需人工编写静态词典，通过弱监督和语料统计自动从数据中诱导时间、地区、政策等分面词汇表。
经验感知的规划与检索联合优化：设计了结合覆盖度感知的监督微调（SFT）和成对偏好学习，显著提升了查询规划的精度和检索质量。
动态门控机制：在推理时引入经验门控，平衡了领域特异性与通用泛化能力，防止在缺乏相关经验时产生幻觉。

4. 实验结果 (Results)

在 GAIA, GPQA, HLE, WebWalkerQA 等多个基准测试中，WebExpert 均取得了显著优于最强基线模型（如 Search-o1, WebThinker）的性能：

准确率提升：在答案精确匹配（Exact Match, EM）指标上，相比最强的浏览基线提升了 1.5% - 3.6%。
- 例如在 GAIA 上，WebExpert+SFT 达到 47.7% (vs 基线 44.7%)。
- 在 GPQA 上达到 71.9% (vs 基线 68.7%)。
效率提升：平均页面跳转次数（Page Hops）显著减少（从 8.1 降至 5.2），表明搜索路径更精准。
查询质量：查询精度（Query Precision@3）从 49.3% 提升至 61.8%。
消融实验：证明了句子级检索、主题合并（Topic Merging）和 SFT 训练是性能提升的关键因素。

5. 意义与价值 (Significance)

解决垂直领域难题：为金融、医疗等对准确性要求极高的领域提供了一种可落地的 Web 搜索解决方案，解决了通用模型“懂常识但不懂行规”的痛点。
范式创新：将“专家经验”显式地作为检索增强（RAG）的一部分，而非仅仅依赖模型内部参数，实现了从“通用搜索”到“专家级搜索”的跨越。
可解释性与可控性：通过分面（Facets）和规则（Rules）的显式提取，使得智能体的搜索策略更加透明和可控，便于领域专家干预和验证。
开源贡献：代码已开源，为后续领域自适应 Web 智能体的研究提供了基准和工具。

总结：WebExpert 通过构建一个动态的、基于批评家引导的专家经验库，成功地将领域知识注入到 Web 智能体的搜索和推理循环中，显著提升了在复杂垂直领域的搜索精度和效率，是领域自适应（Domain Adaptation）与检索增强生成（RAG）结合的重要进展。