OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

OpenSeeker 通过引入基于事实的可控问答合成与去噪轨迹合成两项核心技术,仅利用 1.17 万条合成数据训练出首个在多个基准测试中达到甚至超越工业界水平的全开源前沿搜索智能体,并公开了全部训练数据与模型权重以推动该领域的民主化发展。

Yuwen Du, Rui Ye, Shuo Tang, Xinyu Zhu, Yijun Lu, Yuzhu Cai, Siheng Chen

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 OpenSeeker 的项目,它的核心目标非常宏大:把原本被科技巨头垄断的“超级搜索能力”,变成每个人都能免费使用的开源技术。

为了让你更容易理解,我们可以把“搜索智能体(Search Agent)”想象成一个超级侦探,而这篇论文就是关于如何训练出这个侦探的“独家秘籍”。

以下是用通俗易懂的比喻和语言对这篇论文的解读:

1. 背景:侦探界的“黑箱”与“数据饥荒”

  • 现状:现在的互联网信息浩如烟海,普通的搜索引擎(像百度、谷歌)只能给你一堆链接,让你自己翻。而“超级侦探”(AI 搜索智能体)能像人一样,主动去网页里点来点去,把碎片信息拼凑成完整答案。
  • 问题:目前,只有像 OpenAI、Google、阿里(通义千问)这样的科技巨头能造出这种“超级侦探”。为什么?因为他们手里有绝密的训练数据
    • 这就好比:巨头们有一本**“绝世武功秘籍”**(高质量训练数据),他们只教自己的徒弟(闭源模型),却不告诉外人秘籍里写了什么。
    • 学术界和其他小团队想练成神功,却只能拿到一些残缺的、质量差的“残卷”,导致练出来的侦探要么太笨,要么根本不会思考。

2. 解决方案:OpenSeeker 的“开源秘籍”

OpenSeeker 是由上海交通大学的一个纯学术团队开发的。他们做了一件破天荒的事:不仅把训练好的“超级侦探”模型开源了,连最核心的“训练数据”和“生成方法”也全部公开了。

他们用了两个核心“魔法”来制造高质量数据:

魔法一:基于事实的“迷宫生成器” (Fact-grounded QA Synthesis)

  • 传统做法:以前的 AI 训练数据,很多是 AI 自己瞎编的,或者只是简单的“问 - 答”配对。这就像让侦探做“填空题”,太简单了,学不到真本事。
  • OpenSeeker 的做法
    • 比喻:想象你要训练侦探找宝藏。巨头们是直接把宝藏藏好,然后给侦探一张地图。而 OpenSeeker 是先随机在巨大的互联网迷宫里选一个起点,然后像蜘蛛织网一样,把周围相关的网页连成一张复杂的“关系网”
    • 操作
      1. 拓扑扩张:从一个网页出发,顺着链接找到一堆相关网页,形成一个“信息孤岛”。
      2. 实体伪装:把里面具体的名字(比如“张三”)模糊化处理(变成“某位著名的科学家”),迫使侦探不能直接搜名字,必须通过推理(比如“这位科学家和谁一起获奖了?”)才能找到答案。
    • 结果:生成的题目必须经过多次跳转、推理才能解开。这就像给侦探布置了一个必须走很多步才能解开的复杂迷宫,而不是简单的“直线跑”。

魔法二:去噪的“记忆提炼术” (Denoised Trajectory Synthesis)

  • 痛点:在互联网上搜索,网页里充满了广告、弹窗、无关的废话(噪音)。如果让 AI 直接读这些乱糟糟的网页,它很容易走神或犯错。
  • OpenSeeker 的做法
    • 比喻:想象侦探在办案时,助手(Teacher AI)会先帮他把刚才看到的几千字的杂乱网页,提炼成几行字的“核心情报摘要”
    • 独特的“不对称训练”
      • 教的时候(生成阶段):助手给侦探看“摘要”,让侦探在干净的环境里学会如何做出正确的推理和下一步动作。
      • 练的时候(训练阶段):把“摘要”拿走,只给侦探看原始、杂乱、充满噪音的网页,让他去预测刚才那个“正确动作”。
    • 结果:这就像让侦探在嘈杂的菜市场里,学会如何听清远处那个微弱的求救声。经过这种训练,侦探就拥有了“去伪存真”的超能力,能在乱糟糟的互联网里精准抓取关键信息。

3. 战绩:小数据,大爆发

  • 数据量:OpenSeeker 只用了 1.17 万 条精心合成的数据(相比之下,很多模型用几十万条甚至上百万条)。
  • 训练方式:只用了一种最基础的方法叫“监督微调”(SFT),没有搞那些复杂的强化学习(RL)或持续预训练。
  • 成绩
    • 在中文搜索测试(BrowseComp-ZH)中,它打败了阿里通义千问的 DeepResearch 版本(48.4 分 vs 46.7 分)。要知道,阿里的模型是用“大锅炖”(海量数据 + 复杂训练)练出来的,而 OpenSeeker 是“精炖”(少量高质量数据)。
    • 在多个国际基准测试中,它都跑赢了其他开源模型,甚至接近或超越了某些闭源的巨头模型。

4. 核心意义:打破垄断,人人皆可“侦探”

这篇论文最大的贡献不在于模型本身有多强,而在于它打破了“数据垄断”

  • 以前:只有大公司有钱、有数据,才能训练出聪明的搜索 AI。学术界只能看着干瞪眼。
  • 现在:OpenSeeker 把“如何制造高质量数据”的配方(Recipe)和食材(数据)全部免费公开了。
    • 这就好比:以前只有皇宫里有做“满汉全席”的厨师,现在他们把菜谱和顶级食材都发到了网上。
    • 任何大学、小团队甚至个人,只要拿到这些数据,就能训练出同样聪明的搜索 AI。

总结

OpenSeeker 就像是一个开源界的“造梦者”。它证明了:你不需要拥有整个互联网的数据,也不需要像巨头那样烧钱,只要数据质量够高、方法够巧妙,就能训练出世界顶级的搜索 AI。

它把原本高高在上的“超级搜索能力”,从科技巨头的保险柜里拿出来,放在了全人类的桌面上,让未来的 AI 研究变得更加透明、公平和充满希望。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →