Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

该论文提出了 DevRev-Search 基准及一种索引保持的自适应策略,通过自动化管道构建数据集并仅微调查询编码器,从而在不重新索引文档的前提下实现了多租户搜索系统的高效领域适应。

Prateek Jain, Shabari S Nair, Ritesh Goru, Prakhar Agarwal, Ajay Yadav, Yoga Sri Varshan Varadharajan, Constantine Caramanis

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让大型企业的搜索引擎变得更聪明、更省钱的故事。

想象一下,你经营着一家拥有成千上万个独立部门(租户)的大型超级市场(多租户系统)。每个部门都有自己的仓库(文档库),里面堆满了各种商品说明书、维修手册和常见问题解答。

现在,顾客(用户)来问:“我的打印机卡纸了怎么办?”或者“怎么设置新的员工权限?”。

这篇论文指出了传统方法面临的两个大麻烦,并提出了一个“三管齐下”的绝妙解决方案。

🚧 遇到的两大难题

  1. “黑匣子”数据难题(数据稀缺)

    • 比喻:虽然超市里每天都有成千上万的顾客在问问题,但没人知道他们最后到底找到了满意的答案没有。这些“顾客问了什么”和“他们是否满意”的记录,就像被锁在黑匣子里一样,是“黑暗数据”。
    • 后果:因为没有这些“正确答案”的标签,搜索引擎就像是一个没受过专业训练的新手,很难学会如何精准地回答特定部门的问题。
  2. “重新装修”的昂贵代价(适应延迟)

    • 比喻:以前的做法是,如果想让搜索引擎变聪明,就得把整个超市的所有货架(文档索引)都拆下来,重新摆放一遍,甚至重新给每个商品贴标签。
    • 后果:对于拥有几千个独立部门的超市来说,每次更新模型都要“重新装修”一次,成本太高、时间太长,根本做不到。

💡 他们的解决方案:DevRev-Search

作者团队(来自 DevRev 和德州大学奥斯汀分校)提出了一套组合拳,就像给搜索引擎请了一位超级 AI 教练,并且发明了一种**“只练脑子,不动货架”**的独门绝技。

1. 自动制造“考题”:不用人工,全靠 AI 互搏

  • 传统做法:雇一大群专家, manually(人工)去读文档、写问题、标答案。这太慢、太贵,而且容易漏掉很多细节。
  • 他们的做法(自动化流水线)
    • 第一步(广撒网):派出 7 个不同的“搜索侦探”(包括 6 个 AI 模型和 1 个传统搜索工具),让它们同时去搜答案。
    • 第二步(大融合):把这 7 个侦探找到的所有线索拼在一起,确保不漏掉任何可能的答案。
    • 第三步(AI 裁判):请一位更厉害的大语言模型(LLM)当裁判。裁判的任务不是“写”答案,而是“挑刺”。它会检查:“这条线索真的能解决顾客的问题吗?还是只是碰巧有几个相同的词?”
    • 结果:通过这种"AI 找线索 + AI 当裁判”的方式,他们自动生成了高质量的训练数据,完全不需要人工标注。这就好比让一群 AI 互相出题、互相批改,最后生成了一套完美的题库。

2. “只练脑子,不动货架”:零重索引适应

  • 传统做法:想提升搜索效果?把整个仓库的货架(文档索引)全部重新整理一遍。
  • 他们的做法(查询端适应)
    • 比喻:想象图书馆的书架(文档)是冻结的,不能动。我们只训练图书管理员(查询编码器)
    • 原理:当顾客问问题时,我们只调整图书管理员“理解问题”的方式,让他能更精准地指向那些已经存在的书架。
    • 好处:因为书架不用动,所以不需要重新装修,更新速度极快,成本极低。这对于拥有几千个独立部门的超市来说,简直是救星。

3. “轻量级”训练:参数高效微调 (PEFT)

  • 传统做法:要把图书管理员培养成专家,通常要让他把脑子里所有的知识都重新学一遍(全量微调),这太费脑子(计算资源)了。
  • 他们的做法(LoRA 等技术)
    • 比喻:我们不需要让管理员重新学完所有书。我们只需要给他贴几个“便签条”(LoRA 低秩适配),或者只让他重点复习最后几章(只微调部分层)。
    • 结果:实验证明,这种“贴便签”的方法,效果几乎和“重新学完所有书”一样好,但速度快了无数倍,成本也低得多。

🏆 最终效果

他们在三个不同的领域(企业技术支持、科学事实核查、金融问答)都做了测试:

  • 质量:搜索的准确度(Recall 和 NDCG)非常高,甚至有时候比那种“重新装修整个仓库”的传统方法还要好一点点。
  • 效率:因为不需要重新索引,也不需要人工标注,这套方案既

📝 一句话总结

这篇论文就像是在说:别费劲去重新整理成千上万个仓库了!我们发明了一套让 AI 自动出题、自动批改,并且只训练“图书管理员”怎么提问的聪明办法。这样,搜索引擎既能变得超级聪明,又能保持轻装上阵,随时适应新需求。