Aligning Large Language Models with Searcher Preferences

本文提出了首个面向开放式生成式搜索的大语言模型 SearchLLM,通过设计分层多维奖励系统与门控聚合策略,在 RedNote 平台上实现了生成质量与用户参与度的显著提升,同时严格保障了安全性与事实准确性。

Wei Wu, Peilun Zhou, Liyi Chen, Qimeng Wang, Chengqiang Lu, Yan Gao, Yi Wu, Yao Hu, Hui Xiong

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让 AI 搜索引擎变得更聪明、更靠谱、更懂用户的故事。

想象一下,传统的搜索引擎就像一个图书管理员。当你问它一个问题,它会给你一张长长的书单(搜索结果列表),告诉你“书 A、书 B、书 C 可能有用”,然后让你自己去翻书、找答案。

而这篇论文提出的 SearchLLM,则像是一个超级全能的家庭顾问。你问它问题,它不仅能帮你找资料,还能把资料读透,直接给你整理出一份有逻辑、有重点、甚至带点人情味的完整回答

但是,让 AI 当“家庭顾问”有个大难题:它有时候会胡说八道(幻觉),有时候废话连篇,甚至可能给出不安全的建议。为了解决这个问题,作者设计了一套独特的“训练方法”。

我们可以用三个生动的比喻来理解这篇论文的核心:

1. 核心挑战:给 AI 戴上“紧箍咒”和“导航仪”

在让 AI 生成回答时,作者发现需要平衡三个看似矛盾的需求:

  • R1(抗干扰能力): 就像在嘈杂的菜市场里听清别人说话。AI 面对一堆乱七八糟、甚至互相矛盾的资料,得能分辨真假,不能瞎编。
  • R2(底线安全): 这是**“紧箍咒”。AI 绝对不能说假话、绝对不能给危险建议(比如“生病了自己乱吃药”)、格式也不能乱。这是一票否决**的,做不到就全都不行。
  • R3(用户喜好): 这是**“导航仪”**。回答要简洁、重点突出、像聊天一样自然,让用户看着舒服。

2. 解决方案:两层奖励系统(像“安检” + “评分”)

作者设计了一套**“双层奖励系统”**,就像给 AI 员工制定了一套特殊的考核制度:

  • 第一层:底线层(Layer I)—— 严格的“安检门”

    • 比喻: 就像机场安检。如果行李里有炸弹(事实错误、不安全内容、格式混乱),直接拦截,不管这行李多漂亮都没用。
    • 做法: 用规则检查(比如检查有没有 Markdown 格式)和 AI 法官(检查有没有胡说八道)。如果这一层没过关,分数直接归零。
  • 第二层:行为层(Layer II)—— 灵活的“绩效评分”

    • 比喻: 就像餐厅的“顾客满意度”。在确保食品安全(第一层)的前提下,菜做得好不好吃、上菜快不快、摆盘漂不漂亮,这些可以互相权衡
    • 做法: 检查回答是否丰富、是否简洁、是否解决了用户的核心问题。

3. 关键创新:智能“闸门”策略(Gated Aggregation)

这是论文最精彩的地方。以前的训练方法就像把“安检”和“绩效”简单相加,结果 AI 为了拿高分,可能会牺牲安全去追求花哨(比如为了回答得丰富,编造了一个危险的建议)。

作者发明了一个**“智能闸门”**:

  • 比喻: 想象一个水闸
    • 只有当“安检层”(安全、事实)的水位足够高时,“绩效层”(丰富、简洁)的水流才能通过闸门,去推动 AI 进步。
    • 如果“安检层”水位低了(哪怕只有一点点不安全),闸门就会紧紧关闭,后面的绩效再高也白搭。
  • 效果: 这确保了 AI 永远把安全放在第一位,只有在保证安全的基础上,才会努力变得更聪明、更讨喜。

4. 实战成果:在“小红书”上的大变身

作者把这个 AI(SearchLLM)部署到了**小红书(RedNote)**的 AI 搜索功能里,并进行了大规模的测试:

  • 以前(Baseline): 用户搜“某首歌什么时候发布”,AI 可能还在播报去年的旧闻,或者给出一堆过期的电台信息。
  • 现在(SearchLLM): AI 能识别出“那是去年的事,现在早就能听了”,并直接告诉你现在哪里能听。
  • 数据说话:
    • 有效阅读率(VCR)提升了 1.03%: 意味着更多人愿意停下来读完 AI 给的答案,而不是直接关掉。
    • 重搜率(RR)降低了 2.81%: 意味着用户问一次就够了,不需要再搜第二次。
    • 安全零事故: 在提升体验的同时,没有增加任何危险或错误的回答。

总结

这篇论文就像是在教一个刚入职的超级实习生(AI)

  1. 先学会守规矩(不能撒谎、不能乱给建议,这是红线);
  2. 再学会好好说话(说话要简洁、重点要突出、要懂用户);
  3. 用一套聪明的考核制度(闸门策略),确保它永远不敢越雷池一步,同时又能发挥最大的聪明才智。

最终,这个 AI 不仅变得更安全、更准确,还变得更像一个贴心的真人助手,让用户在海量信息中不再迷路。