When & How to Write for Personalized Demand-aware Query Rewriting in Video Search

本文提出了名为 WeWrite 的个性化需求感知查询重写框架,通过自动化挖掘策略精准判断重写时机、采用监督微调与 GRPO 混合训练优化重写方式,并借助“假召回”架构实现低延迟部署,从而在视频搜索中显著提升了长视频点击量并降低了查询改写率。

Cheng cheng, Chenxing Wang, Aolin Li, Haijun Wu, Huiyun Hu, Juyuan Wang

发布于 2026-02-23
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 WeWrite 的智能系统,它是专门为短视频搜索(比如微信视频号)设计的“私人搜索助理”。

为了让你轻松理解,我们可以把短视频搜索想象成在一家巨大的、没有标签的超级图书馆里找书。

1. 痛点:为什么我们需要这个“助理”?

场景一:模糊的指令
想象你走进图书馆,只说了一个词:“光亮”。

  • 普通搜索引擎(传统方法):像个死板的图书管理员,它不知道你喜欢什么。它可能会给你一堆关于“灯光”、“照明”的书,或者完全随机地给你一本关于“歌手光亮”的书。
  • 你的真实意图:其实你刚看完一个关于“光亮”白酒的广告,你想找的是白酒
  • 问题:如果系统不懂你的历史喜好,你就找不到想要的东西,只能重新搜一遍(这就叫“意图漂移”)。

场景二:乱改指令
再想象你想查“空气炸锅怎么炸鸡翅”(功能性需求)。

  • 糟糕的“私人助理”:看到你昨天看过很多搞笑视频,就自作聪明地把你的搜索词改成“情侣用空气炸锅的搞笑瞬间”。
  • 结果:你想查菜谱,它给你看笑话,你更生气了。
  • 核心难题:什么时候该帮用户改搜索词?什么时候该闭嘴?

2. WeWrite 的三大绝招

为了解决这些问题,腾讯的工程师们设计了 WeWrite,它有三个核心步骤,我们可以用**“选徒弟 -> 练内功 -> 开分店”**来比喻。

第一步:什么时候该出手?(When to Write)

—— 像“精明的侦探”一样筛选案例

以前,系统可能觉得“只要用户搜了,我就帮它改”。但这很容易改错。
WeWrite 发明了一种**“事后诸葛亮”策略(后验挖掘)**:

  • 做法:系统不瞎猜,而是去翻用户的“行为日记”。
    • 如果用户搜了“光亮”,结果没看几秒就跑了,紧接着又搜了“光亮 白酒”并且看了很久 -> 侦探判定:第一次搜索失败了,第二次是用户自己修正的。这是一个**“需要改写”的好案例**。
    • 如果用户搜“空气炸锅”,直接看了一整天 -> 侦探判定:用户很满意,不需要任何改写。
  • 比喻:就像教学生,老师不是盯着学生每一道题都改,而是只挑那些“学生做错了,自己又改对了”的题目作为教材。这样能确保只教“真正需要改”的情况,避免画蛇添足。

第二步:该怎么改?(How to Write)

—— 像“双修”的武林高手

找到了好案例,怎么教大模型(LLM)学会改写呢?论文用了**“苏菲 + 特训”**的组合拳:

  1. 苏菲(SFT,监督微调):先让大模型像小学生一样,照着“好案例”(侦探筛选出的数据)死记硬背,学会基本的改写语法。
  2. 特训(GRPO,强化学习):光会背不行,还得会“实战”。
    • 问题:大模型有时候太有创意,写出的词太生僻,图书馆里根本找不到对应的书(比如它把“光亮白酒”改成了“那个很火的液体”),导致搜不到结果。
    • 解决:系统给大模型发“奖金”。如果它改写的词,在图书馆里能搜到书,而且大家点击率高,就给它发糖(奖励);如果改得太偏,搜不到东西,就扣糖(惩罚)。
  • 比喻:这就像教一个作家。先让他模仿范文(SFT),然后让他去市场上卖书。如果他的书没人买(搜不到),就让他重写;如果书大卖(高点击率),就给他发奖金。最终让他写出既符合用户口味,又能被图书馆系统检索到的“畅销书标题”。

第三步:怎么跑得飞快?(Deployment)

—— 像“平行宇宙”的“假仓库”

大模型通常反应慢,如果每次用户搜索都要等它想半天,用户早就走了。
WeWrite 设计了一个**“假仓库”(Fake Recall)**架构:

  • 做法
    1. 用户搜“光亮”时,系统同时做两件事:
      • 左边:普通搜索(查常规库)。
      • 右边:大模型在后台悄悄改写(查“假仓库”)。
    2. 这个“假仓库”是提前建好的,里面存满了热门改写词对应的结果。
    3. 如果大模型改写得好,它直接从“假仓库”里把结果拿出来,和左边的结果拼在一起。
  • 比喻:就像你去餐厅点菜。
    • 传统做法:厨师(大模型)在厨房现做,你等菜等到饿死。
    • WeWrite 做法:服务员(普通搜索)先给你上凉菜,同时厨师在隔壁小灶(假仓库)里根据你的口味快速炒个热菜。等凉菜快吃完时,热菜刚好端上来。你感觉不到等待,却吃到了定制大餐。

3. 效果如何?

经过在微信视频号上的大规模测试,这个系统效果显著:

  • 用户更爱看了:用户点击并观看超过 10 秒的视频量增加了 1.07%(相当于每 100 次搜索,多出了 1 次成功的深度观看)。
  • 用户更省心了:用户因为搜不到东西而重新搜索的次数减少了 2.97%

总结

这篇论文的核心思想就是:不要盲目地帮用户改搜索词,要像侦探一样只在用户“迷路”时出手;像教练一样训练 AI,让它既懂用户心思,又懂系统规则;最后像变魔术一样,让这一切在用户毫无感知的瞬间完成。

这就让短视频搜索从“冷冰冰的关键词匹配”,变成了“懂你心意的私人向导”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →