Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 WeWrite 的智能系统，它是专门为短视频搜索（比如微信视频号）设计的“私人搜索助理”。

为了让你轻松理解，我们可以把短视频搜索想象成在一家巨大的、没有标签的超级图书馆里找书。

1. 痛点：为什么我们需要这个“助理”？

场景一：模糊的指令
想象你走进图书馆，只说了一个词：“光亮”。

普通搜索引擎（传统方法）：像个死板的图书管理员，它不知道你喜欢什么。它可能会给你一堆关于“灯光”、“照明”的书，或者完全随机地给你一本关于“歌手光亮”的书。
你的真实意图：其实你刚看完一个关于“光亮”白酒的广告，你想找的是白酒。
问题：如果系统不懂你的历史喜好，你就找不到想要的东西，只能重新搜一遍（这就叫“意图漂移”）。

场景二：乱改指令
再想象你想查“空气炸锅怎么炸鸡翅”（功能性需求）。

糟糕的“私人助理”：看到你昨天看过很多搞笑视频，就自作聪明地把你的搜索词改成“情侣用空气炸锅的搞笑瞬间”。
结果：你想查菜谱，它给你看笑话，你更生气了。
核心难题：什么时候该帮用户改搜索词？什么时候该闭嘴？

2. WeWrite 的三大绝招

为了解决这些问题，腾讯的工程师们设计了 WeWrite，它有三个核心步骤，我们可以用**“选徒弟 -> 练内功 -> 开分店”**来比喻。

第一步：什么时候该出手？（When to Write）

—— 像“精明的侦探”一样筛选案例

以前，系统可能觉得“只要用户搜了，我就帮它改”。但这很容易改错。
WeWrite 发明了一种**“事后诸葛亮”策略（后验挖掘）**：

做法：系统不瞎猜，而是去翻用户的“行为日记”。
- 如果用户搜了“光亮”，结果没看几秒就跑了，紧接着又搜了“光亮白酒”并且看了很久 -> 侦探判定：第一次搜索失败了，第二次是用户自己修正的。这是一个**“需要改写”的好案例**。
- 如果用户搜“空气炸锅”，直接看了一整天 -> 侦探判定：用户很满意，不需要任何改写。
比喻：就像教学生，老师不是盯着学生每一道题都改，而是只挑那些“学生做错了，自己又改对了”的题目作为教材。这样能确保只教“真正需要改”的情况，避免画蛇添足。

第二步：该怎么改？（How to Write）

—— 像“双修”的武林高手

找到了好案例，怎么教大模型（LLM）学会改写呢？论文用了**“苏菲 + 特训”**的组合拳：

苏菲（SFT，监督微调）：先让大模型像小学生一样，照着“好案例”（侦探筛选出的数据）死记硬背，学会基本的改写语法。
特训（GRPO，强化学习）：光会背不行，还得会“实战”。
- 问题：大模型有时候太有创意，写出的词太生僻，图书馆里根本找不到对应的书（比如它把“光亮白酒”改成了“那个很火的液体”），导致搜不到结果。
- 解决：系统给大模型发“奖金”。如果它改写的词，在图书馆里能搜到书，而且大家点击率高，就给它发糖（奖励）；如果改得太偏，搜不到东西，就扣糖（惩罚）。

比喻：这就像教一个作家。先让他模仿范文（SFT），然后让他去市场上卖书。如果他的书没人买（搜不到），就让他重写；如果书大卖（高点击率），就给他发奖金。最终让他写出既符合用户口味，又能被图书馆系统检索到的“畅销书标题”。

第三步：怎么跑得飞快？（Deployment）

—— 像“平行宇宙”的“假仓库”

大模型通常反应慢，如果每次用户搜索都要等它想半天，用户早就走了。
WeWrite 设计了一个**“假仓库”（Fake Recall）**架构：

做法：
1. 用户搜“光亮”时，系统同时做两件事：
  - 左边：普通搜索（查常规库）。
  - 右边：大模型在后台悄悄改写（查“假仓库”）。
2. 这个“假仓库”是提前建好的，里面存满了热门改写词对应的结果。
3. 如果大模型改写得好，它直接从“假仓库”里把结果拿出来，和左边的结果拼在一起。
比喻：就像你去餐厅点菜。
- 传统做法：厨师（大模型）在厨房现做，你等菜等到饿死。
- WeWrite 做法：服务员（普通搜索）先给你上凉菜，同时厨师在隔壁小灶（假仓库）里根据你的口味快速炒个热菜。等凉菜快吃完时，热菜刚好端上来。你感觉不到等待，却吃到了定制大餐。

3. 效果如何？

经过在微信视频号上的大规模测试，这个系统效果显著：

用户更爱看了：用户点击并观看超过 10 秒的视频量增加了 1.07%（相当于每 100 次搜索，多出了 1 次成功的深度观看）。
用户更省心了：用户因为搜不到东西而重新搜索的次数减少了 2.97%。

总结

这篇论文的核心思想就是：不要盲目地帮用户改搜索词，要像侦探一样只在用户“迷路”时出手；像教练一样训练 AI，让它既懂用户心思，又懂系统规则；最后像变魔术一样，让这一切在用户毫无感知的瞬间完成。

这就让短视频搜索从“冷冰冰的关键词匹配”，变成了“懂你心意的私人向导”。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：视频搜索中的个性化需求感知查询重写

1. 研究背景与问题定义

在短视频搜索系统（如微信视频号）中，用户输入的查询往往简短且存在歧义。传统的搜索方法主要依赖隐式历史特征，面临信号稀释和反馈延迟的问题。此外，现有的查询重写方法存在以下痛点：

意图漂移风险： indiscriminate（无差别）的重写可能导致功能型查询（如“空气炸锅”）被错误地根据娱乐历史进行改写，从而偏离用户真实意图（如图2所示）。
系统延迟：大型语言模型（LLM）的高推理成本难以满足实时视频搜索系统的严格延迟要求。
检索对齐困难：生成的重写查询可能语义正确，但无法匹配现有的搜索索引（即“零召回”问题）。

因此，核心挑战在于解决两个关键问题：“何时重写”（When to Write） 和 “如何重写”（How to Write），同时保证低延迟部署。

2. 核心方法论：WeWrite 框架

作者提出了 WeWrite，一个个性化的需求感知查询重写框架。该系统包含三个核心模块：

2.1 基于后验的样本挖掘（解决“何时重写”）

为了确定何时需要引入个性化重写，系统利用用户后验行为（如查询改写、停留时长）自动挖掘高质量训练样本，分为两类：

正样本（Rewrite）：
- 触发条件：用户初始查询（ $Q_{orig}$ ）导致失败（短停留， $T < 2.4s$ ），随后立即改写为成功查询（ $Q_{next}$ ，长停留， $T > 10s$ ）。
- 过滤机制：
  1. 上下文重叠过滤：确保改写引入的新词汇在用户历史上下文（观看视频标题/标签、地理位置等）中出现。
  2. LLM 意图验证：使用教师模型（Qwen3-32B）进行二元分类，确认改写是否明确由用户上下文驱动，排除拼写修正等噪声。
负样本（Reject）：
- 用户初始查询直接获得满意结果（长停留， $T > \tau_{long}$ ）且未发生改写的情况。
- 标签为 <reject>，训练模型在不需要重写时停止生成。

2.2 风格对齐的 LLM 微调（解决“如何重写”）

采用混合训练范式，结合监督微调（SFT）与强化学习（RL），使 LLM 的输出风格与检索系统对齐。

监督微调 (SFT)：
- 使用挖掘出的数据集（正负样本）对基座模型（如 Qwen）进行微调。
- 目标是最小化负对数似然，学习根据上下文生成重写查询或输出 <reject>。
基于 GRPO 的强化学习 (RL)：
- 目的：解决生成查询在现有索引中无法召回的问题（Style Alignment）。
- 奖励函数设计：基于 180 天历史日志，奖励函数 $R(Q_{rew})$ $R (Q_{r e w})$ 包含：
  - 搜索频率对数 $\log(Freq)$ ：鼓励生成常见、索引完善的查询。
  - 点击率 (CTR)：偏好高用户满意度的查询。
  - 惩罚项：对生成未知词汇（幻觉）进行惩罚。
- 优化算法：采用 Group Relative Policy Optimization (GRPO)。无需价值网络，通过采样一组重写结果，计算相对优势（Advantage），在最大化奖励的同时通过 KL 散度约束模型偏离参考模型。

2.3 部署架构：Fake Recall（解决延迟问题）

为了在实时系统中实现低延迟，设计了并行的 "Fake Recall"（假召回） 架构：

离线构建 Fake Index：预先构建键值对索引（ $I_{fake}$ $I_{f ak e}$ ），将有效查询映射到其 Top-K 文档。
- 头部查询基于历史 CTR 和停留时间缓存。
- 长尾查询基于历史搜索日志挖掘补充。
在线并行执行：
1. 用户请求到达时，传统搜索路径（文本/向量召回）与 个性化重写路径 并行触发。
2. LLM 异步生成重写查询 $Q_{rew}$ 。
3. 若 $Q_{rew}$ 命中 $I_{fake}$ ，直接获取候选文档列表（ $O(1)$ 时间复杂度）。
4. 经过轻量级相关性过滤后，与主召回结果融合排序。
效果：LLM 推理与耗时较长的传统召回并行，实现了零感知延迟的个性化服务。

3. 主要贡献

后验驱动的“何时”策略：提出自动化挖掘机制，利用用户后验反馈精准识别必须个性化的场景，有效缓解意图漂移。
GRPO 对齐的“如何”训练：首创结合 SFT 与 GRPO 的混合训练范式，通过优化检索导向的奖励（索引命中率、CTR），确保生成查询既个性化又符合系统索引规范。
Fake Recall 部署架构：设计并行架构解耦 LLM 推理与主路径，成功解决了 LLM 在实时搜索系统中的延迟瓶颈。

4. 实验结果

在大型视频平台进行了在线 A/B 测试，部署模型为 Qwen3-4B + SFT + GRPO：

点击观看量 (VV>10s)：提升 1.07%。
查询改写率 (Query Reformulation Rate)：降低 2.97%（表明用户更满意，无需再次搜索）。

5. 意义与价值

理论创新：明确了个性化查询重写中“必要性判断”与“生成风格对齐”的解耦与协同机制。
工程落地：证明了通过“假召回”架构，可以将大模型能力无缝集成到对延迟极度敏感的实时搜索系统中，为行业提供了可复用的低延迟 LLM 部署方案。
用户体验：显著提升了模糊意图下的搜索满意度，减少了用户的重复搜索成本。

When & How to Write for Personalized Demand-aware Query Rewriting in Video Search

1. 痛点：为什么我们需要这个“助理”？

2. WeWrite 的三大绝招

第一步：什么时候该出手？（When to Write）

第二步：该怎么改？（How to Write）

第三步：怎么跑得飞快？（Deployment）

3. 效果如何？

总结

论文技术总结：视频搜索中的个性化需求感知查询重写

1. 研究背景与问题定义

2. 核心方法论：WeWrite 框架

2.1 基于后验的样本挖掘（解决“何时重写”）

2.2 风格对齐的 LLM 微调（解决“如何重写”）

2.3 部署架构：Fake Recall（解决延迟问题）

3. 主要贡献

4. 实验结果

5. 意义与价值

类似论文

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank