When Relevance Meets Novelty: Dual-Stable Periodic Optimization for Serendipitous Recommendation

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 CoEA（协同进化对齐）的新方法，旨在解决推荐系统（比如抖音、美团、淘宝的推荐）中一个让人头疼的难题：如何既给用户推他们喜欢的东西，又推一些他们从未见过但可能很惊喜的新东西？

为了让你轻松理解，我们可以把推荐系统想象成一位**“超级导购员”，而这篇论文就是给这位导购员升级的一套“双轨制 + 循环特训”**的独门秘籍。

1. 现在的痛点：导购员太“死板”

传统的推荐系统就像一位只认死理的导购员。

问题：如果你昨天买了一双运动鞋，他今天、明天、后天都只给你推运动鞋。
后果：虽然你买到了想要的（相关性高），但你看腻了（内容疲劳），而且你本来可能想买个瑜伽垫，但他永远猜不到，因为你没买过。这就叫“信息茧房”。
现有尝试的缺陷：现在的 AI（大模型）虽然能猜出新东西，但往往有两个毛病：
1. 只看眼前：它只盯着你最近几天的行为，忽略了你是个什么样的人（比如你是个“科技发烧友”这个长期身份）。
2. 一次性交易：它调整一次就完了，不会根据你后来的反馈不断自我进化。

2. CoEA 的解决方案：双轨制 + 循环特训

这篇论文给导购员设计了一套全新的工作流，包含两个核心模块：

第一招：双稳态兴趣探索（DSIE）——“看人下菜碟” + “看近况”

这就好比导购员手里有两本笔记：

笔记 A（长期身份本）：记录你的**“群体身份”**。
- 比喻：不管你是张三还是李四，只要你是“科技发烧友”这个群体，你就大概率喜欢最新款的折叠屏手机。系统通过算法把你和成千上万个有相似长期兴趣的人归为一类，提取出这个群体的“共同画像”。这保证了推荐不跑偏。
笔记 B（短期兴趣本）：记录你**“最近几天的动态”**。
- 比喻：你最近刚搜过“露营装备”，说明你最近可能想去户外。系统会捕捉这些细碎的、即时的兴趣。
怎么结合？：系统把“群体身份”和“近期动态”结合起来。
- 效果：它既知道你是个“科技发烧友”（长期稳定），又知道你现在“想去露营”（短期动态）。于是，它可能会给你推荐一款**“带有科技感的智能露营灯”。这既符合你的身份，又满足了你当下的新需求，这就是“惊喜感”（Serendipity）**。

第二招：周期性协同优化（PCO）——“师徒互考，循环升级”

以前的系统，推荐模型（负责出新意的）和打分模型（负责把关的）是**“一次性合作”，合作完就各干各的。
CoEA 把它们变成了“师徒搭档，互相磨刀”**：

徒弟（新奇模型）：根据“双本笔记”，大胆猜出一些你可能感兴趣的新品类（比如“智能露营灯”）。
师父（相关模型）：拿着徒弟猜的品类，去验证：“这个用户真的会喜欢吗？”如果验证通过，就打分通过；如果不通过，就反馈“不行”。
关键创新（闭环）：
- 师父的反馈（通过/不通过）会立刻用来训练徒弟，让徒弟下次猜得更准。
- 徒弟猜出的新东西，反过来也会让师父重新评估，更新师父的“用户喜好数据库”。
- 比喻：这就像两个人打乒乓球，你打过来，我挡回去，我再打给你，球速越来越快，配合越来越默契。系统不再是静止的，而是随着时间推移，越用越聪明。

3. 实际效果：美团真的在用

论文团队在美团（中国最大的外卖/生活服务平台）上进行了测试：

离线测试：在历史数据上跑，发现这套方法比现有的最先进方法，在**“发现新东西”的能力上提升了 19% 以上，同时“推荐准确度”**也提高了。
在线实战：在美团 App 首页真的上线了。
- 结果：用户的交易总额（GTV）增加了 1.2%（说明大家更愿意买了），同时新商品的曝光率（7D-NIEP）增加了 2.3%（说明大家看到了更多以前没见过的东西）。

总结

简单来说，这篇论文就是给推荐系统装上了**“长期记忆”（知道你是个什么样的人）和“自我进化”**（不断根据反馈调整）的能力。

它不再是一个只会推你“老爱看”的东西的机器，而是一个懂你、能陪你探索新世界、并且越相处越默契的“智能生活伴侣”。它成功地在“推你喜欢的”和“推你没见过的”之间找到了完美的平衡点。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

核心痛点：
传统的推荐系统往往陷入“强反馈循环”（Strong Feedback Loop），过度推送符合用户历史偏好的内容，导致用户兴趣探索受限，产生“内容疲劳”。虽然大语言模型（LLM）具备生成多样化内容的潜力，但现有的基于 LLM 的双模型框架（Novelty LLM + Relevance LLM）存在两个主要缺陷：

兴趣建模偏差 (Interest Modeling Bias)： 现有方法多依赖短期行为序列，忽略了由群体身份（Group Identity，如“科技爱好者”）驱动的长期稳定偏好。这导致新颖性探索偏离用户的真实深层需求，降低了推荐接受度。
双模型协同缺陷 (Dual-Model Collaboration Flaws)： 现有方法通常是一次性对齐（One-time Alignment），生成静态数据库。它们无法利用增量用户数据进行闭环优化，导致模型难以适应动态变化的用户兴趣。

目标：
构建一个既能最大化推荐类别的新颖性（Novelty），又能严格保证与用户内在兴趣（Relevance）对齐的惊喜推荐（Serendipitous Recommendation）机制。

2. 方法论 (Methodology)

作者提出了 Co-Evolutionary Alignment (CoEA) 方法，包含两个核心模块：Dual-Stable Interest Exploration (DSIE) 和 Periodic Collaborative Optimization (PCO)。

2.1 整体架构

CoEA 采用双模型架构：

Novelty LLM： 负责探索潜在的新颖兴趣类别。
Relevance LLM： 负责验证推荐内容的相关性，并指导 Novelty LLM 的优化。

2.2 核心模块一：Dual-Stable Interest Exploration (DSIE)

旨在解决兴趣建模偏差问题，通过并行处理长短期行为序列，构建融合“群体稳定性”与“个体时效性”的用户表示。

长短期序列并行处理：
- 长期序列 ( $I_{long}$ )： 经过点击频率过滤（去除偶然行为），输入因果自注意力机制（Causal Self-Attention, CSA）。结合用户稀疏特征（如年龄、性别），提取深层语义表示。
- 短期序列 ( $I_{short}$ )： 直接映射为细粒度的兴趣类别集合，捕捉用户最近的动态兴趣。
群体协同语义 ID (Group CSID) 生成：
- 利用 RQ-VAE (Residual-Quantized Variational AutoEncoder) 对长期兴趣表示进行分层向量量化。
- 将用户聚类为具有稳定偏好的“群体”，生成 Group CSID。
- 为每个群体选取代表性用户，利用未微调的 Profile LLM 生成文本化的群体画像（例如：“科技爱好者：偏好旗舰手机和折叠屏”）。
输出： 同时构建包含群体稳定性（CSID + 群体画像）和个体时效性（短期类别集合）的用户表示。

2.3 核心模块二：Periodic Collaborative Optimization (PCO)

旨在解决静态优化无法利用增量数据的问题，构建双向闭环迭代机制。

周期性闭环流程：
1. Novelty LLM 生成： 基于动态用户行为（短期序列 + 群体画像）生成候选新颖类别。
2. Relevance LLM 验证： 对候选类别进行偏好验证和打分（作为奖励模型）。
3. 增量微调 (Incremental Fine-tuning)：
  - Novelty LLM： 利用 Relevance LLM 的反馈信号，基于 DPO (Direct Preference Optimization) 进行增量微调。
  - 防遗忘机制： 引入 KL 散度损失 约束参数更新，防止灾难性遗忘（Catastrophic Forgetting），保留模型原有的知识储备和新兴趣挖掘能力。
4. Re-evaluation： 优化后的 Novelty LLM 生成的新内容再次反馈给 Relevance LLM 进行重评分，形成可持续优化的闭环。
离线存储： 将验证通过的新颖类别存入分布式键值数据库，解耦探索过程与在线推理，降低线上延迟。

3. 主要贡献 (Key Contributions)

Co-Evolutionary Alignment (CoEA) 框架： 提出了一种整合长期群体偏好建模与动态双模型协同的新方法，有效平衡了新颖性探索与偏好对齐。
Dual-Stable Interest Exploration (DSIE) 模块： 创新性地并行处理长短期序列，利用 RQ-VAE 提取群体 CSID，解决了因缺乏群体身份建模导致的新颖性探索偏离需求的问题。
Periodic Collaborative Optimization (PCO) 机制： 设计了双向闭环迭代机制，利用增量数据持续微调双模型，解决了传统静态优化无法适应动态数据的问题，并通过 KL 散度避免了灾难性遗忘。
全面评估： 在离线数据集和美团 App 的在线 A/B 测试中均验证了方法的有效性。

4. 实验结果 (Results)

4.1 离线实验 (Offline Evaluation)

数据集： Movielens-1M 和美团真实数据集 (MTRec)。
对比基线： 包括传统利用型模型 (SASRec, Bert4Rec 等) 和探索型模型 (Google-v1/v2, EXPLORE 等)。
性能提升：
- 质量指标 (C-H@K, C-N@K)： 相比最强基线，平均提升 0.73%。
- 新颖性指标 (NCP@K, CLTP@K)： 相比最强基线，平均提升 19.34%。
- 长尾发现 (CLTP)： 提升了 27.14%，显著优于 Google-v1 和 Google-v2。
消融实验：
- 移除长期序列 (w/o Long) 导致质量指标大幅下降，证明群体身份建模对保证推荐质量至关重要。
- 移除 Relevance LLM (w/o R-LLM) 导致质量严重退化，证明闭环验证的必要性。
- 移除 KL 散度约束 (w/o KL) 在多轮微调后导致新颖性指标显著下降，证明防遗忘机制的有效性。

4.2 在线实验 (Online A/B Test)

部署场景： 美团 App 首页推荐系统。
指标表现：
- GTV (总交易额)： 提升 +1.203%。
- 7D-NIEP (7 天新颖物品曝光比例)： 提升 +2.364%。
结论： CoEA 成功在保持商业价值（相关性）的同时，显著提升了用户对新奇内容的探索意愿。

5. 意义与价值 (Significance)

理论突破： 解决了推荐系统中“探索与利用”（Exploration-Exploitation）的经典难题，特别是通过引入“群体身份”概念，修正了单纯依赖短期行为导致的兴趣建模偏差。
工程落地： 提出了一套可落地的周期性优化方案（PCO），通过离线存储和增量微调，解决了 LLM 在工业级推荐系统中实时性差、难以持续迭代的问题。
商业价值： 在美团这样大规模的实际场景中，证明了惊喜推荐不仅能增加用户粘性（新颖性），还能直接促进交易转化（GTV 提升），打破了“新颖性必然牺牲商业价值”的刻板印象。
未来方向： 为冷启动用户建模和实时模型更新提供了新的思路，展示了 LLM 在推荐系统从“静态匹配”向“动态共进化”转变的巨大潜力。