When Relevance Meets Novelty: Dual-Stable Periodic Optimization for Serendipitous Recommendation

本文针对现有大语言模型增强推荐系统在长期兴趣建模偏差和静态优化方面的不足,提出了包含双稳态兴趣探索模块与周期性协同优化机制的协同演化对齐(CoEA)方法,通过联合建模长短期兴趣并构建动态闭环反馈,有效实现了兼顾相关性与新颖性的惊喜推荐。

Hongxiang Lin, Hao Guo, Zeshun Li, Erpeng Xue, Yongqian He, Zhaoyu Hu, Lei Wang, Sheng Chen, Long Zeng

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 CoEA(协同进化对齐)的新方法,旨在解决推荐系统(比如抖音、美团、淘宝的推荐)中一个让人头疼的难题:如何既给用户推他们喜欢的东西,又推一些他们从未见过但可能很惊喜的新东西

为了让你轻松理解,我们可以把推荐系统想象成一位**“超级导购员”,而这篇论文就是给这位导购员升级的一套“双轨制 + 循环特训”**的独门秘籍。

1. 现在的痛点:导购员太“死板”

传统的推荐系统就像一位只认死理的导购员

  • 问题:如果你昨天买了一双运动鞋,他今天、明天、后天都只给你推运动鞋。
  • 后果:虽然你买到了想要的(相关性高),但你看腻了(内容疲劳),而且你本来可能想买个瑜伽垫,但他永远猜不到,因为你没买过。这就叫“信息茧房”。
  • 现有尝试的缺陷:现在的 AI(大模型)虽然能猜出新东西,但往往有两个毛病:
    1. 只看眼前:它只盯着你最近几天的行为,忽略了你是个什么样的人(比如你是个“科技发烧友”这个长期身份)。
    2. 一次性交易:它调整一次就完了,不会根据你后来的反馈不断自我进化。

2. CoEA 的解决方案:双轨制 + 循环特训

这篇论文给导购员设计了一套全新的工作流,包含两个核心模块:

第一招:双稳态兴趣探索(DSIE)——“看人下菜碟” + “看近况”

这就好比导购员手里有两本笔记:

  • 笔记 A(长期身份本):记录你的**“群体身份”**。
    • 比喻:不管你是张三还是李四,只要你是“科技发烧友”这个群体,你就大概率喜欢最新款的折叠屏手机。系统通过算法把你和成千上万个有相似长期兴趣的人归为一类,提取出这个群体的“共同画像”。这保证了推荐不跑偏
  • 笔记 B(短期兴趣本):记录你**“最近几天的动态”**。
    • 比喻:你最近刚搜过“露营装备”,说明你最近可能想去户外。系统会捕捉这些细碎的、即时的兴趣。
  • 怎么结合?:系统把“群体身份”和“近期动态”结合起来。
    • 效果:它既知道你是个“科技发烧友”(长期稳定),又知道你现在“想去露营”(短期动态)。于是,它可能会给你推荐一款**“带有科技感的智能露营灯”。这既符合你的身份,又满足了你当下的新需求,这就是“惊喜感”(Serendipity)**。

第二招:周期性协同优化(PCO)——“师徒互考,循环升级”

以前的系统,推荐模型(负责出新意的)和打分模型(负责把关的)是**“一次性合作”,合作完就各干各的。
CoEA 把它们变成了
“师徒搭档,互相磨刀”**:

  1. 徒弟(新奇模型):根据“双本笔记”,大胆猜出一些你可能感兴趣的新品类(比如“智能露营灯”)。
  2. 师父(相关模型):拿着徒弟猜的品类,去验证:“这个用户真的会喜欢吗?”如果验证通过,就打分通过;如果不通过,就反馈“不行”。
  3. 关键创新(闭环)
    • 师父的反馈(通过/不通过)会立刻用来训练徒弟,让徒弟下次猜得更准。
    • 徒弟猜出的新东西,反过来也会让师父重新评估,更新师父的“用户喜好数据库”。
    • 比喻:这就像两个人打乒乓球,你打过来,我挡回去,我再打给你,球速越来越快,配合越来越默契。系统不再是静止的,而是随着时间推移,越用越聪明

3. 实际效果:美团真的在用

论文团队在美团(中国最大的外卖/生活服务平台)上进行了测试:

  • 离线测试:在历史数据上跑,发现这套方法比现有的最先进方法,在**“发现新东西”的能力上提升了 19% 以上,同时“推荐准确度”**也提高了。
  • 在线实战:在美团 App 首页真的上线了。
    • 结果:用户的交易总额(GTV)增加了 1.2%(说明大家更愿意买了),同时新商品的曝光率(7D-NIEP)增加了 2.3%(说明大家看到了更多以前没见过的东西)。

总结

简单来说,这篇论文就是给推荐系统装上了**“长期记忆”(知道你是个什么样的人)和“自我进化”**(不断根据反馈调整)的能力。

它不再是一个只会推你“老爱看”的东西的机器,而是一个懂你、能陪你探索新世界、并且越相处越默契的“智能生活伴侣”。它成功地在“推你喜欢的”和“推你没见过的”之间找到了完美的平衡点。