Debiasing Sequential Recommendation with Time-aware Inverse Propensity Scoring

本文针对顺序推荐中因忽略曝光信息而导致的选择偏差和曝光偏差问题,提出了一种能够捕捉用户行为时序依赖与动态变化的时间感知逆倾向评分(TIPS)方法,通过反事实推理有效区分“未曝光”与“不感兴趣”,从而显著提升了多种顺序推荐模型的性能。

Sirui Huang, Jing Long, Qian Li, Guandong Xu, Qing Li

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决的是**“推荐系统如何更公平、更聪明地猜出你真正喜欢什么”**的问题。

为了让你轻松理解,我们可以把推荐系统想象成一位**“餐厅服务员”,而用户就是“食客”**。

1. 现在的痛点:服务员的“偏见”

想象一下,你走进一家餐厅,服务员只记录了你点了什么菜(比如点了牛排),却完全忽略了菜单上有哪些菜你没点,甚至忽略了服务员根本没把某些菜端到你面前

这就导致了两个大问题:

  • 曝光偏见(Exposure Bias): 如果服务员只给你看“牛排”和“汉堡”的菜单,你点了牛排。服务员就会误以为:“哦,他肯定不喜欢汉堡,或者他根本不知道有汉堡这回事。”其实你可能只是没看到菜单,或者菜单上根本没汉堡。
  • 选择偏见(Selection Bias): 即使服务员把“牛排”和“沙拉”都端给你看了,你只点了牛排。服务员可能会想:“他不喜欢沙拉。”但实际上,你可能只是今天不想吃沙拉,而不是讨厌沙拉。

**传统的推荐算法(现有的 SR 模型)**就像这位只盯着你“点了什么”的服务员。它只根据你过去的点击、购买记录来学习,完全忽略了那些“被展示过但你没点”或者“根本没展示过”的情况。这导致它越来越固执,只给你推你以前点过的东西,或者只推那些本来就热门的东西。

2. 传统的解法:倒推法(IPS)的局限

为了解决这个问题,以前的科学家发明了一种叫**“逆倾向评分(IPS)”**的方法。

  • 比喻: 这就像服务员在心里想:“这道菜被端上来的概率很低,但他居然点了,说明他真的很喜欢!我要给这个‘喜欢’打个高分。”
  • 问题: 传统的 IPS 是**“静态”**的。它就像是一个死板的计算器,不管你是早上、中午还是晚上,也不管你刚吃完什么,它都用同一套规则去计算。
    • 但在现实生活中,人的口味是随时间变化的(比如你刚吃完大餐,现在只想喝粥)。
    • 而且,你现在的选择往往受上一道菜的影响(比如吃了辣火锅,下一道可能想喝冰可乐)。
    • 传统的 IPS 忽略了这种**“时间顺序”“前后关联”**,所以修正得不够精准。

3. 本文的绝招:HyperG(带时间感的“读心术”)

这篇论文提出了一种新方法,叫 HyperG(或者叫 TIPS,时间感知的逆倾向评分)。它给服务员装上了一个**“时间机器”“读心术”**。

核心创意:反事实推理(Counterfactual Reasoning)

既然我们不知道“如果端了别的菜,你会不会点”,那就**“假装”**端了,然后去猜你的反应。这就是“反事实”。

HyperG 会针对你每一次真实的点餐,脑补出三种“平行宇宙”的场景

  1. 相似场景: “如果当时端上来的是和牛排很像的‘羊排’,你会点吗?”(利用相似物品来模拟曝光)。
  2. 热门场景: “如果当时端上来的是全餐厅最火的‘招牌菜’,你会点吗?”(利用热门物品来模拟曝光)。
  3. 时间场景: “如果这道牛排是在10 分钟前端上来的,而不是现在,你会点吗?”(利用时间变化来模拟曝光)。

它是如何工作的?

  1. 双重身份(Dual Encoding):
    • 服务员手里有两张表。一张表记录**“你真正喜欢的菜”(基于你点的菜),另一张表记录“哪些菜经常被端上来”**(基于曝光)。这两张表分开记,互不干扰,避免混淆。
  2. 时间感知(Time-aware):
    • 它不仅仅看“点了什么”,还看“什么时候点的”。它知道昨天的你和今天的你可能不一样。
    • 它利用上面脑补的三种场景,计算出**“这道菜在什么时间、什么情况下被端上来的概率”**。
  3. 动态修正(Reweighting):
    • 如果系统发现某道菜很少被端上来(曝光概率低),但你居然点了,HyperG 会给你这个“喜欢”打上超级加倍的分(因为这说明你是真爱)。
    • 如果某道菜天天被端上来(曝光概率高),但你没点,系统会明白:“哦,他可能真的不喜欢,或者只是今天不想吃”,而不是盲目地认为他讨厌所有这类菜。

4. 效果如何?

论文在四个大型数据集(像电影、音乐、书籍等)上做了实验。

  • 比喻: 就像给这位服务员换了一个更聪明的“大脑”。
  • 结果: 无论是传统的推荐模型(像 RNN、Transformer),还是最新的生成式模型(像扩散模型),加上 HyperG 这个“插件”后,推荐准确率都显著提升
  • 特别之处: 在数据量大的场景下(比如音乐推荐,大家听歌很频繁),HyperG 的效果尤其好,因为它能更精准地捕捉到你随时间变化的口味

总结

这篇论文的核心思想就是:不要只盯着用户“做了什么”,要试着去理解用户“没做什么”以及“为什么没做”。

通过引入时间维度反事实脑补,HyperG 让推荐系统不再是一个只会死记硬背的“记录员”,而变成了一个能理解时间流逝情境变化的**“贴心管家”**,从而更准确地猜出你真正想要的东西,而不是只推那些它觉得“安全”的热门货。