Debiasing Sequential Recommendation with Time-aware Inverse Propensity Scoring

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决的是**“推荐系统如何更公平、更聪明地猜出你真正喜欢什么”**的问题。

为了让你轻松理解，我们可以把推荐系统想象成一位**“餐厅服务员”，而用户就是“食客”**。

1. 现在的痛点：服务员的“偏见”

想象一下，你走进一家餐厅，服务员只记录了你点了什么菜（比如点了牛排），却完全忽略了菜单上有哪些菜你没点，甚至忽略了服务员根本没把某些菜端到你面前。

这就导致了两个大问题：

曝光偏见（Exposure Bias）： 如果服务员只给你看“牛排”和“汉堡”的菜单，你点了牛排。服务员就会误以为：“哦，他肯定不喜欢汉堡，或者他根本不知道有汉堡这回事。”其实你可能只是没看到菜单，或者菜单上根本没汉堡。
选择偏见（Selection Bias）： 即使服务员把“牛排”和“沙拉”都端给你看了，你只点了牛排。服务员可能会想：“他不喜欢沙拉。”但实际上，你可能只是今天不想吃沙拉，而不是讨厌沙拉。

**传统的推荐算法（现有的 SR 模型）**就像这位只盯着你“点了什么”的服务员。它只根据你过去的点击、购买记录来学习，完全忽略了那些“被展示过但你没点”或者“根本没展示过”的情况。这导致它越来越固执，只给你推你以前点过的东西，或者只推那些本来就热门的东西。

2. 传统的解法：倒推法（IPS）的局限

为了解决这个问题，以前的科学家发明了一种叫**“逆倾向评分（IPS）”**的方法。

比喻： 这就像服务员在心里想：“这道菜被端上来的概率很低，但他居然点了，说明他真的很喜欢！我要给这个‘喜欢’打个高分。”
问题： 传统的 IPS 是**“静态”**的。它就像是一个死板的计算器，不管你是早上、中午还是晚上，也不管你刚吃完什么，它都用同一套规则去计算。
- 但在现实生活中，人的口味是随时间变化的（比如你刚吃完大餐，现在只想喝粥）。
- 而且，你现在的选择往往受上一道菜的影响（比如吃了辣火锅，下一道可能想喝冰可乐）。
- 传统的 IPS 忽略了这种**“时间顺序”和“前后关联”**，所以修正得不够精准。

3. 本文的绝招：HyperG（带时间感的“读心术”）

这篇论文提出了一种新方法，叫 HyperG（或者叫 TIPS，时间感知的逆倾向评分）。它给服务员装上了一个**“时间机器”和“读心术”**。

核心创意：反事实推理（Counterfactual Reasoning）

既然我们不知道“如果端了别的菜，你会不会点”，那就**“假装”**端了，然后去猜你的反应。这就是“反事实”。

HyperG 会针对你每一次真实的点餐，脑补出三种“平行宇宙”的场景：

相似场景： “如果当时端上来的是和牛排很像的‘羊排’，你会点吗？”（利用相似物品来模拟曝光）。
热门场景： “如果当时端上来的是全餐厅最火的‘招牌菜’，你会点吗？”（利用热门物品来模拟曝光）。
时间场景： “如果这道牛排是在10 分钟前端上来的，而不是现在，你会点吗？”（利用时间变化来模拟曝光）。

它是如何工作的？

双重身份（Dual Encoding）：
- 服务员手里有两张表。一张表记录**“你真正喜欢的菜”（基于你点的菜），另一张表记录“哪些菜经常被端上来”**（基于曝光）。这两张表分开记，互不干扰，避免混淆。
时间感知（Time-aware）：
- 它不仅仅看“点了什么”，还看“什么时候点的”。它知道昨天的你和今天的你可能不一样。
- 它利用上面脑补的三种场景，计算出**“这道菜在什么时间、什么情况下被端上来的概率”**。
动态修正（Reweighting）：
- 如果系统发现某道菜很少被端上来（曝光概率低），但你居然点了，HyperG 会给你这个“喜欢”打上超级加倍的分（因为这说明你是真爱）。
- 如果某道菜天天被端上来（曝光概率高），但你没点，系统会明白：“哦，他可能真的不喜欢，或者只是今天不想吃”，而不是盲目地认为他讨厌所有这类菜。

4. 效果如何？

论文在四个大型数据集（像电影、音乐、书籍等）上做了实验。

比喻： 就像给这位服务员换了一个更聪明的“大脑”。
结果： 无论是传统的推荐模型（像 RNN、Transformer），还是最新的生成式模型（像扩散模型），加上 HyperG 这个“插件”后，推荐准确率都显著提升。
特别之处： 在数据量大的场景下（比如音乐推荐，大家听歌很频繁），HyperG 的效果尤其好，因为它能更精准地捕捉到你随时间变化的口味。

总结

这篇论文的核心思想就是：不要只盯着用户“做了什么”，要试着去理解用户“没做什么”以及“为什么没做”。

通过引入时间维度和反事实脑补，HyperG 让推荐系统不再是一个只会死记硬背的“记录员”，而变成了一个能理解时间流逝和情境变化的**“贴心管家”**，从而更准确地猜出你真正想要的东西，而不是只推那些它觉得“安全”的热门货。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为时间感知逆倾向评分（Time-aware Inverse Propensity Scoring, TIPS）的新框架（文中也称为 HyperG），旨在解决序列推荐（Sequential Recommendation, SR）中因缺乏曝光数据（exposure logs）而导致的选择偏差（Selection Bias）和曝光偏差（Exposure Bias）。

以下是该论文的详细技术总结：

1. 研究背景与问题定义

核心问题：现有的序列推荐模型（包括传统序列模型和生成式模型）主要依赖显式交互数据（如点击、购买），而忽略了物品的曝光情况（即用户看到了但未点击的物品）。
两种偏差：
1. 曝光偏差 (Exposure Bias)：未曝光的物品被隐式地视为“用户不感兴趣”，导致模型无法学习用户对这些物品的真实偏好。
2. 选择偏差 (Selection Bias)：未交互的物品（即使被曝光了）也被视为“不感兴趣”，导致模型高估了热门或频繁曝光物品的权重。
现有方法的局限：传统的逆倾向评分（IPS）方法通常是静态的。它们仅基于上下文信号（如用户属性、物品特征）计算倾向分数，忽略了序列推荐中关键的时序依赖性和动态变化（例如，用户的兴趣随时间演变，物品的曝光概率随时间波动）。静态 IPS 无法捕捉这种动态因果链，导致去偏效果不佳。

2. 方法论 (Methodology)

作者提出了 HyperG 框架，作为一个即插即用的模块，可集成到任何序列推荐模型中。其核心思想是利用**反事实推理（Counterfactual Reasoning）**构建时间感知的倾向分数。

2.1 双重编码策略 (Dual Encoding Strategy)

为了区分“交互分布”和“曝光分布”，模型维护两个独立的嵌入表：

交互嵌入 ( $H^{(C)}$ )：学习用户显式反馈（点击等）中的物品语义和协同信息。
曝光嵌入 ( $H^{(E)}$ )：学习物品被曝光的分布特征（如流行度、促销活动），与用户是否点击无关。
时间嵌入：将时间间隔归一化并映射到嵌入空间，以捕捉用户兴趣随时间的演变。

2.2 反事实样本构建 (Counterfactual Samples Construction)

由于缺乏真实的曝光日志，模型通过构建三种反事实的“物品 - 时间”对来估计曝光分布：

相似物品 (Similar Items)：假设在相同时间 $t_i$ 向用户展示了与真实物品 $v_i$ 相似的物品（基于曝光嵌入 $H^{(E)}$ 计算相似度）。
热门物品 (Popular Items)：假设在相同时间 $t_i$ 向用户展示了当前热门物品，以模拟流行趋势下的曝光。
同物异时 (Same Item, Different Time)：假设在略微不同的时间 $t^*_i$ 向用户展示了同一个物品 $v_i$ ，以模拟短期重排机制下的曝光变化。

这些反事实样本被用作正样本来训练曝光估计模型（学习什么情况下物品会被曝光），同时作为负样本来增强用户偏好推断。

2.3 曝光影响交互与偏好 (Exposure Influence Interaction & Preference)

曝光估计模型 ( $f_\phi$ )：利用交叉注意力机制（Cross-Attention），将候选物品的反事实曝光嵌入作为 Query，用户历史交互序列作为 Key/Value，预测物品在特定时间的曝光倾向分数 $\pi_t$ 。
推荐模型集成 ( $g_\theta$ )：
- 传统序列模型：将估计出的曝光信息融入用户偏好表示，通过自注意力机制更新用户向量。
- 生成式模型：在扩散模型（Diffusion Model）中，将曝光感知的序列嵌入作为条件，生成理想的物品嵌入。

2.4 时间感知逆倾向评分 (TIPS)

在训练目标中，引入时间感知的权重 $w_{v,t}$ 对交互样本进行重加权：
$w_{v,t} = \frac{\exp(-\mu(t_i - t_{i-1}))}{\max(s_{v,t}, \epsilon)}$
其中， $s_{v,t}$ 是时间感知的曝光倾向分数。该权重不仅考虑了曝光概率的倒数（传统 IPS），还引入了时间衰减因子，强调近期交互，并针对低频曝光物品进行更强的修正。

3. 主要贡献 (Key Contributions)

无曝光日志下的分布估计：提出了一种新颖的方法，通过构建时间感知的反事实示例，在没有曝光日志的情况下估计物品曝光分布。
动态去偏机制：克服了传统静态 IPS 的局限性，通过时间感知倾向评分，更准确地建模了序列推荐中的时序依赖和动态因果效应，有效缓解了曝光偏差和选择偏差。
通用性与有效性：设计了一个模型无关（Model-agnostic）的即插即用框架，在多种骨干网络（传统 Attention 模型、GRU、生成式扩散模型、VAE）上均验证了其有效性。

4. 实验结果 (Results)

数据集：在四个公开数据集（MovieLens-1M/10M, Music4All, GoodReads）上进行了广泛实验。
对比基线：与 7 种最先进（SOTA）的序列推荐模型（包括 SASRec, TiSASRec, DiffuRec, CVAE 等）及现有的去偏方法进行了对比。
性能提升：
- HyperG 在所有数据集和骨干模型上均取得了显著提升。
- 在 Music4All 和 ML-10M 等大型数据集上提升尤为明显（例如 HR@10 提升高达 8.87%，NDCG@10 提升 8.72%）。
- 对于生成式模型（如 DiffuRec），HyperG 同样带来了约 4-6% 的性能提升。
消融实验：
- 移除时间信息（HyperG¬time）或移除 IPS 机制（HyperG¬IPS）均导致性能下降，证明了时序建模和反事实去偏的必要性。
- 移除曝光估计模块（HyperG¬EP&time）导致性能大幅下降，表明显式的曝光分布估计至关重要。
超参数分析：证明了时间衰减系数 $\mu$ 和曝光损失权重 $\gamma$ 对模型性能有显著影响，适度强调近期交互和曝光信息效果最佳。

5. 意义与价值 (Significance)

理论价值：将因果推断中的反事实推理与序列推荐的时序动态性相结合，为理解“未曝光”与“不感兴趣”的区别提供了新的理论视角。
实际应用：在实际推荐系统中，曝光日志往往难以获取或不完整。HyperG 提供了一种无需额外曝光数据即可有效去偏的解决方案，能够显著提升推荐系统的公平性和准确性，特别是对于长尾物品和动态变化的用户兴趣。
通用性：作为一个即插即用模块，它使得现有的推荐系统能够低成本地升级，具备更强的抗偏差能力。

总结：这篇论文通过引入时间感知的反事实推理，成功解决了序列推荐中静态 IPS 无法捕捉动态偏差的痛点，为在缺乏曝光数据的情况下构建更公平、更准确的推荐系统提供了强有力的工具。

Debiasing Sequential Recommendation with Time-aware Inverse Propensity Scoring

1. 现在的痛点：服务员的“偏见”

2. 传统的解法：倒推法（IPS）的局限

3. 本文的绝招：HyperG（带时间感的“读心术”）

核心创意：反事实推理（Counterfactual Reasoning）

它是如何工作的？

4. 效果如何？

总结

1. 研究背景与问题定义

2. 方法论 (Methodology)

2.1 双重编码策略 (Dual Encoding Strategy)

2.2 反事实样本构建 (Counterfactual Samples Construction)

2.3 曝光影响交互与偏好 (Exposure Influence Interaction & Preference)

2.4 时间感知逆倾向评分 (TIPS)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与价值 (Significance)

类似论文

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs

Talking like Piping and Instrumentation Diagrams (P&IDs)

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

IntrinsicWeather: Controllable Weather Editing in Intrinsic Space

Expert Evaluation of LLM World Models: A High-TcT_cTc​ Superconductivity Case Study

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study