Fairness Begins with State: Purifying Latent Preferences for Hierarchical Reinforcement Learning in Interactive Recommendation

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲了一个关于“如何让推荐系统既聪明又公平”的故事。为了让你更容易理解，我们可以把整个推荐系统想象成一家超级繁忙的“网红餐厅”，而论文提出的方法就是这家餐厅的新管理方案。

1. 现状：为什么现在的推荐系统“偏心”？

想象一下，你走进这家网红餐厅。

现状：服务员（推荐算法）总是给你推荐那些最火、排队最长的菜品（热门商品）。
原因：服务员觉得“大家都点这个，肯定好吃”。
问题：其实，很多客人点这些菜只是因为排队的人多（曝光偏见），而不是因为真的喜欢。而那些藏在菜单角落、味道极佳的“小众神菜”（长尾商品），因为没人点，服务员就永远不推荐，最后只能被遗忘。
恶性循环：热门菜越推越火，冷门菜越推越冷。这就是论文里说的“富者愈富”（Rich-get-richer）。

2. 核心发现：服务员“看错了”顾客

以前的做法是：告诉服务员“你要公平一点，多推点冷门菜”。但这往往没用，因为服务员根本不知道顾客真正喜欢什么。

噪音干扰：顾客点菜时，受到了很多“噪音”干扰。比如，因为隔壁桌点了，他也跟着点（从众心理）；或者因为这道菜摆在最显眼的地方，他顺手就点了（曝光偏见）。
错误的判断：服务员把这些“跟风点菜”当成了“真实喜好”。
论文的观点：公平问题的根源，不是服务员“不想公平”，而是他看到的顾客画像（状态）是脏的、被污染的。如果看不清顾客真正的口味，怎么公平推荐？

3. 解决方案：DSRM-HRL（去噪 + 分层管理）

这篇论文提出了一套名为 DSRM-HRL 的新方案，包含两个核心步骤，我们可以用两个生动的比喻来解释：

第一步：DSRM（去噪滤镜）—— 给顾客“卸妆”

比喻：想象顾客脸上涂了一层厚厚的“流行粉底”（热门偏见），服务员只能看到粉底下的假象。
做法：论文使用了一种叫扩散模型（Diffusion Model） 的技术，就像是一个高明的“卸妆师”。它通过反复的“加噪”和“去噪”过程，把那些因为跟风、因为显眼而造成的虚假点菜记录洗掉。
结果：还原出顾客最真实、最本质的口味（潜在偏好）。这时候，服务员终于看清了：“哦，原来这位客人其实是个爱吃清淡小菜的，而不是只爱吃火锅的。”

第二步：HRL（分层管理）—— 设立“战略总监”和“执行经理”

有了真实的顾客画像后，怎么推荐才既公平又让人满意？以前的系统是一个“独裁者”，既要管今天卖得好，又要管长期公平，结果两头不讨好。

论文把决策权分成了两层：

高层（战略总监）：
- 任务：只看长期大局。他负责制定“公平策略”，比如：“今天必须给 30% 的冷门菜曝光机会，不能全推火锅。”
- 比喻：就像餐厅的老板，他不在乎这一单赚多少，他关心的是餐厅三年后是不是还能活下去，不能让冷门菜死掉。
低层（执行经理）：
- 任务：在老板划定的“公平圈”里，最大化今天的满意度。
- 比喻：就像前台经理，老板说“今天必须推 3 个冷门菜”，经理就在剩下的选项里，挑出顾客最可能喜欢的那 3 个冷门菜，而不是随便推 3 个难吃的。

配合效果：高层保证公平（不偏袒热门），低层保证精准（在公平范围内推最好的）。两者分工明确，不再打架。

4. 实验结果：效果如何？

研究人员在模拟的“餐厅环境”（KuaiRec 等数据集）里测试了这个新方案：

以前：要么推得准但太偏心（热门菜垄断），要么强行公平但顾客不满意（推了一堆冷门烂菜）。
现在（DSRM-HRL）：
1. 顾客更开心了：因为推的都是他们真正喜欢的（哪怕是冷门菜），所以他们在餐厅待的时间更长（互动时长增加）。
2. 冷门菜翻身了：那些被埋没的好菜得到了公平的展示机会。
3. 系统更稳了：不再像以前那样大起大落，训练过程非常平稳。

总结

这篇论文的核心思想可以概括为一句话：
“想要公平，先要把‘眼睛’擦亮。”

传统的做法是试图在“看不清”的情况下强行做公平，结果往往适得其反。而这篇论文的方法是：

先用AI 滤镜把被“流行趋势”污染的顾客数据洗干净（去噪）。
再让高层管公平，低层管精准，两人配合（分层决策）。

最终，既让顾客吃到了真正喜欢的美食，也让那些默默无闻的好菜有了出头之日，实现了真正的“双赢”。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 DSRM-HRL 的新框架，旨在解决交互式推荐系统（Interactive Recommender Systems, IRS）中准确性与公平性之间的冲突。作者认为，现有的公平性感知方法失败的根本原因在于状态估计的失效，即假设观测到的用户状态是真实偏好的忠实反映，而实际上这些状态被流行度偏差和曝光偏差严重污染。

以下是该论文的详细技术总结：

1. 研究背景与核心问题

背景：交互式推荐系统通常使用强化学习（RL）来优化长期的用户-系统动态。然而，RL 代理往往加剧“富者愈富”（rich-get-richer）现象，导致热门物品过度曝光，而长尾物品缺乏曝光机会。
核心痛点：现有的公平性方法通常试图通过奖励塑形（Reward Shaping）或约束优化在决策层面解决偏差。但作者指出，根本问题在于输入状态的失真。
- 隐式反馈（Implicit Feedback）被流行度驱动的噪声和曝光偏差污染。
- 在这种被污染的状态（Noisy State）上训练 RL 代理，会导致代理无法区分真实的用户意图和系统的流行度偏差，从而在准确性（Accuracy）和公平性（Fairness）之间产生人为的冲突。
核心假设：公平性干预不应始于奖励设计，而应始于状态净化（State Purification）。

2. 方法论：DSRM-HRL 框架

该框架包含两个主要阶段：基于扩散模型的状态净化 和 分层强化学习决策。

2.1 问题定义

作者将交互式推荐建模为马尔可夫决策过程（MDP）。

观测状态 $\tilde{s}_t$ ：被流行度偏差噪声 $\zeta_{pop}$ 污染的状态。
潜在状态 $s^*_t$ ：位于低维潜在流形上的真实用户偏好。
目标：从 $\tilde{s}_t$ 恢复出纯净的 $\hat{s}_t \approx s^*_t$ ，并在此基础上进行分层控制。

2.2 去噪状态表示模块 (DSRM)

为了解决非线性偏差重构和信号保留的挑战，作者引入了基于**扩散模型（Diffusion Models）**的 DSRM。

前向扩散过程：模拟偏好信号在极端曝光偏差下的逐渐退化，向状态嵌入中注入高斯噪声。
反向扩散过程（状态净化）：学习一个概率投影算子，通过迭代去噪过程，从高熵的观测噪声中恢复出低熵的潜在偏好流形。
作用：DSRM 能够分离出真实的用户兴趣信号，去除流行度驱动的系统性偏差，为后续决策提供高保真的状态表示。

2.3 分层强化学习 (HRL)

为了解决多目标优化中的时间冲突（长期公平性 vs. 短期参与度），采用分层架构：

高层策略 (Manager)：负责公平性调节。它输出一个控制变量 $z_t$ （如公平性约束权重），动态定义当前步的公平性约束。其目标是优化生态系统层面的长期公平轨迹。
低层策略 (Worker)：负责效用优化。在高层设定的公平性约束下，优化短期的用户参与度（点击、观看时长等）。
解耦机制：通过分层结构，将长期的公平性目标与短期的准确性目标在时间尺度上解耦，避免了梯度干扰和训练不稳定性。

2.4 联合优化策略

采用“先净化，后解耦”（Purify-then-Decouple）的训练范式：

阶段一：预训练 DSRM 模块，通过噪声重构损失最小化来学习去噪能力。
阶段二：固定 DSRM，使用 PPO（Proximal Policy Optimization）联合优化分层策略。

3. 实验设置与结果

数据集与模拟器：使用基于真实数据集（KuaiRec, KuaiRand-Pure）构建的高保真模拟器 KuaiSim。该模拟器模拟了动态用户反馈和基于公平性的会话放弃机制（即如果系统持续推荐热门物品，用户满意度下降并提前结束会话）。
基线模型：对比了通用 RL 方法（A2C, TD3, BCQ）和现有的公平性感知 RL 方法（MOFIR, DORL, DNaIR, SAC4IR）。
评估指标：交互长度（Len，反映长期满意度）、累积奖励（ $R_{cum}$ ）、单步奖励（ $R_{reach}$ ）、绝对差异（AD，衡量曝光公平性）。

主要实验结果：

整体性能 (RQ1)：DSRM-HRL 在 KuaiRec 和 KuaiRand 数据集上均取得了最佳性能。
- 在 KuaiRec (Max Len=30) 上，交互长度（Len）比最强的公平性基线 SAC4IR 提高了 21.1%，比最佳通用 RL 基线 BCQ 提高了 27.9%。
- 同时保持了极低的 AD 值（公平性高）和最高的单步奖励（准确性高），证明了其在帕累托前沿上的优越性。
消融实验 (RQ2)：
- 仅有 DSRM 或仅有 HRL 均不如完整模型。
- 使用传统启发式去噪方法（如 RCE, TCE）结合 HRL 会导致性能严重下降，证明了扩散模型去噪的必要性。
扩散步数敏感性 (RQ3)：存在一个最佳步数范围（10-30 步）。步数过少去噪不彻底，步数过多（如 500）会导致过度平滑，丢失个性化信号。
计算效率 (RQ4)：虽然 DSRM-HRL 引入了扩散过程，训练时间约为基线的 2 倍，但远低于启发式去噪方法，且带来的性能提升显著，具有合理的性价比。
收敛性与稳定性 (RQ5)：DSRM-HRL 的收敛曲线更平滑，方差更小，证明了状态净化和分层控制显著提高了训练稳定性。

4. 关键贡献

理论洞察：指出了公平性推荐中的根本建模缺陷——假设用户状态无偏。提出**“公平性始于状态”**（Fairness Begins with State）的观点，强调状态估计比奖励塑形更关键。
架构创新：提出了 DSRM-HRL 框架，首次将扩散模型用于推荐系统中的状态去噪（而非生成），并结合分层强化学习解决多时间尺度的目标冲突。
实证验证：通过高保真模拟实验证明，通过净化潜在偏好流形，可以打破“富者愈富”的反馈循环，在提升长尾物品曝光的同时，显著增加用户长期留存和系统总效用。

5. 意义与启示

范式转变：该工作将公平性问题的解决思路从“如何惩罚不公平的决策”转变为“如何还原真实的用户意图”。
技术融合：成功将生成式 AI（扩散模型）的表征能力与强化学习的决策能力结合，为处理复杂、非平稳的交互式环境提供了新思路。
实际应用：证明了在保持高准确性的同时实现高公平性是可行的，且不需要牺牲用户体验，为构建负责任的 AI 推荐系统提供了稳健的路径。

总结来说，这篇论文通过**“去噪状态表示 + 分层决策控制”**的双重机制，从根本上解决了交互式推荐中准确性与公平性的权衡难题，证明了净化输入信号是提升系统长期公平性和效率的关键。