Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 Rel-MOSS 的新方法，旨在解决关系型数据库（RDB）中深度学习面临的一个棘手问题：“少数派被淹没”。

为了让你轻松理解，我们可以把整个场景想象成一个巨大的、错综复杂的社交网络，而我们要做的任务是找出其中的“捣乱者”（比如欺诈用户、虚假账号或即将流失的客户）。

1. 背景：为什么现有的方法会失败？

想象一下，你是一家大公司的安全主管，手里有一本厚厚的员工通讯录（这就是关系型数据库）。这本通讯录里不仅有员工的名字，还记录了谁和谁一起吃过饭、谁和谁一起出过差、谁给谁发过邮件（这就是关系）。

现状：绝大多数员工都是好人（多数类），只有极少数是捣乱者（少数类，比如欺诈者）。
传统 AI 的做法：以前的 AI 就像是一个**“随大流”的八卦记者**。它去打听一个人的背景时，会听取周围所有人的意见。
- 因为好人太多，坏人在周围的声音太微弱，AI 听到的全是好人的声音。
- 结果：AI 觉得“大家都说他是好人，那他就是好人”，于是把所有捣乱者都误判为好人。这就叫**“少数类信息崩溃”**。
之前的补救措施：以前的方法（比如简单的复制粘贴少数样本）就像是在社交网络里生硬地伪造几个好人，或者强行让 AI 多听几次坏人的话。但在复杂的社交网络里，这种生硬的方法往往会破坏人与人之间的真实关系，导致 AI 更加糊涂。

2. Rel-MOSS 的解决方案：两个聪明的“特工”

为了解决这个问题，作者设计了一个名为 Rel-MOSS 的系统，它由两个核心“特工”组成，专门负责在复杂的社交网络中精准识别捣乱者。

特工一：Rel-Gate（关系门控控制器）——“戴着耳机的倾听者”

它的作用：以前 AI 听周围人的意见是“一视同仁”的。Rel-Gate 给 AI 戴上了一副智能耳机。
工作原理：
- 当 AI 去打听一个可疑人员（少数类）时，Rel-Gate 会先快速扫描周围的关系。
- 如果周围全是“好人”在说话，Rel-Gate 会调低音量，防止好人的声音盖过一切。
- 如果周围有“同类”（其他捣乱者）在说话，Rel-Gate 会调高音量，让这些微弱但关键的声音被 AI 清晰听到。
比喻：就像在嘈杂的酒吧里，你只想听朋友说话。Rel-Gate 就像是一个降噪耳机，自动过滤掉周围嘈杂的“多数派”噪音，只放大你朋友（少数派）的声音。

特工二：Rel-Syn（关系引导合成器）——“高明的造假大师”

它的作用：既然坏人太少，我们就需要制造一些“假坏人” 来训练 AI，让 AI 多见识几种坏人的样子。但之前的造假方法太假了，容易穿帮。
工作原理：
- Rel-Syn 在制造假坏人时，不是随便捏造，而是严格模仿真坏人的“社交指纹”。
- 它会分析真坏人的社交圈结构：他们通常和什么样的人有联系？他们处于网络的什么位置？
- 然后，它根据这些结构特征，合成出既像坏人、又符合社交网络逻辑的“完美假样本”。
比喻：以前的造假是随便画个假人。Rel-Syn 则是高明的变装大师。它不仅给假人穿上坏人的衣服，还让假人拥有和真坏人一样的“朋友圈”和“行为习惯”，让 AI 觉得：“哇，这个新来的家伙和之前的捣乱者是一伙的！”

3. 核心创新点总结

首次关注：这是第一次专门针对关系型数据库中的“少数派被淹没”问题提出解决方案。
动态调节：通过“关系门控”，让 AI 学会有选择地倾听，不再被多数派的声音带偏。
结构一致：通过“关系引导合成”，确保生成的假样本不仅长得像，连“社交关系”也像，保持了数据的真实性。

4. 效果如何？

作者在 12 个真实世界的数据库（涉及电商、社交网络、医疗等）上进行了测试。

结果：Rel-MOSS 就像给 AI 装上了“火眼金睛”。
数据：相比以前的最佳方法，它在识别准确率上平均提升了 2.46%，在综合平衡指标上提升了 4.00%。
意义：这意味着在现实应用中，它能更准确地抓出欺诈账号、预测客户流失或发现医疗试验中的异常，从而减少经济损失，提高平台的安全性。

一句话总结

Rel-MOSS 就像是一个在嘈杂人群中专门寻找“捣乱者”的超级侦探。它学会了在听取意见时“过滤噪音”（Rel-Gate），并且能制造出“以假乱真”的陪练来训练自己（Rel-Syn），从而在复杂的关系网中精准地揪出那些稀少的坏人。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

背景：
关系型数据库（RDB）是电子商务、社交媒体和医疗等领域最广泛使用的数据管理系统。为了利用 RDB 中实体间关系的预测信号，关系深度学习（Relational Deep Learning, RDL） 被提出，它将 RDB 建模为异构实体图，并利用图神经网络（GNN）进行端到端的学习。

核心问题：
现有的 RDL 方法大多忽略了 RDB 中普遍存在的**类别不平衡（Class Imbalance）**问题。

现象： 在真实场景中（如欺诈检测、客户流失预测），少数类（如欺诈账户、流失用户）样本极少，而多数类样本占主导。
后果： 传统的 GNN 消息传递机制假设所有邻居信息同等重要。由于多数类样本数量巨大且连接强，其信息会淹没少数类信息，导致少数类判别信号在多层传播中指数级衰减（Minority Information Collapse）。最终，模型无法区分少数类和多数类，导致在实际应用中完全失效（例如将所有样本预测为多数类）。
现有方法的局限： 现有的处理图数据不平衡的方法（如 GraphSMOTE）主要针对同构图，直接应用于 RDB 的异构实体图时，会破坏复杂的关系一致性（Relational Consistency），生成不真实的样本。

2. 方法论 (Methodology)

作者提出了 Rel-MOSS（Relation-centric Minority Synthetic Over-sampling GNN），这是一个以关系为中心的少数类合成过采样 GNN 框架。其核心包含两个模块：

2.1 关系门控控制器 (Rel-Gate)

目标： 解决消息传递中少数类信息被淹没的问题。

机制： 针对每种关系类型 $r$ ，Rel-Gate 估计当前邻居信息倾向于少数类的可能性（Likelihood）。
实现： 使用一个可学习的门控因子 $\Psi_{e,r}$ $Ψ_{e, r}$ （基于 Sigmoid 函数和注意力机制）来调制来自不同关系类型的邻居消息。
- 如果某类关系的信息倾向于少数类，则增强该消息。
- 如果倾向于多数类，则抑制该消息。
效果： 使得少数类和多数类实体的表示在特征空间中更加可区分，防止少数类信号在聚合过程中消失。

2.2 关系引导的少数类合成器 (Rel-Syn)

目标： 在保持关系结构一致性的前提下，生成高质量的少数类合成样本。

挑战： 传统的 SMOTE 仅在特征空间插值，忽略了 RDB 中实体标签主要由其结构角色决定的事实。无约束的插值会导致生成的样本在结构上不符合真实少数类的分布（即破坏了关系一致性）。
机制：
1. 关系签名（Relational Signature, $S_e$ ）： 提取实体的结构统计特征（如 1-hop/2-hop 邻居的类型直方图、关系的入度/出度分布），作为实体的“结构指纹”。
2. 距离度量： 在寻找最近邻少数类样本 $e^*$ 时，不仅考虑特征距离，还加权考虑关系签名距离： $D(e, e') = \|X_e - X_{e'}\|^2 + \omega \cdot \|S_e - S_{e'}\|^2$ 。
3. 合成过程： 对特征 $X$ 和签名 $S$ 同时进行线性插值，生成合成样本 $(X_{syn}, S_{syn})$ 。
优化目标： 除了标准的分类损失（BCE），还引入了关系签名重建损失（MSE），强制模型在生成过程中保持结构一致性。

3. 主要贡献 (Key Contributions)

首次探索： 首次系统地研究了 RDB 实体分类任务中的类别不平衡问题，指出了现有 RDL 方法在此场景下的失效原因。
提出 Rel-MOSS 框架： 设计了包含 Rel-Gate 和 Rel-Syn 的完整解决方案，强依赖于异构实体图的关系结构。
- Rel-Gate： 自适应地调节每种关系的信息流，显著增强了少数类表示的可区分性。
- Rel-Syn： 引入关系签名指导过采样，解决了异构图中合成样本结构不一致的难题。
实验验证： 在 12 个来自 RelBench 基准的实体分类数据集上进行了广泛实验。结果表明，Rel-MOSS 在平衡准确率（Balanced Accuracy）和 G-Mean 指标上均优于现有的 SOTA RDL 方法和经典的不平衡处理方法。

4. 实验结果 (Results)

数据集： 12 个 RDB 实体分类数据集（涵盖 F1 赛车、Avito 广告、Stack Overflow、亚马逊、临床试验等），不平衡比率从 1.04 到 24.83 不等。
性能提升：
- 与现有的 SOTA RDL 方法（如 RDL, RDL-HGT, RelGNN）相比，Rel-MOSS 在 Balanced Accuracy 上平均提升了 2.46%，在 G-Mean 上平均提升了 4.00%。
- 在极度不平衡的数据集（如 f1-driver-top3）上，传统 RDL 模型的 G-Mean 接近 0（完全无法识别少数类），而 Rel-MOSS 将其提升至 0.8014。
- 即使在类别相对平衡的数据集上，Rel-MOSS 也能保持或提升性能，证明了其生成样本的“忠实性”（Faithfulness），不会破坏正常数据的分布。
消融实验：
- 移除 Rel-Gate 会导致性能轻微下降，证明其缓解了信息坍缩。
- 移除 Rel-Syn 会导致性能大幅下降（甚至在某些数据集上失效），证明关系引导的合成是解决该问题的核心。
可视化分析： t-SNE 可视化显示，Rel-MOSS 生成的少数类样本紧密贴合真实少数类的流形分布，而传统方法（SMOTE, GraphSMOTE）生成的样本则偏离真实分布。

5. 意义与影响 (Significance)

理论价值： 揭示了在异构关系图中，简单的消息传递和特征插值无法解决不平衡问题，必须显式地建模“关系结构”和“关系一致性”。
实际应用： 对于欺诈检测、罕见病预测、客户流失预警等关键应用场景，Rel-MOSS 能够显著提高对稀有但关键事件的检测能力，减少因模型偏见导致的经济损失或社会风险。
通用性： 该方法不仅适用于特定的 RDL 骨干网络（如 GraphSAGE），在 HGT 和 RelGNN 等架构上也表现出即插即用的鲁棒性，且计算开销增加极小（线性/对数级），适合大规模数据库部署。

总结： Rel-MOSS 通过“关系门控”增强信号区分度，并通过“关系签名引导”确保合成样本的结构真实性，成功填补了关系数据库深度学习在类别不平衡处理领域的空白。