No evaluation without fair representation : Impact of label and selection bias on the evaluation, performance and mitigation of classification models

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常关键的问题：当我们训练人工智能（AI）时，如果数据本身有“偏见”，我们该如何正确地评价这个 AI？以及我们该如何修正这些偏见？

为了让你更容易理解，我们可以把整个过程想象成**“烹饪一道完美的菜肴”**。

1. 核心比喻：被污染的食材与错误的试吃

想象你是一位大厨（AI 模型），你的任务是做一道菜（预测模型）。

公平的世界（Fair World）：是你心中完美的食谱，食材新鲜、比例恰当，味道应该是最棒的。
有偏见的数据（Biased Data）：是你实际买到的食材。
- 标签偏见（Label Bias）：就像有人偷偷在菜里加了过量的盐，或者把“好吃”的标签贴在了“难吃”的菜上。你尝到的味道（训练数据）和真实味道（公平世界）不一样。
- 选择偏见（Selection Bias）：就像你只从市场的某个角落买菜。比如，你只买了“男性厨师”做的菜，完全没买“女性厨师”的菜；或者你只买了那些看起来“很努力”的人做的菜，而忽略了那些因为太累没来摆摊的人。

论文指出的最大问题：
以前，大厨们（研究人员）通常是这样评价自己的：

“我尝了一口我做的菜（用有偏见的数据测试），觉得味道还行，甚至觉得我修正了咸淡（去除了偏见）。所以我的菜是完美的。”

但这其实是自欺欺人！ 因为你的“试吃”环节用的也是那些被污染的食材。你根本不知道这道菜在“公平世界”里到底好不好吃。

2. 作者做了什么？（建立“双料厨房”）

为了解决这个问题，作者设计了一个**“双料厨房框架”**：

准备“公平基准”：他们先找到一些原本就很公平、很干净的数据集（比如学生成绩数据），假设这就是“完美食谱”。
人为制造“污染”：他们故意在这些干净数据里“下毒”（注入偏见）。
- 故意把某些学生的分数改低（标签偏见）。
- 故意把某些学生的记录删掉（选择偏见）。
训练与测试分离：
- 训练：让 AI 在这些**“有毒”**的数据里学习。
- 测试：让 AI 在**“干净”**的原始数据上考试。

这就好比： 让厨师在满是灰尘的厨房里练习切菜，但最后端给美食评论家（测试集）品尝时，必须是用新鲜食材做出来的菜。只有这样才能知道厨师到底有没有真本事，还是只是适应了脏环境。

3. 主要发现：打破“不可能三角”

以前大家普遍认为，想要 AI 既准确（猜得对）又公平（不歧视），就像走钢丝一样，必须牺牲其中一个（这叫“公平 - 准确性的权衡”）。

但这篇论文用实验证明：在“公平世界”的视角下，这个权衡根本不存在！

真相：如果你用干净的数据去测试，你会发现，那些真正消除了偏见的模型，既变得更公平了，同时也变得更准确了。
比喻：以前大家以为“把菜里的盐去掉，菜就不好吃了”。但作者发现，如果你把菜里的“坏盐”（偏见）去掉，换成“好盐”（真实规律），菜反而更香、更对味了。所谓的“权衡”，只是因为我们一直在用“坏盐”做测试，才误以为必须二选一。

4. 不同的“毒药”需要不同的“解药”

论文还发现，不同的偏见类型，需要不同的“解药”（去偏见算法）：

标签偏见（改错了标签）：有些方法（比如“按摩法/Massaging"，即修改标签）很有效。
选择偏见（少选了某些人）：有些方法（比如“重新加权/Reweighing"，给少选的人增加权重）很有效。
但是！ 如果你用错了药，情况会更糟。
- 比如，用专门治“标签错误”的药去治“样本缺失”，不仅治不好，反而可能让偏见加倍，甚至产生“反向歧视”（原本受优待的群体反而被欺负了）。

比喻：就像感冒了吃感冒药，如果是食物中毒却吃感冒药，不仅好不了，还可能加重病情。作者强调，必须先看清楚数据里到底中了什么“毒”，才能选对“解药”。

5. 总结与启示

这篇论文给所有搞 AI 的人提了个醒：

别自嗨：如果你用有偏见的数据去测试有偏见的模型，得出的结论（比如“公平和准确不可兼得”）很可能是错的。
找对试金石：要评价一个 AI 公不公平，必须把它放在一个没有偏见的“公平世界”里去测试。
对症下药：没有一种万能的方法能解决所有偏见。必须先分析数据里偏见的来源（是标签错了？还是样本少了？），再选择对应的修正方法。

一句话总结：
“没有公平的试吃，就没有真正的美味。” 只有当我们用纯净的标尺去衡量 AI，才能发现那些真正既聪明又公平的模型，而不是被偏见蒙蔽了双眼。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

机器学习模型在现实世界中的应用日益广泛，但其预测结果往往存在歧视性，导致对弱势群体（unprivileged groups）的不公平对待。现有的算法公平性研究主要关注如何检测和缓解这种偏差，但在评估模型和缓解方法时存在两个核心缺陷：

评估基准的偏差（Biased Evaluation）： 大多数研究直接使用带有偏差的数据集作为训练集和测试集。由于测试集本身反映了历史偏见（即“有偏的真实标签”），在这种环境下评估模型会导致误导性的结论。这人为地制造了所谓的“公平性 - 准确性权衡”（Fairness-Accuracy Trade-off），即认为提高公平性必然降低准确性。
偏差来源不明（Unclear Bias Sources）： 现有研究常使用公开数据集（如 Adult, COMPAS），但这些数据集的偏差来源和程度不明确。不同的偏差类型（如标签偏差、选择偏差）对模型的影响不同，且现有的缓解方法对不同类型的偏差效果各异。如果不清楚偏差的具体类型，很难选择正确的缓解策略。

核心问题： 如何在存在已知偏差的训练数据上训练模型，并在一个“公平世界”（无偏）的基准上进行评估，从而准确衡量偏差对模型性能的影响以及缓解方法的有效性？

2. 方法论 (Methodology)

作者提出并实现了一个偏差注入与评估框架（Biasing and Evaluation Framework），基于“公平世界框架”（Fair World Framework）。

2.1 核心假设与框架

公平世界假设： 假设存在一个理想的“公平世界”，其中满足所有公平标准。现有的真实数据集被视为这个公平世界经过某种偏差过程扭曲后的观测数据。
双标签数据集： 研究从被认为具有高度公平性的真实数据集出发（作为“公平基准”），通过受控的方式人为注入偏差，生成带有“已知偏差”的数据集。
- 训练集： 使用注入偏差后的数据（有偏标签或有偏样本分布）。
- 测试集： 使用原始的、无偏的数据（代表公平世界的真实标签）。
评估目标： 比较模型在有偏测试集（传统方法）和无偏测试集（本文方法）上的表现差异。

2.2 偏差建模 (Bias Modeling)

研究模拟了两种主要偏差及其子类型：

标签偏差 (Label Bias)： 训练数据中的标签与公平世界的真实标签不一致。
- 建模方式： 对弱势群体施加惩罚，通过噪声和偏移量降低其分数，导致标签被错误地标记为负类。
选择偏差 (Selection Bias)： 训练数据中的样本分布不能代表公平世界的分布。
- 随机选择 (Random Selection)： 随机移除弱势群体的部分样本。
- 自我选择 (Self-Selection)： 弱势群体中分数较低者被移除的概率更高（模拟如女性在男性主导领域申请率低）。
- 恶意选择 (Malicious Selection)： 恶意移除弱势群体的正样本和特权群体的负样本，人为制造群体间差异。

2.3 实验设置

数据集： 使用 Student Performance (Student) 和 Open University Learning Analytics Dataset (OULAD) 作为基准，这些数据集在统计上表现出较低的歧视性。
模型： 随机森林 (RF)、决策树、多层感知机 (MLP)。
缓解方法： 测试了 8 种预处理和后处理方法，包括重加权 (Reweighing)、按摩法 (Massaging)、FTU (忽略敏感属性)、EOP (均衡机会后处理)、CEO、ROC (拒绝选项分类器) 等。
评估指标： 准确性 (Accuracy)、统计parity差异 (SPD)、均衡机会差异 (EqOd)、平衡条件一致性 (BCC)、广义熵指数 (GEI)。

3. 主要贡献 (Key Contributions)

提出新的评估框架： 建立了一个能够模拟“公平世界”与“有偏世界”对比的框架，允许在已知偏差类型和强度的情况下训练模型，并在无偏测试集上进行评估。
揭示评估偏差的误导性： 实证证明了在有偏测试集上评估模型会导致指标扭曲。例如，在有偏数据上表现良好的模型，在无偏数据上可能表现极差，反之亦然。
重新审视“公平 - 准确性权衡”： 在基于无偏测试集的评估下，不存在公平性与准确性之间的权衡。许多缓解方法可以同时提高准确性和公平性。
偏差类型与缓解方法的匹配性： 发现缓解方法的有效性高度依赖于偏差的类型。没有一种通用的方法能解决所有偏差问题；错误的方法甚至可能加剧偏差。
选择偏差的影响被低估： 研究表明，在特征具有足够预测力且数据量充足的情况下，选择偏差（如随机采样）对模型性能的影响往往比标签偏差小得多，甚至在某些条件下（如完全移除弱势群体）模型仍能保持公平。

4. 关键结果 (Key Results)

4.1 评估指标的扭曲

标签偏差： 严重扭曲依赖真实标签的指标（如 Accuracy, GEI, EqOd），但不影响仅基于预测结果的指标（如 SPD, BCC）。
选择偏差： 扭曲所有指标。例如，在自我选择偏差下，SPD 会高估公平性；在恶意选择下，SPD 会低估公平性。
结论： 仅凭有偏测试集上的指标无法推断模型在公平世界中的真实性能。

4.2 偏差对模型性能的影响

标签偏差： 对模型准确性、群体公平性和个体公平性都有极大的破坏性影响，因为它直接破坏了特征与正确标签之间的关系。
选择偏差：
- 随机选择： 在特征具有预测力且数据量足够时，影响微乎其微。
- 自我选择/恶意选择： 影响取决于数据集的复杂度和群体比例。如果特征预测力强，模型能学习到正确模式，偏差影响较小；如果特征预测力弱，模型会过度依赖敏感属性，导致公平性下降。
- 有趣发现： 在特定条件下（如特征预测力强），完全移除弱势群体（ $p_u=1$ ）有时反而能产生比包含有偏数据更公平、更准确的模型，因为模型被迫从特权群体泛化，避免了学习有偏的群体分布。

4.3 缓解方法的有效性

重加权 (Reweighing)： 对选择偏差（特别是随机和恶意选择）效果显著，能恢复分布；对标签偏差也有一定效果。
按摩法 (Massaging) 和 ROC-SPD： 对标签偏差有效，但对选择偏差（特别是自我选择）效果极差，甚至引入“反向歧视”，因为它们试图在有偏分布上优化统计parity，从而引入了新的标签偏差。
FTU (忽略敏感属性)： 在标签与敏感属性原本独立的情况下表现优异，但在存在强相关性时效果下降。
EOP/CEO (基于均衡机会)： 对标签偏差和选择偏差都敏感，往往无法完全恢复公平分布，且常以牺牲准确性为代价。
总体规律： 缓解方法的设计假设必须与数据中的偏差类型相匹配。例如，旨在纠正恶意选择偏差的方法（如 ROC）在面对自我选择偏差时可能会加剧不公。

4.4 公平性与准确性的关系

在无偏测试集上，不存在公平性与准确性的权衡。许多方法（如 Reweighing, FTU, ROC-SPD 在特定条件下）可以同时提升两者。
不存在群体公平性与个体公平性之间的权衡，也不存在统计 parity 与均衡机会之间的权衡。

5. 意义与启示 (Significance)

范式转变： 呼吁算法公平性研究从“在有偏数据上优化有偏指标”转向“在有偏数据上训练，在无偏数据上评估”。这要求构建包含“公平标签”和“有偏标签”的双标签数据集。
打破权衡迷思： 证明了“公平 - 准确性权衡”在很大程度上是评估方法不当（使用有偏测试集）造成的假象。在正确的评估框架下，公平和准确是可以兼得的。
指导实践： 强调了在应用缓解方法前，必须诊断数据中的偏差类型。盲目应用缓解方法（如在存在选择偏差的数据上使用基于标签重排的方法）可能导致更严重的后果。
未来方向： 需要开发更鲁棒的缓解方法，研究更复杂的偏差组合场景，并探索如何从现有数据中推断或构建公平基准。

总结： 该论文通过受控实验证明，“没有公平的代表性，就没有有效的评估”。现有的评估实践往往掩盖了模型的真实能力，并错误地引入了公平与性能的冲突。通过引入受控偏差和公平基准评估，研究者可以更准确地理解偏差机制，选择更合适的干预手段，从而构建真正公平且高效的机器学习模型。