Measuring Perceptions of Fairness in AI Systems: The Effects of Infra-marginality

该研究通过用户实验表明,人们对 AI 公平性的判断不仅取决于结果,更深受对数据分布差异(即“次边际性”)成因信念的影响,因此算法公平性指标的设计必须考虑分布背景才能与人类期望保持一致。

Schrasing Tong, Minseok Jung, Ilaria Liccardi, Lalana Kagal

发布于 Mon, 09 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣且重要的问题:当人工智能(AI)做决定时,人们到底觉得什么是“公平”?

特别是,当不同人群(比如不同种族)的数据本身就不一样时,我们该如何判断 AI 是否公平?

为了让你轻松理解,我们可以把这篇论文的研究想象成一场关于“考试评分”的模拟实验

1. 核心背景:什么是“次边际性”(Infra-marginality)?

首先,论文里有一个很学术的词叫“次边际性”。别被吓到,我们可以把它想象成**“试卷难度的差异”**。

  • 场景:假设学校要招学生,用 AI 来预测谁能考上。
  • 问题:如果 A 组学生平时都在做“奥数题”(数据分布复杂,难度大),而 B 组学生做的是“基础题”(数据分布简单,容易)。
  • 后果:即使 AI 对两组学生都尽力了,A 组的平均分可能还是比 B 组低。
  • 传统观点:以前的公平标准(比如“统计 parity")会说:“不行!A 组和 B 组的平均分必须一样,否则就是不公平!”
  • 论文观点:作者认为,如果 A 组本来题目就难,强行让两组分数一样,反而可能是不公平的(比如为了拉高 A 组分数,把 B 组本来能录取的好学生刷掉了)。

2. 实验是怎么做的?(一场“模拟医院”游戏)

研究人员找了 85 个人,让他们扮演“医院管理者”,面对一个AI 癌症预测系统。这个系统要帮“种族 A"和“种族 B"的人预测是否患癌。

研究人员给参与者看了两种不同的“情报”:

  1. 单独训练的表现:如果只给种族 A 的数据训练,准确率是 90%;只给种族 B 训练,准确率是 70%。(这暗示了种族 B 的病情可能更复杂,或者数据更难处理)。
  2. 数据量的多少:种族 A 的数据是种族 B 的 3 倍,还是 20 倍?

然后,参与者要在三个方案中选出他们认为最公平的一个:

  • 方案 A(强行拉平):不管原来怎样,让两个种族的准确率都变成最高的那个(比如都变成 90%)。
  • 方案 B(折中方案):让两个种族的准确率都变成平均值(比如都变成 80%)。
  • 方案 C(尊重差异):保持原来的样子,种族 A 是 90%,种族 B 是 70%。

3. 发现了什么?(人们的真实想法)

实验结果非常反直觉,但也很有道理:

情况一:当大家不知道难度差异时

如果参与者不知道两个种族原本的难度不同(或者原本准确率一样),大家会毫不犹豫地选择方案 A 或 B

  • 心态:“既然没理由说谁更难,那大家分数必须一样,这才叫公平!”
  • 比喻:就像两群人都在跑 100 米,如果不知道谁鞋里有石头,大家肯定要求起跑线一样。

情况二:当大家知道难度差异时

一旦参与者被告知“种族 B 的病情更复杂,或者数据更难处理”,他们的态度大变!

  • 心态:大家开始倾向于方案 C(尊重差异)。
  • 理由:“哦,原来种族 B 的‘试卷’更难啊!那他们考得低一点是合理的。如果强行让他们和种族 A 考一样的分,那才是对种族 B 的不公平(因为可能为了凑分,把真正该录取的人漏掉了)。”
  • 关键点:人们并不是盲目追求“结果一样”,他们更看重**“原因是否合理”**。如果差异是因为“任务本身很难”,人们就接受;如果差异是因为“数据太少”或“被歧视”,人们就会觉得不公平。

情况三:数据量的影响

  • 如果种族 B 考得差,而且是因为数据太少(比如只收集了很少的病例),大家会觉得这不公平,希望 AI 能修正。
  • 如果种族 B 考得差,但数据量其实不少,只是因为病情本身复杂,大家就觉得这是可以接受的“客观事实”。

4. 这个研究告诉我们什么?(给 AI 设计师的启示)

这篇论文就像给 AI 设计师敲了一记警钟:

  1. 不要死板地追求“数字平等”
    现在的很多 AI 公平标准,只是机械地要求“不同群体的错误率必须一样”。但这在现实中行不通。就像你不能要求“在泥地里跑步的人”和“在跑道上跑步的人”必须跑出同样的速度,否则就是瞎指挥。

  2. 人们看重“故事”和“背景”
    普通人判断公平时,不仅看结果(谁赢了),还看过程(为什么会有这个结果)。如果 AI 能解释清楚:“因为 A 组的情况更复杂,所以准确率稍低是合理的”,人们反而会觉得这个系统更公平、更可信。

  3. 强行拉平可能适得其反
    如果为了追求表面的“公平”,强行把不同难度的群体拉平,可能会导致真正的坏人被放走,或者好人被误杀。这种“为了公平而公平”的做法,反而可能伤害到那些最需要保护的人。

总结

这篇论文的核心思想是:真正的公平,不是让所有人都得到一模一样的结果,而是让结果符合大家心中对“合理性”的认知。

就像老师给学生打分,如果知道有的学生家里没灯(数据少),有的学生天生视力不好(任务难),老师如果还强行给所有人打一样的分,那才是真的不公平。AI 系统也需要学会理解这种“背景故事”,才能赢得人们的信任。