The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

本文通过审计和数字民族志研究发现,广泛用于训练视觉生成模型的 LAION 美学预测器(LAP)存在显著的性别、性取向及文化偏见,其“算法凝视”强化了西方艺术史中的帝国与男性凝视,因此呼吁开发者摒弃单一的美学标准,转向更具包容性的多元评估体系。

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次对AI 艺术“评委”的“体检”和“身世调查”

想象一下,现在的 AI 绘画工具(比如 Stable Diffusion)非常火,它们能画出各种各样的图。但是,AI 自己不会画画,它需要有人教它“什么样的画是好看的”。于是,研究人员开发了一个叫 LAION-Aesthetics Predictor (简称 LAP) 的“算法评委”。

这个评委的工作是:给互联网上找来的几亿张图片打分。分数高的,被认为是“好画”,会被用来训练 AI;分数低的,就被扔进垃圾桶。

但这篇论文的作者发现,这个“评委”其实是个非常有偏见、甚至有点“势利眼”的人。

为了让你更容易理解,我们可以用三个生动的比喻来拆解这篇论文的核心发现:

1. 这个“评委”的口味:只喜欢“写实”和“西方风”

比喻:一个只去过巴黎和东京的挑剔美食家

作者把几百万张来自世界著名博物馆(比如大都会博物馆)和现代艺术网站(WikiArt)的画作,拿给这个 LAP 评委打分。

  • 结果: 评委疯狂给风景画、城市街景、人物肖像打高分。而且,这些画必须是写实风格的(看起来像照片一样真)。
  • 被嫌弃的: 那些抽象的、现代的、或者来自非洲、中东、美洲原住民的艺术,几乎全被打低分,直接被“过滤”掉了。
  • 潜台词: 这个评委的审美标准,完全就是西方主流艺术史加上日本浮世绘的口味。它把“像照片一样真实”当成了“美”的唯一标准。这就好比一个美食家,只吃牛排和寿司,觉得任何其他的菜(比如非洲炖菜或中东香料)都是“难吃”的垃圾食品。

2. 这个“评委”的性别观:把女性当“花瓶”,把男性当“路人”

比喻:一个只盯着美女看的“直男”摄影师

作者还检查了 LAP 在筛选图片时,对图片里人物的描述有什么偏好。

  • 结果: 如果图片说明里提到女性,这张图更容易得高分,被选入“好画”库。如果提到男性或者LGBTQ+ 群体,反而更容易被刷掉。
  • 潜台词: 这就像是一个传统的“男性凝视”(Male Gaze)。在西方艺术史上,女性经常被画成被观看的对象(为了取悦男性观众),而男性往往是行动者。这个 AI 评委完美复刻了这种偏见:它喜欢把女性当作“美丽的风景”来展示,而忽略了男性作为主体的存在,更别提那些非二元性别或酷儿群体了。
  • 危险信号: 作者警告说,如果 AI 只学习这种“喜欢女性身体”的审美,可能会加剧现实中对女性的伤害(比如生成更多色情图像或深伪视频)。

3. 这个“评委”的身世:一个“独断专行”的创始人

比喻:一个凭个人喜好定规矩的“小老板”

为了搞清楚为什么这个评委这么“偏科”,作者像侦探一样去调查了 LAP 是怎么造出来的(这叫“追溯民族志”)。

  • 发现: 这个评委不是由一个庞大的、多元化的委员会制定的,而是由 LAION 的创始人克里斯托夫·舒曼(Christoph Schuhmann)一个人拍脑袋决定的。
  • 数据来源: 他用来训练评委的数据,主要来自:
    1. 一个 2012 年的英语摄影比赛网站(参与者主要是西方摄影师)。
    2. 一群西方 AI 爱好者在 Discord 上生成的图片。
  • 结论: 这个评委的“大脑”,其实就是舒曼个人加上一群西方科技极客的审美。他们把“西方白人的审美”当成了全人类的“通用审美”。这就好比一个开餐厅的老板,只根据自己的口味做菜,然后告诉全世界:“这就是全世界最好吃的菜,其他口味都是错的。”

这篇论文想告诉我们什么?

  1. 没有绝对的“美”: 美是非常主观的,受文化、性别、历史影响很大。试图用一个数字(比如 1 到 10 分)来衡量所有艺术,本身就是荒谬的。
  2. 偏见会放大: 如果 AI 训练数据里的“好画”都是西方写实风格,那么 AI 生成的画也会全是这种风格,其他文化的艺术就会在 AI 时代“失声”。
  3. 我们需要“多元”的评委: 作者呼吁,未来的 AI 开发者不应该追求一个“万能”的审美标准,而应该承认审美的多样性。比如,我们可以告诉 AI:“我想看写实风格的画”或者“我想看非洲风格的画”,而不是让 AI 强行认为只有一种风格是“高质量”的。

总结来说:
这篇论文就像是在给 AI 界的“审美霸权”敲警钟。它告诉我们,现在的 AI 绘画工具,其实是在用一个西方白人男性的眼光来审视世界。如果不改变这种“算法凝视”,未来的 AI 艺术可能会变得非常单调,甚至充满歧视。我们需要打破这种单一的审美标准,让 AI 学会欣赏更多元、更真实的人类文化。