GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models

本文提出了名为 GeoDiv 的框架,利用大语言模型和视觉语言模型通过社会经济视觉指数(SEVI)和视觉多样性指数(VDI)两个维度,系统性地评估并揭示了文本到图像模型在生成印度、尼日利亚和哥伦比亚等国家图像时存在的地理多样性匮乏及社会经济刻板印象偏见。

Abhipsa Basu, Mohana Singh, Shashank Agnihotri, Margret Keuper, R. Venkatesh Babu

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 GeoDiv 的新工具,它的任务就像是一位**“全球地理多样性侦探”**,专门用来检查现在的 AI 绘画模型(比如 Stable Diffusion 或 FLUX)在画世界时,是不是存在严重的“偏见”和“刻板印象”。

简单来说,现在的 AI 画画太“势利眼”了,而且画出来的东西千篇一律。GeoDiv 就是用来给这些 AI 模型“体检”并打分,告诉它们哪里画得不对。

下面我用几个生动的比喻来解释这篇论文的核心内容:

1. 核心问题:AI 的“刻板印象滤镜”

想象一下,你让 AI 画一张“非洲尼日利亚的房子”和一张“美国纽约的房子”。

  • 现实情况:尼日利亚有豪华的别墅,也有普通的平房;美国也有破旧的街区,也有富人区。世界是丰富多彩的。
  • AI 的画法
    • 画尼日利亚时,AI 几乎画破破烂烂、尘土飞扬的土屋,仿佛那里只有贫穷。
    • 画美国或日本时,AI 几乎画光鲜亮丽、一尘不染的现代化建筑。
    • 画汽车时,尼日利亚的车总是停在泥路上,而美国的汽车永远停在铺好的柏油路上。

这就好比 AI 戴上了一副有色眼镜,它认为某些国家“注定”贫穷,某些国家“注定”富有。这种偏见如果不纠正,AI 生成的图像就会误导人们对世界的认知。

2. 解决方案:GeoDiv 这个“双维评分尺”

以前的方法要么太简单(只看图片像不像),要么太依赖人工(太慢)。GeoDiv 发明了一套自动化的“双维评分尺”,利用大语言模型(LLM)和视觉语言模型(VLM)的“世界知识”来给 AI 的画作打分。

这把尺子有两个刻度(两个维度):

第一把尺子:社会经济视觉指数 (SEVI) —— 测“贫富与破旧程度”

这把尺子不看画得漂不漂亮,而是看**“画得像什么阶层”**。它有两个指标:

  • 富裕度 (Affluence):画的是穷困潦倒,还是奢华富贵?(1 分=极度贫穷,5 分=极度奢华)。
  • 维护度 (Maintenance):画里的东西是破破烂烂、没人管,还是保养得非常好?(1 分=破烂不堪,5 分=崭新完美)。

发现:GeoDiv 发现,当 AI 画印度、尼日利亚、哥伦比亚时,分数往往很低(又穷又破);而画美国、英国、日本时,分数往往很高(又富又新)。这证明了 AI 在潜意识里强化了“全球南方国家=贫穷”的刻板印象。

第二把尺子:视觉多样性指数 (VDI) —— 测“是不是千篇一律”

这把尺子看的是**“画得够不够花哨”**。

  • 主体多样性:比如画“椅子”,是不是所有的椅子都长得一样?有没有不同材质、不同形状?
  • 背景多样性:比如画“汽车”,背景是只有泥路,还是有城市、森林、海滩?

发现:AI 画的背景非常单调。比如画尼日利亚的车,77% 的背景都是泥路;而画美国的车,85% 的背景都是柏油路。AI 懒得去想象同一个国家里不同的场景,直接套用了“默认模板”。

3. 有趣的发现:越新的模型,偏见越深?

论文测试了四个不同的 AI 模型(从旧版到最新版)。

  • 老模型 (SD2.1):虽然画得粗糙,但反而多样性稍微高一点点,偶尔能画出点不一样的东西。
  • 新模型 (FLUX.1):画得非常精美、漂亮(富裕度和维护度得分极高),但是极度缺乏多样性。它画的尼日利亚房子,虽然很干净漂亮,但长得和美国郊区的一模一样,完全失去了当地的文化特色。
    • 比喻:这就像是一个**“过度装修的样板间”**。新模型把全世界都画成了同一个高档小区的样板间,虽然看着舒服,但失去了真实世界的“烟火气”和多样性。

4. GeoDiv 是怎么工作的?(像是一个聪明的面试官)

GeoDiv 不像以前那样让人类去一张张看图(太慢了),它是这样做的:

  1. 出题:它让大语言模型(LLM)生成一系列问题。比如:“这栋房子的屋顶是平顶还是斜顶?”“这条路是铺好的还是泥土路?”“这辆车是新的还是旧的?”
  2. 阅卷:它让视觉模型(VLM)去“看”AI 生成的图片,并回答这些问题。
  3. 算分:它统计答案的分布。如果 100 张画尼日利亚房子的图里,99 张都回答“破旧的土路”,那多样性分数就很低;如果答案五花八门(有的有花园,有的有阳台,有的有铁皮屋顶),分数就高。

5. 为什么要关心这个?

这就好比**“地图”。如果 AI 生成的图像是未来的“视觉地图”,那么现在的地图是歪曲**的。

  • 它让尼日利亚看起来只有贫穷,忽略了那里的繁荣。
  • 它让美国看起来只有完美,忽略了那里的社会问题。

GeoDiv 就像是一个**“纠偏仪”**。它不仅能告诉开发者“你的模型有偏见”,还能具体指出“你在画尼日利亚的椅子时,总是画成木头的,忽略了塑料椅”,从而帮助开发者改进模型,让 AI 画出的世界更加真实、包容,不再充满刻板印象。

总结

这篇论文告诉我们:AI 画画不仅仅是技术问题,更是社会问题。
GeoDiv 提供了一个简单、可解释的工具,让我们能像检查“地图是否准确”一样,去检查 AI 眼中的世界是否公平。它希望未来的 AI 不仅能画出“漂亮”的画,更能画出“真实且多元”的世界。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →