GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 GeoDiv 的新工具，它的任务就像是一位**“全球地理多样性侦探”**，专门用来检查现在的 AI 绘画模型（比如 Stable Diffusion 或 FLUX）在画世界时，是不是存在严重的“偏见”和“刻板印象”。

简单来说，现在的 AI 画画太“势利眼”了，而且画出来的东西千篇一律。GeoDiv 就是用来给这些 AI 模型“体检”并打分，告诉它们哪里画得不对。

下面我用几个生动的比喻来解释这篇论文的核心内容：

1. 核心问题：AI 的“刻板印象滤镜”

想象一下，你让 AI 画一张“非洲尼日利亚的房子”和一张“美国纽约的房子”。

现实情况：尼日利亚有豪华的别墅，也有普通的平房；美国也有破旧的街区，也有富人区。世界是丰富多彩的。
AI 的画法：
- 画尼日利亚时，AI 几乎只画破破烂烂、尘土飞扬的土屋，仿佛那里只有贫穷。
- 画美国或日本时，AI 几乎只画光鲜亮丽、一尘不染的现代化建筑。
- 画汽车时，尼日利亚的车总是停在泥路上，而美国的汽车永远停在铺好的柏油路上。

这就好比 AI 戴上了一副有色眼镜，它认为某些国家“注定”贫穷，某些国家“注定”富有。这种偏见如果不纠正，AI 生成的图像就会误导人们对世界的认知。

2. 解决方案：GeoDiv 这个“双维评分尺”

以前的方法要么太简单（只看图片像不像），要么太依赖人工（太慢）。GeoDiv 发明了一套自动化的“双维评分尺”，利用大语言模型（LLM）和视觉语言模型（VLM）的“世界知识”来给 AI 的画作打分。

这把尺子有两个刻度（两个维度）：

第一把尺子：社会经济视觉指数 (SEVI) —— 测“贫富与破旧程度”

这把尺子不看画得漂不漂亮，而是看**“画得像什么阶层”**。它有两个指标：

富裕度 (Affluence)：画的是穷困潦倒，还是奢华富贵？（1 分=极度贫穷，5 分=极度奢华）。
维护度 (Maintenance)：画里的东西是破破烂烂、没人管，还是保养得非常好？（1 分=破烂不堪，5 分=崭新完美）。

发现：GeoDiv 发现，当 AI 画印度、尼日利亚、哥伦比亚时，分数往往很低（又穷又破）；而画美国、英国、日本时，分数往往很高（又富又新）。这证明了 AI 在潜意识里强化了“全球南方国家=贫穷”的刻板印象。

第二把尺子：视觉多样性指数 (VDI) —— 测“是不是千篇一律”

这把尺子看的是**“画得够不够花哨”**。

主体多样性：比如画“椅子”，是不是所有的椅子都长得一样？有没有不同材质、不同形状？
背景多样性：比如画“汽车”，背景是只有泥路，还是有城市、森林、海滩？

发现：AI 画的背景非常单调。比如画尼日利亚的车，77% 的背景都是泥路；而画美国的车，85% 的背景都是柏油路。AI 懒得去想象同一个国家里不同的场景，直接套用了“默认模板”。

3. 有趣的发现：越新的模型，偏见越深？

论文测试了四个不同的 AI 模型（从旧版到最新版）。

老模型 (SD2.1)：虽然画得粗糙，但反而多样性稍微高一点点，偶尔能画出点不一样的东西。
新模型 (FLUX.1)：画得非常精美、漂亮（富裕度和维护度得分极高），但是极度缺乏多样性。它画的尼日利亚房子，虽然很干净漂亮，但长得和美国郊区的一模一样，完全失去了当地的文化特色。
- 比喻：这就像是一个**“过度装修的样板间”**。新模型把全世界都画成了同一个高档小区的样板间，虽然看着舒服，但失去了真实世界的“烟火气”和多样性。

4. GeoDiv 是怎么工作的？（像是一个聪明的面试官）

GeoDiv 不像以前那样让人类去一张张看图（太慢了），它是这样做的：

出题：它让大语言模型（LLM）生成一系列问题。比如：“这栋房子的屋顶是平顶还是斜顶？”“这条路是铺好的还是泥土路？”“这辆车是新的还是旧的？”
阅卷：它让视觉模型（VLM）去“看”AI 生成的图片，并回答这些问题。
算分：它统计答案的分布。如果 100 张画尼日利亚房子的图里，99 张都回答“破旧的土路”，那多样性分数就很低；如果答案五花八门（有的有花园，有的有阳台，有的有铁皮屋顶），分数就高。

5. 为什么要关心这个？

这就好比**“地图”。如果 AI 生成的图像是未来的“视觉地图”，那么现在的地图是歪曲**的。

它让尼日利亚看起来只有贫穷，忽略了那里的繁荣。
它让美国看起来只有完美，忽略了那里的社会问题。

GeoDiv 就像是一个**“纠偏仪”**。它不仅能告诉开发者“你的模型有偏见”，还能具体指出“你在画尼日利亚的椅子时，总是画成木头的，忽略了塑料椅”，从而帮助开发者改进模型，让 AI 画出的世界更加真实、包容，不再充满刻板印象。

总结

这篇论文告诉我们：AI 画画不仅仅是技术问题，更是社会问题。
GeoDiv 提供了一个简单、可解释的工具，让我们能像检查“地图是否准确”一样，去检查 AI 眼中的世界是否公平。它希望未来的 AI 不仅能画出“漂亮”的画，更能画出“真实且多元”的世界。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文《GEODIV: FRAMEWORK FOR MEASURING GEOGRAPHICAL DIVERSITY IN TEXT-TO-IMAGE MODELS》（GeoDiv：衡量文本生成图像模型地理多样性的框架）的详细技术总结。

1. 研究背景与问题 (Problem)

随着文本到图像（Text-to-Image, T2I）模型（如 Stable Diffusion, FLUX 等）的广泛应用，其生成内容中的地理多样性缺失和刻板印象问题日益凸显。

核心问题：现有的 T2I 模型在生成特定国家或地区的图像时，往往缺乏地理多样性，倾向于强化有害的社会经济偏见。例如，生成“非洲的车”时，模型倾向于展示破旧、尘土飞扬的场景，而忽略了该地区的经济多样性；生成“印度的房子”时，往往过度描绘贫困和破败，而生成“日本”或“美国”时则显得富裕整洁。
现有局限：
- 现有的多样性评估指标（如 FID, Vendi-Score）主要关注视觉特征的分布差异，缺乏可解释性，无法捕捉深层的社会经济和文化语境。
- 基于人工策展的数据集（如 GeoDE）虽然包含地理多样性，但难以扩展到任意实体和国家，且缺乏自动化的评估框架。
- 缺乏一个系统性的、可解释的框架来量化模型在不同国家生成图像时的社会经济偏差和视觉多样性。

2. 方法论 (Methodology)

作者提出了 GeoDiv，一个利用大语言模型（LLM）和视觉 - 语言模型（VLM）的世界知识来评估地理多样性的框架。该框架从两个互补的维度进行量化：

A. 社会经济视觉指数 (Socio-Economic Visual Index, SEVI)

SEVI 旨在捕捉图像中的社会经济线索，包含两个可解释的维度：

富裕度 (Affluence)：衡量图像描绘的财富水平（从贫困到奢华）。
维护状况 (Maintenance)：衡量实体的物理状况（从严重损坏到完好无损）。

实现方式：使用 VLM（如 Gemini-2.5-flash）对每张图像进行评分（1-5 分制）。
多样性计算：计算这些评分分布的熵，使用希尔数 (Hill Number) 来量化多样性（即有效类别的数量）。

B. 视觉多样性指数 (Visual Diversity Index, VDI)

VDI 衡量实体及其背景在视觉属性上的变化程度，包含两个维度：

实体外观 (Entity-Appearance)：实体的形状、材质、颜色等属性（如房子的屋顶类型、车的颜色）。
背景外观 (Background-Appearance)：场景的上下文（如道路类型、是否有植被、建筑密度）。

实现方式：
- 利用 LLM 生成针对特定实体和通用背景的问答对（Q&A）。
- 利用 VQA（视觉问答）模型对生成的图像集回答问题，得到答案分布。
- 同样使用归一化的希尔数来量化多样性。

C. 多样性计算核心

使用归一化希尔数 (Normalized Hill Number) 作为多样性得分：
$\text{Diversity-Score} = \frac{e^{H(\hat{P}_k)} - 1}{|\hat{A}_k| - 1}$
其中 $H$ 是香农熵， $\hat{P}_k$ 是答案分布， $|\hat{A}_k|$ 是可能的答案集合大小。得分范围在 0（无多样性，单一答案主导）到 1（最大多样性，所有答案均匀分布）之间。

3. 实验设置 (Experimental Setup)

数据集：构建了包含 160,000 张合成图像的数据集。
- 模型：Stable Diffusion v2.1, v3 (SD3m), v3.5 (SD3.5) 和 FLUX.1-dev。
- 实体：10 种常见实体（如房子、车、椅子、狗等）。
- 国家：16 个代表不同大洲和经济发展水平的国家（包括美国、英国、日本、印度、尼日利亚、哥伦比亚等）。
验证：
- 通过众包平台（Prolific）收集人类标注，验证 VQA 模型在识别属性（VDI）和评分社会经济状况（SEVI）方面的准确性。
- 结果显示，Gemini-2.5-flash 在 SEVI 评分上与人类标注的相关性最高（Spearman's $\rho \approx 0.76$ ），在 VDI 问答准确率上达到 86%。

4. 关键发现与结果 (Key Results)

A. 系统性社会经济偏见

贫困化描绘：印度、尼日利亚和哥伦比亚的图像被一致地描绘为贫困且破败（SEVI 得分低）。
富裕化描绘：美国、英国和日本的图像则被描绘为富裕且维护良好。
缺乏多样性：没有任何一个模型能生成涵盖完整社会经济谱系的图像。例如，FLUX.1 虽然生成的图像非常“光鲜亮丽”（高富裕度、高维护度），但其视觉多样性极低，所有国家的图像看起来都像是同一种“西方郊区富裕风格”。

B. 视觉多样性缺失

背景单一：背景多样性得分普遍较低（平均 0.33）。无论国家如何，背景往往被描绘为安静、空旷，缺乏人群或特定的地理特征（如尼日利亚的土路在 77% 的图像中出现，而美国则是 85% 的铺装路）。
实体同质化：实体属性（如椅子的材质、房子的屋顶）在不同国家间缺乏应有的变化。例如，SD3.5 生成的埃及房子 99% 是石头的，而英国房子 88% 是砖头的，这种刻板印象非常明显。

C. 模型版本趋势

新模型多样性下降：较新的模型版本（如 SD3.5, FLUX.1）在 SEVI 和 VDI 上的综合得分往往低于旧版本（如 SD2.1）。FLUX.1 虽然图像质量高（SEVI 得分高），但地理多样性得分最低，表明模型在提升图像“精致度”的同时牺牲了多样性。
与真实数据对比：与真实世界数据集（GeoDE）相比，合成图像在实体外观和维护状况的多样性上显著较低。

D. 可解释性与应用

GeoDiv 能够识别细粒度的偏见（例如：特定国家缺乏某种材质的椅子，或特定道路类型的缺失）。
论文展示了如何利用 GeoDiv 的评分指导提示词工程（Prompt Engineering），通过显式指定富裕度水平，成功提升了生成图像的多样性（平均提升 0.33）。

5. 主要贡献 (Contributions)

提出 GeoDiv 框架：首个系统性、可解释的框架，利用 LLM/VLM 的世界知识，通过 SEVI 和 VDI 两个维度量化地理多样性。
构建大规模基准数据集：发布了包含 16 个国家、10 种实体、4 种模型的 16 万张合成图像数据集，以及相应的人工标注数据（SEVI 评分和 VDI 属性）。
揭示深层偏见：发现当前主流 T2I 模型存在严重的社会经济刻板印象（将发展中国家描绘为贫困，发达国家描绘为富裕），且新模型在追求图像质量时往往加剧了多样性的丧失。
开源与可复现：公开了代码库、提示词、问答集（QA Sets）和所有评估分数，为未来模型的地理公平性审计提供了标准工具。

6. 意义与影响 (Significance)

填补评估空白：解决了现有多样性指标无法捕捉地理和社会经济语境的问题，为评估生成式 AI 的“世界模型”能力提供了新视角。
推动公平性：揭示了模型在代表全球不同地区时的不平等，促使开发者和数据策展人关注并修正这些偏见，构建更具包容性的生成系统。
方法论创新：展示了如何利用 LLM 和 VLM 的隐式世界知识来构建可解释的评估指标，这种方法可以扩展到其他类型的偏见（如文化、种族等）检测。

总结：GeoDiv 不仅是一个评估工具，更是一个诊断器，它证明了当前的文本生成图像模型在“地理代表性”上存在严重缺陷，并提供了量化和改进这些缺陷的具体路径。