GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um pintor de sonhos muito famoso, chamado "IA". Esse pintor recebe pedidos do mundo todo: "Pinte uma casa no Brasil", "Desenhe um carro no Japão", "Faça uma foto de uma loja na Nigéria".

O problema é que esse pintor, embora seja incrível tecnicamente, tem um viés invisível. Ele parece ter uma "memória" que só guarda certas imagens de certos lugares. Se você pedir uma casa na Nigéria, ele pode pintar apenas casas de barro em terra seca, ignorando que existem prédios modernos, casas de luxo e vilas bonitas lá. Se pedir uma casa no Japão, ele pinta apenas casas super modernas e limpas, ignorando a diversidade real.

Aqui entra o GeoDiv, o "detective da diversidade" criado pelos autores deste artigo.

O que é o GeoDiv? (A Lente Mágica)

O GeoDiv é uma ferramenta nova que serve como uma lente de aumento inteligente para olhar as imagens criadas por essas IAs. Em vez de apenas dizer "a imagem é bonita" ou "a imagem é feia", o GeoDiv pergunta: "Esta imagem representa a realidade daquele país com todas as suas nuances?"

Para fazer isso, o GeoDiv usa dois "óculos" especiais (chamados de índices):

1. Os Óculos da Riqueza e do Cuidado (SEVI)

Imagine que você está olhando para uma foto de uma rua.

O Óculo da Riqueza (Afloência): Pergunta: "Essa cena parece de uma pessoa rica, média ou pobre?"
O Óculo do Cuidado (Manutenção): Pergunta: "As coisas estão novas e brilhantes, ou estão velhas e quebradas?"

A Descoberta Chocante: O GeoDiv descobriu que, quando a IA pinta países como Índia, Nigéria e Colômbia, ela quase sempre usa uma "paleta de pobreza". As casas parecem velhas, os carros parecem quebrados e o cenário é sempre de falta de recursos. Já para países como EUA, Japão e Reino Unido, a IA usa uma "paleta de luxo": tudo é novo, limpo e brilhante. É como se o pintor achasse que a vida na África ou na América Latina fosse sempre miserável, o que não é verdade.

2. Os Óculos da Variedade Visual (VDI)

Agora, imagine que você pede 100 fotos de "cadeiras" na França.

Se todas as 100 fotos forem cadeiras de madeira, marrons, com encosto reto, o GeoDiv diz: "Pouca variedade!".
Se houver cadeiras de metal, plásticas, coloridas, modernas, antigas, de jardim, de escritório, o GeoDiv diz: "Ótima variedade!".

A Descoberta: O GeoDiv viu que as IAs atuais são "preguiçosas" na variedade. Elas tendem a repetir os mesmos tipos de objetos e os mesmos cenários de fundo (como estradas de terra para países pobres e asfalto para países ricos), ignorando que a realidade é muito mais colorida e diversa.

Como o GeoDiv funciona? (O Detetive com Ajuda de Robôs)

O GeoDiv não olha as fotos sozinho. Ele usa uma equipe de robôs superinteligentes (chamados de Modelos de Linguagem e Visão) que funcionam como críticos de arte e sociólogos.

O Robô Perguntador: Ele gera perguntas específicas para cada foto. "Qual é o material do telhado?", "A estrada é de terra ou asfalto?", "A casa parece cara?".
O Robô Analista: Ele olha para milhares de fotos geradas e responde a essas perguntas.
O Cálculo: O GeoDiv junta todas as respostas e calcula um "ponto de diversidade". Se as respostas forem todas iguais (ex: 90% das casas na Nigéria são de terra), o ponto é baixo. Se as respostas forem variadas, o ponto é alto.

O que eles descobriram? (A Grande Revelação)

O estudo analisou 160.000 imagens de 4 IAs diferentes (como o Stable Diffusion e o FLUX) em 16 países.

O Viés de Pobreza: As IAs tendem a retratar países em desenvolvimento como lugares sujos e pobres, mesmo quando o pedido é neutro (ex: "uma foto de um carro").
O Viés de Luxo: Países ricos são retratados como lugares sempre perfeitos e limpos.
A Armadilha da Beleza: Uma das IAs mais novas (FLUX.1) cria imagens lindas e muito "polidas" (parecem de revista), mas são pouco diversas. É como se ela tivesse um filtro de "beleza padrão" que apaga a realidade real dos lugares.
O Mundo Real é Mais Rico: Quando compararam as imagens da IA com fotos reais do mundo (um banco de dados chamado GeoDE), viram que a realidade tem muito mais variedade de cores, materiais e estilos do que a IA consegue imaginar.

Por que isso importa? (A Analogia Final)

Pense no mundo como um grande buffet.
As IAs atuais, sem o GeoDiv, estão servindo um buffet onde:

A mesa do "Japão" tem apenas sushi de alta qualidade.
A mesa da "Nigéria" tem apenas comida simples e em recipientes velhos.

Isso cria estereótipos. Se as pessoas usarem essas imagens para entender o mundo, elas vão achar que a Nigéria é sempre pobre e o Japão é sempre futurista. Isso é injusto e falso.

O GeoDiv é o garçom crítico que chega e diz: "Ei, chef! Você está esquecendo de colocar pratos variados na mesa da Nigéria! Tem gente rica, tem gente com casas modernas, tem carros novos lá também. Vamos corrigir o cardápio para que o buffet seja justo e represente a verdadeira diversidade do mundo."

Conclusão Simples

Este paper não é apenas sobre tecnologia; é sobre justiça visual. O GeoDiv nos dá a ferramenta para medir se as IAs estão contando a história completa do mundo ou apenas uma versão estereotipada e enviesada. O objetivo é garantir que, no futuro, quando pedirmos uma imagem de um lugar, a IA nos mostre a verdadeira beleza e complexidade daquele lugar, e não apenas o que ela "acha" que é aquele lugar.

GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models

O que é o GeoDiv? (A Lente Mágica)

1. Os Óculos da Riqueza e do Cuidado (SEVI)

2. Os Óculos da Variedade Visual (VDI)

Como o GeoDiv funciona? (O Detetive com Ajuda de Robôs)

O que eles descobriram? (A Grande Revelação)

Por que isso importa? (A Analogia Final)

Conclusão Simples

1. Problema e Motivação

2. Metodologia: O Framework GeoDiv

A. Índice Visual Socioeconômico (SEVI - Socio-Economic Visual Index)

B. Índice de Diversidade Visual (VDI - Visual Diversity Index)

C. Cálculo da Diversidade

3. Configuração Experimental

4. Principais Resultados

5. Contribuições Chave

6. Significado e Impacto

GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models

O que é o GeoDiv? (A Lente Mágica)

1. Os Óculos da Riqueza e do Cuidado (SEVI)

2. Os Óculos da Variedade Visual (VDI)

Como o GeoDiv funciona? (O Detetive com Ajuda de Robôs)

O que eles descobriram? (A Grande Revelação)

Por que isso importa? (A Analogia Final)

Conclusão Simples

1. Problema e Motivação

2. Metodologia: O Framework GeoDiv

A. Índice Visual Socioeconômico (SEVI - Socio-Economic Visual Index)

B. Índice de Diversidade Visual (VDI - Visual Diversity Index)

C. Cálculo da Diversidade

3. Configuração Experimental

4. Principais Resultados

5. Contribuições Chave

6. Significado e Impacto

Mais como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation