Culture in Action: Evaluating Text-to-Image Models through Social Activities

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu a um pintor de IA para desenhar uma cena de "comer em casa no Brasil". Um pintor humano que conhece o Brasil poderia desenhar uma família reunida em volta de uma mesa de madeira, com pratos de feijão e arroz, talvez um ventilador de teto girando. Mas e se a IA desenhasse uma família no meio da selva, comendo em folhas de bananeira, usando cocás de penas e cercada por onças?

Isso é o que acontece quando os modelos de "Texto para Imagem" (T2I) tentam representar culturas diferentes. Eles muitas vezes caem em estereótipos exagerados ou inventam coisas que não existem (alucinações).

O artigo "CULTURE IN ACTION" (Cultura em Ação) é como um novo manual de instrução para consertar esses pintores de IA. Aqui está a explicação, simplificada e com analogias:

1. O Problema: O "Turista Cego"

Até agora, os testes para ver se uma IA entende cultura focavam em objetos estáticos: "desenhe um templo", "desenhe um prato de comida". É como testar se um turista sabe o nome de um monumento, mas não se ele sabe como os locais vivem.

O problema é que a cultura acontece nas atividades sociais (como dançar, cumprimentar, celebrar). Uma IA treinada na internet (que tem muito conteúdo ocidental) muitas vezes não entende que "dançar" na Índia é diferente de "dançar" no Brasil, ou que "cumprimentar" no Japão é diferente do Brasil. Ela tende a desenhar o que é mais famoso (e estereotipado) em vez do que é real.

2. A Solução: O "CULTIVate" (O Jardim de Atividades)

Os autores criaram um novo "jardim" chamado CULTIVate. Em vez de apenas testar objetos, eles testaram 576 atividades sociais (como dançar samba, fazer uma saudação, comer em casa) em 16 países diferentes.

Imagine que eles criaram um "menu de verdade" para cada país. Para "comer no Irã", o menu diz: "pode ser em uma mesa, ou no chão em volta de um tapete tradicional (sofreh)". Isso dá à IA uma chance de acertar a nuance, não apenas o objeto.

3. O Novo Medidor: A "Bússola AHEaD"

Antes, para saber se a IA estava acertando, usávamos métricas que funcionavam como um "scanner de palavras-chave". Se a imagem tinha a palavra "elefante" e o prompt era sobre um jogo que soa como elefante, a IA ganhava pontos, mesmo que o jogo não tivesse elefantes de verdade. Isso é como dar nota 10 para um aluno que decorou a palavra "frio" mas não sabe que gelo é frio.

Os autores criaram o AHEaD (uma sigla em inglês para Alinhamento, Alucinação, Exagero e Diversidade). Pense nele como um detetive cultural que olha para a imagem e faz quatro perguntas:

Alinhamento (Alignment): A imagem tem os elementos certos? (Ex: Tem o tapete no chão?)
Alucinação (Hallucination): A imagem inventou coisas que não deveriam estar lá? (Ex: Por que tem um elefante no jogo de mãos?)
Exagero (Exaggeration): A imagem está usando clichês demais? (Ex: Todo mundo vestindo trajes tradicionais de gala em um jantar comum de domingo?)
Diversidade (Diversity): A IA mostrou apenas uma versão estereotipada ou mostrou que existem várias formas de fazer aquela atividade?

4. Como Funciona a "Receita" (Metodologia)

Para criar esse detetive, eles não usaram apenas humanos (que é caro e lento). Eles usaram uma técnica inteligente chamada "Propositor-Refinador":

O Propositor: Um robô (IA) que joga muitas ideias de como aquela cultura se parece.
O Refinador: Outro robô mais esperto que pega essas ideias, joga fora as repetidas e as erradas, e deixa apenas as descrições precisas.

Depois, eles comparam a imagem gerada pela IA com essas descrições perfeitas. Se a IA gerou um "elefante" quando a descrição perfeita não tinha, o sistema aponta: "Ei, isso é uma alucinação!".

5. O Que Eles Descobriram?

O Norte Global vs. Sul Global: As IAs são muito melhores em desenhar culturas do "Norte Global" (EUA, Europa) do que do "Sul Global" (África, América Latina, partes da Ásia). É como se o pintor tivesse estudado mais a arte europeia do que a africana.
Alinhamento não é tudo: Uma imagem pode ter todos os objetos certos (alinhamento alto) mas estar tão estereotipada (exagero alto) que parece falsa. O novo sistema AHEaD consegue pegar isso, enquanto os sistemas antigos não conseguiam.
Correção Possível: O sistema não só aponta o erro, mas diz como corrigir. Ele pode dizer à IA: "Remova o elefante, troque o traje de gala por roupas casuais e adicione um tapete no chão".

Resumo em uma Frase

Este trabalho criou um novo "olho crítico" para a IA, capaz de entender que cultura é sobre como as pessoas interagem e vivem, não apenas sobre quais objetos elas têm, ajudando a IA a desenhar o mundo de forma mais real, menos estereotipada e mais justa para todas as culturas.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: CULTURE IN ACTION

1. O Problema

Os modelos de geração de imagem a partir de texto (T2I) atuais são treinados predominantemente em dados da web que refletem vieses WEIRD (Ocidental, Educado, Industrializado, Rico e Democrático). Isso resulta em representações culturais incorretas ou excessivamente estereotipadas.

Limitação dos Benchmarks Atuais: As avaliações existentes focam em artefatos estáticos e centrados em objetos (ex: comida, marcos turísticos, roupas).
A Lacuna: Atividades sociais (ex: dançar, cumprimentar, jantar) são contextuais e composicionais. O significado cultural emerge da interação entre pessoas, objetos e arranjos espaciais, o que os modelos atuais falham em capturar com fidelidade.
Falha das Métricas: Métricas baseadas em alinhamento imagem-texto (ITA), como CLIPScore, são insuficientes. Elas tendem a recompensar exageros e alucinações (elementos estereotipados) se houver correspondência de palavras-chave, correlacionando-se mal com o julgamento humano de fidelidade cultural.

2. Metodologia

Os autores propõem uma abordagem estruturada composta por um novo benchmark e um novo framework de avaliação.

A. O Benchmark: CULTIVate

Escopo: Um conjunto de dados contendo 576 atividades sociais distribuídas em 9 categorias (dança, cumprimento, jantar, jogos, celebrações, etc.) cobrindo 16 países (divididos entre Global Norte e Global Sul).
Dados: Geração de mais de 19.000 imagens por 6 modelos T2I de última geração (incluindo SD 3.5, FLUX, DALL-E 3, GPT-Image-1, etc.) e coleta de 3.000 imagens de referência reais.
Estrutura: As atividades são anotadas com descritores visuais em 5 dimensões: Fundo, Vestuário, Objetos, Ações/Interações e Layout Espacial.

B. O Framework de Avaliação: AHEaD
O AHEaD (Alignment, Hallucination, Exaggeration, and Diversity) é um framework explicável que não depende de anotação humana direta para pontuação, utilizando descritores visuais externos.

Geração de Descritores de Referência (Proposer-Refiner):
- Utiliza LLMs (GPT-4o, Gemini) para gerar candidatos de descritores culturais.
- Um "Refinador" filtra duplicatas e erros, criando um conjunto de referência robusto ( $D_{ref}$ ) sem viés de imagem específica.
Extração de Descritores Preditos:
- Modelos Multimodais (MLLMs como InternVL3 e Qwen2.5-VL) extraem descritores das imagens geradas ( $D_{pred}$ ).
- Nota: Os MLLMs são usados apenas para compreensão de cena, evitando que seus vieses culturais diretos influenciem a pontuação final.
Cálculo das Métricas:
- Alignment (Alinhamento): Mede a cobertura de elementos culturais esperados (quantos descritores de referência aparecem na imagem).
- Hallucination (Alucinação): Quantifica elementos presentes na imagem que não têm correspondência nos descritores de referência (erros culturais).
- Exaggeration (Exagero): Detecta a super-representação de estereótipos, comparando a intensidade de elementos estereotipados nas imagens geradas versus imagens reais da web.
- Diversity (Diversidade): Mede a variação semântica entre as gerações.
Métrica Composta (FAITH): Combina Alinhamento, (1 - Alucinação) e (1 - Exagero) para criar uma pontuação final de fidelidade cultural.

3. Principais Contribuições

CULTIVate: O primeiro benchmark focado especificamente em atividades sociais para avaliar a fidelidade cultural de modelos T2I, superando a limitação de benchmarks baseados apenas em objetos.
AHEaD: Um framework automatizado e explicável que descompõe a avaliação em dimensões críticas (Alinhamento, Alucinação, Exagero), permitindo feedback detalhado para refinamento iterativo de imagens.
Descoberta sobre Métricas: Demonstra que o alinhamento simples (ITA) é insuficiente e que métricas compostas (FAITH) são necessárias para capturar a fidelidade cultural real.
Análise de Viés Sistêmico: Revela disparidades consistentes onde modelos T2I performam significativamente melhor para culturas do Global Norte em comparação ao Global Sul.

4. Resultados Chave

Ineficácia das Métricas ITA: Métricas tradicionais como CLIPScore, ImageReward e VQAScore mostram correlação muito baixa (ou até negativa) com o julgamento humano de fidelidade cultural. Elas frequentemente recompensam imagens estereotipadas.
Superioridade do AHEaD (FAITH): A métrica composta FAITH alcançou uma correlação 27% maior com o julgamento humano em comparação com baselines de MLLM como juiz e métricas de alinhamento puro.
Viés Geográfico: Todos os 6 modelos testados apresentaram um viés consistente:
- Global Norte (GN): Maior Alinhamento (0.36-0.40) e menor Alucinação/Exagero.
- Global Sul (GS): Menor Alinhamento (0.25-0.35) e maior Alucinação/Exagero.
- A diferença de fidelidade (FAITH) entre GN e GS foi de aproximadamente 4-8%.
Atividades Culturais vs. Universais: Os modelos têm melhor desempenho em atividades universais (ex: comer em restaurante) e pior desempenho em atividades culturalmente arraigadas (ex: rituais religiosos, danças tradicionais específicas).
Feedback Explicável: O sistema consegue identificar especificamente o que está errado (ex: "elefantes" no jogo "Elephant Ant Man" da Indonésia, que é um jogo de pedra-papel-tesoura, não envolvendo elefantes reais), permitindo edição direcionada.

5. Significado e Impacto

Avanço na Avaliação de IA: Este trabalho move o campo de avaliação de T2I de uma visão centrada em objetos para uma visão centrada em contexto social e interação, que é onde a cultura realmente se manifesta.
Ferramenta de Refinamento: Ao fornecer descritores explicáveis (o que está faltando, o que é alucinado, o que é exagerado), o framework permite o desenvolvimento de técnicas de instructive editing para corrigir modelos, em vez de apenas diagnosticar falhas.
Equidade Cultural: A descoberta de que os modelos são sistematicamente piores para o Global Sul destaca a necessidade urgente de diversificar dados de treinamento e métodos de avaliação para garantir que a IA gerativa sirva a uma base global diversificada, e não apenas a culturas ocidentais.
Aplicabilidade Prática: O método é escalável e não depende de anotação humana cara para cada avaliação, tornando-o viável para monitoramento contínuo de modelos em produção, especialmente em indústrias criativas e de marketing.

Em resumo, o artigo estabelece que a "fidelidade cultural" não é apenas sobre ter os objetos certos, mas sobre evitar alucinações e exageros estereotipados, e que novas métricas multidimensionais são essenciais para medir e melhorar a competência cultural dos modelos de IA.

Culture in Action: Evaluating Text-to-Image Models through Social Activities

1. O Problema: O "Turista Cego"

2. A Solução: O "CULTIVate" (O Jardim de Atividades)

3. O Novo Medidor: A "Bússola AHEaD"

4. Como Funciona a "Receita" (Metodologia)

5. O Que Eles Descobriram?

Resumo em uma Frase

Resumo Técnico: CULTURE IN ACTION

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

5. Significado e Impacto

Mais como este

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes