Culture in Action: Evaluating Text-to-Image Models through Social Activities

O artigo apresenta o CULTIVate, um novo benchmark que avalia a fidelidade cultural de modelos de texto para imagem ao analisar atividades sociais em 16 países, revelando disparidades sistemáticas entre nações do Norte e do Sul Global e propondo métricas que superam as existentes na correlação com julgamentos humanos.

Sina Malakouti, Boqing Gong, Adriana Kovashka

Publicado 2026-03-09
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu a um pintor de IA para desenhar uma cena de "comer em casa no Brasil". Um pintor humano que conhece o Brasil poderia desenhar uma família reunida em volta de uma mesa de madeira, com pratos de feijão e arroz, talvez um ventilador de teto girando. Mas e se a IA desenhasse uma família no meio da selva, comendo em folhas de bananeira, usando cocás de penas e cercada por onças?

Isso é o que acontece quando os modelos de "Texto para Imagem" (T2I) tentam representar culturas diferentes. Eles muitas vezes caem em estereótipos exagerados ou inventam coisas que não existem (alucinações).

O artigo "CULTURE IN ACTION" (Cultura em Ação) é como um novo manual de instrução para consertar esses pintores de IA. Aqui está a explicação, simplificada e com analogias:

1. O Problema: O "Turista Cego"

Até agora, os testes para ver se uma IA entende cultura focavam em objetos estáticos: "desenhe um templo", "desenhe um prato de comida". É como testar se um turista sabe o nome de um monumento, mas não se ele sabe como os locais vivem.

O problema é que a cultura acontece nas atividades sociais (como dançar, cumprimentar, celebrar). Uma IA treinada na internet (que tem muito conteúdo ocidental) muitas vezes não entende que "dançar" na Índia é diferente de "dançar" no Brasil, ou que "cumprimentar" no Japão é diferente do Brasil. Ela tende a desenhar o que é mais famoso (e estereotipado) em vez do que é real.

2. A Solução: O "CULTIVate" (O Jardim de Atividades)

Os autores criaram um novo "jardim" chamado CULTIVate. Em vez de apenas testar objetos, eles testaram 576 atividades sociais (como dançar samba, fazer uma saudação, comer em casa) em 16 países diferentes.

Imagine que eles criaram um "menu de verdade" para cada país. Para "comer no Irã", o menu diz: "pode ser em uma mesa, ou no chão em volta de um tapete tradicional (sofreh)". Isso dá à IA uma chance de acertar a nuance, não apenas o objeto.

3. O Novo Medidor: A "Bússola AHEaD"

Antes, para saber se a IA estava acertando, usávamos métricas que funcionavam como um "scanner de palavras-chave". Se a imagem tinha a palavra "elefante" e o prompt era sobre um jogo que soa como elefante, a IA ganhava pontos, mesmo que o jogo não tivesse elefantes de verdade. Isso é como dar nota 10 para um aluno que decorou a palavra "frio" mas não sabe que gelo é frio.

Os autores criaram o AHEaD (uma sigla em inglês para Alinhamento, Alucinação, Exagero e Diversidade). Pense nele como um detetive cultural que olha para a imagem e faz quatro perguntas:

  1. Alinhamento (Alignment): A imagem tem os elementos certos? (Ex: Tem o tapete no chão?)
  2. Alucinação (Hallucination): A imagem inventou coisas que não deveriam estar lá? (Ex: Por que tem um elefante no jogo de mãos?)
  3. Exagero (Exaggeration): A imagem está usando clichês demais? (Ex: Todo mundo vestindo trajes tradicionais de gala em um jantar comum de domingo?)
  4. Diversidade (Diversity): A IA mostrou apenas uma versão estereotipada ou mostrou que existem várias formas de fazer aquela atividade?

4. Como Funciona a "Receita" (Metodologia)

Para criar esse detetive, eles não usaram apenas humanos (que é caro e lento). Eles usaram uma técnica inteligente chamada "Propositor-Refinador":

  • O Propositor: Um robô (IA) que joga muitas ideias de como aquela cultura se parece.
  • O Refinador: Outro robô mais esperto que pega essas ideias, joga fora as repetidas e as erradas, e deixa apenas as descrições precisas.

Depois, eles comparam a imagem gerada pela IA com essas descrições perfeitas. Se a IA gerou um "elefante" quando a descrição perfeita não tinha, o sistema aponta: "Ei, isso é uma alucinação!".

5. O Que Eles Descobriram?

  • O Norte Global vs. Sul Global: As IAs são muito melhores em desenhar culturas do "Norte Global" (EUA, Europa) do que do "Sul Global" (África, América Latina, partes da Ásia). É como se o pintor tivesse estudado mais a arte europeia do que a africana.
  • Alinhamento não é tudo: Uma imagem pode ter todos os objetos certos (alinhamento alto) mas estar tão estereotipada (exagero alto) que parece falsa. O novo sistema AHEaD consegue pegar isso, enquanto os sistemas antigos não conseguiam.
  • Correção Possível: O sistema não só aponta o erro, mas diz como corrigir. Ele pode dizer à IA: "Remova o elefante, troque o traje de gala por roupas casuais e adicione um tapete no chão".

Resumo em uma Frase

Este trabalho criou um novo "olho crítico" para a IA, capaz de entender que cultura é sobre como as pessoas interagem e vivem, não apenas sobre quais objetos elas têm, ajudando a IA a desenhar o mundo de forma mais real, menos estereotipada e mais justa para todas as culturas.