The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um grande curador de arte invisível chamado "LAION-Aesthetics Predictor" (vamos chamá-lo de LAP). Este não é um humano com um chapéu de artista, mas um algoritmo de computador muito poderoso.

O trabalho desse "curador" é olhar para milhões de fotos na internet e dar uma nota de 1 a 10 dizendo: "Esta foto é bonita?" ou "Esta foto é de alta qualidade?".

Por que isso importa? Porque as empresas que criam os geradores de imagens (como o famoso Stable Diffusion, que cria imagens do nada) usam esse curador para escolher quais fotos vão ensinar a máquina. Se o curador diz "não gostei dessa foto", ela é jogada fora. Se diz "adorei", ela vira um professor para a máquina.

Os autores deste estudo decidiram investigar: De quem é o gosto desse curador?

Aqui está o resumo da investigação, explicado de forma simples:

1. O Grande Filtro (O que o LAP faz?)

O LAP foi usado para filtrar mais de 1 bilhão de imagens. A equipe do estudo descobriu que esse curador tem gostos muito específicos, e eles não são universais. É como se ele tivesse um "gosto de família" muito forte e estivesse aplicando isso a todo o mundo.

O Viés de Gênero: O curador adora fotos onde a legenda menciona mulheres. Ele tende a jogar fora fotos que mencionam homens ou pessoas LGBTQ+. É como se ele achasse que a beleza só existe quando há uma mulher na cena.
O Viés Cultural: Ele ama paisagens, cidades e retratos feitos por artistas ocidentais (EUA/Europa) e japoneses. Se você mostrar a ele uma arte africana, indígena, islâmica ou de outras culturas não ocidentais, ele tende a dar notas baixas e descartá-la.
O Viés de Estilo: Ele adora realismo. Se a foto parece uma fotografia perfeita de uma montanha ou de uma pessoa, ele dá nota 10. Se é uma pintura abstrata, cubista ou algo estranho e surreal (como muitos artistas modernos gostam), ele dá nota baixa.

2. A Origem do Gosto (A "Investigação" dos Autores)

Para entender por que o curador tem esse gosto, os autores fizeram uma "etnografia de rastreamento". É como se eles fossem detetives tentando descobrir quem construiu esse curador e como.

Eles descobriram que:

Um homem criou tudo: O algoritmo foi feito basicamente por uma única pessoa (o fundador da LAION, um professor alemão). Ele escolheu os dados e os pesos do modelo baseando-se no seu próprio gosto pessoal.
Os "Júris" eram limitados: Para ensinar o curador o que é "bonito", usaram fotos de concursos de fotografia online (feitos por fotógrafos brancos, ocidentais e ricos) e de comunidades de entusiastas de IA (que também eram majoritariamente brancos e ocidentais).
O Resultado: O curador aprendeu que "beleza" significa "fotorealismo feito por homens brancos ocidentais". Ele não aprendeu que beleza pode ser abstrata, africana ou feita por mulheres.

3. Por que isso é um problema? (O Perigo)

Pense no gerador de imagens como uma máquina de fazer sonhos. Se você alimenta essa máquina apenas com "sonhos" que o curador LAP considera bonitos, a máquina vai começar a repetir os mesmos sonhos.

Exclusão: A máquina terá dificuldade em criar arte indígena, africana ou abstrata, porque o curador jogou essas fotos fora antes de ela aprender.
O "Olhar Masculino": Como o curador adora fotos de mulheres, a máquina pode acabar criando muitas imagens de mulheres, mas muitas vezes de uma forma objetificada (como se fossem feitas apenas para o prazer de olhar de um homem), ignorando a perspectiva feminina.
Falta de Diversidade: O mundo é cheio de cores e estilos diferentes. Se o nosso "curador de IA" só gosta de um tipo de cor, o futuro da arte gerada por IA ficará cinza e repetitivo.

A Conclusão dos Autores

Os pesquisadores dizem: "Parem de tentar criar uma única medida de beleza para todo o mundo."

A beleza é subjetiva. O que é lindo para você pode não ser para mim. Tentar forçar uma nota única (de 1 a 10) para definir o que é "arte boa" é um erro.

Eles pedem que os criadores de IA:

Parem de usar o "gosto único" como regra absoluta.
Aceitem a pluralidade: Em vez de dizer "isso é bonito (nota 9)", digam "isso é realista", "isso é abstrato" ou "isso tem estilo japonês".
Pensem nas consequências: Se usarmos esse curador para ensinar nossas máquinas, estaremos apagando culturas inteiras e reforçando estereótipos antigos.

Em resumo: O estudo nos mostra que a "inteligência" da IA não é neutra. Ela carrega os preconceitos, o gosto e a visão de mundo de quem a criou e de quem forneceu os dados. Se queremos uma IA que represente o mundo real, precisamos de curadores (e dados) muito mais diversos do que apenas um único homem com um computador.

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

1. O Grande Filtro (O que o LAP faz?)

2. A Origem do Gosto (A "Investigação" dos Autores)

3. Por que isso é um problema? (O Perigo)

A Conclusão dos Autores

Título: O Olhar Algorítmico da Avaliação de Qualidade de Imagem: Uma Auditoria e Etnografia Rastreada do LAION-Aesthetics Predictor

1. Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

5. Significado e Implicações

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

1. O Grande Filtro (O que o LAP faz?)

2. A Origem do Gosto (A "Investigação" dos Autores)

3. Por que isso é um problema? (O Perigo)

A Conclusão dos Autores

Título: O Olhar Algorítmico da Avaliação de Qualidade de Imagem: Uma Auditoria e Etnografia Rastreada do LAION-Aesthetics Predictor

1. Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

5. Significado e Implicações

Mais como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers