Evaluating Generative Models via One-Dimensional Code Distributions

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um crítico de arte tentando avaliar se uma pintura foi feita por um mestre ou por um robô.

Até hoje, os cientistas usavam uma "régua" muito estranha para medir essa qualidade. Eles pegavam a imagem, transformavam-na em uma lista de números complexos (chamada de "características contínuas") e comparavam a média desses números com a de fotos reais. O problema? Essa régua era treinada para reconhecer objetos (saber que aquilo é um gato), mas ignorava completamente a beleza e os detalhes (se o pelo do gato está bem pintado ou se parece um borrão). Era como tentar julgar a qualidade de um filme apenas olhando para o roteiro, ignorando a atuação, a iluminação e o som.

Este artigo propõe uma mudança de paradigma radical: parar de olhar para os "números de reconhecimento" e começar a olhar para os "tijolinhos" da imagem.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. A Nova Ideia: A Imagem como um Jogo de Lego

Em vez de tratar a imagem como uma pintura contínua, os autores a tratam como uma sequência de códigos (tokens), como se fosse uma frase escrita ou uma estrutura de Lego.

O Antigo Método (FID): Era como tentar descrever uma casa olhando apenas para a média de cor das paredes. Você saberia que é uma casa, mas não saberia se a janela está torta ou se o telhado está caindo.
O Novo Método (Tokens): É como olhar para a lista de peças de Lego usadas. Se o robô usou muitas peças azuis onde deveriam ser vermelhas, ou se as peças não se encaixam na ordem correta, a lista de códigos revela o erro imediatamente.

2. As Duas Novas "Ferramentas" de Medição

Os autores criaram duas ferramentas baseadas nessa ideia de "tijolinhos":

A. CHD (A Distância do Dicionário)

Imagine que a imagem é feita com um vocabulário de 4.096 palavras (os códigos).

O que faz: O CHD compara o "dicionário" usado pelas fotos reais com o das fotos geradas pelo robô.
A Analogia: Se você escreve um texto e usa a palavra "elefante" 50 vezes e "formiga" 0 vezes, mas a realidade tem o oposto, o texto está errado. O CHD mede se o robô está usando as "palavras" visuais na frequência e combinação corretas. Ele também verifica a "gramática": se as peças de Lego estão sendo encaixadas na ordem lógica (ex: a janela não pode estar dentro do telhado).
Vantagem: Não precisa de treinamento. É como comparar duas listas de compras: se as listas são diferentes, a qualidade é diferente.

B. CMMS (O Professor de Qualidade)

Esta ferramenta avalia a qualidade de uma única imagem, sem precisar de uma foto original para comparar.

Como funciona: Os autores criaram um "robô de estragos". Eles pegam fotos normais e as estragam propositalmente de formas inteligentes (borrando, trocando partes do corpo, mudando cores) para criar uma escala de "feio" a "bonito".
A Analogia: É como treinar um juiz de culinária. Você dá a ele pratos perfeitos e depois vai adicionando sal demais, queimando o pão ou misturando ingredientes estranhos. O juiz aprende a dizer: "Este prato tem 80% de qualidade" apenas pelo sabor, sem precisar ver a receita original.
O Truque: O CMMS aprende a olhar para a sequência de códigos (os "tijolinhos") e diz: "Essa sequência parece um prato queimado" ou "Essa parece uma obra-prima".

3. O Grande Teste: O "VisForm"

Para provar que suas ferramentas funcionam em qualquer situação, eles criaram um banco de dados gigante chamado VisForm.

A Analogia: Imagine um teste de direção que inclui dirigir em neve, na chuva, em estradas de terra e em pistas de corrida. A maioria dos testes anteriores só testava em dias de sol.
O VisForm tem 210.000 imagens de 62 estilos diferentes: desde retratos realistas até desenhos animados, diagramas médicos e pinturas a óleo.
Resultado: As ferramentas deles funcionaram perfeitamente em todos esses cenários, enquanto os métodos antigos falhavam feio em estilos artísticos ou não realistas.

Por que isso é importante?

Atualmente, ao criar novas IAs geradoras de imagens, os pesquisadores muitas vezes "chutam" se a IA está melhorando ou não, porque as métricas antigas não combinam com o que os humanos acham bonito.

Com essa nova abordagem:

É mais justo: Avalia o que realmente importa para o olho humano (textura, estilo, coerência), não apenas o reconhecimento de objetos.
É mais rápido e barato: Não precisa de milhões de humanos para dar notas; o computador faz a conta olhando para a estrutura dos dados.
É universal: Funciona para fotos, desenhos, arte abstrata e até imagens médicas.

Resumo da Ópera:
Os autores trocaram a "régua de matemática abstrata" por uma "lupa de estrutura de dados". Em vez de perguntar "isso parece um gato?", eles perguntam "os tijolinhos que formam esse gato estão na ordem certa e na quantidade certa?". E adivinhe? Quando os tijolinhos estão certos, a imagem é bonita para nós, humanos.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

A avaliação de modelos generativos de imagem (como GANs e modelos de difusão) depende historicamente de métricas baseadas na distribuição de recursos contínuos (features), como o FID (Fréchet Inception Distance). O artigo identifica limitações críticas nessas abordagens:

Perda de Informação Perceptiva: Os recursos contínuos são treinados para reconhecimento (ex: Inception, CLIP, DINO) e são otimizados para serem invariantes a variações de aparência (textura, nitidez, coerência local). Isso faz com que métricas tradicionais ignorem artefatos visuais sutis e falhas de qualidade que são cruciais para a percepção humana.
Suposições Estatísticas Incorretas: Métricas como o FID assumem que as distribuições de recursos seguem uma distribuição Gaussiana, o que raramente é verdade para dados complexos e multimodais (como arte ou imagens médicas).
Falta de Estrutura Espacial: Ao comprimir imagens em vetores de recursos globais, perde-se a estrutura espacial e a coerência local, dificultando a detecção de artefatos localizados.
Dependência de Anotação Humana: Métricas baseadas em aprendizado (como HPS ou PickScore) exigem grandes quantidades de anotações humanas caras e sofrem com viés de domínio ao serem aplicadas a novos estilos visuais.

2. Metodologia

Os autores propõem uma mudança de paradigma: avaliar modelos no espaço de tokens visuais discretos em vez de recursos contínuos. A premissa é que tokenizadores modernos (como o TiTok) codificam tanto o conteúdo semântico quanto os detalhes perceptivos em uma sequência compacta de índices de código.

O trabalho introduz duas métricas principais e um novo benchmark:

A. Codebook Histogram Distance (CHD)

Uma métrica de distribuição sem treinamento (training-free) que compara a fidelidade estatística entre conjuntos de imagens reais e geradas no espaço de tokens.

Estatísticas Unigram (CHD-1D): Calcula a frequência de cada token no vocabulário (histograma univariado). Mede se o modelo aprendeu o "vocabulário" visual correto.
Estatísticas de Co-ocorrência Espacial (CHD-2D): Calcula a distribuição de pares de tokens adjacentes no espaço 2D (gramática local). Isso captura a coerência estrutural e a ordem dos elementos.
Cálculo: A distância final é a média aritmética das distâncias de Hellinger entre os histogramas de tokens reais e gerados (tanto para unigramas quanto para co-ocorrências).

B. Code Mixture Model Score (CMMS)

Uma métrica de qualidade sem referência (no-reference) que avalia a qualidade de uma única imagem.

Treinamento Auto-supervisionado: Ao contrário de métricas que aprendem com preferências humanas, o CMMS é treinado usando um modelo de degradação sintética.
Mecanismo de Degradação: Aplica-se corrupção aleatória em sequências de tokens (injeção de tokens uniformes, troca de fragmentos semânticos) e distorções no espaço de pixels (blur, ruído, compressão JPEG).
Mapeamento de Qualidade: Um regressor leve (Transformer + MLP) aprende a mapear os padrões de tokens corrompidos para um escore de qualidade contínuo, baseado na severidade da corrupção (usando uma função exponencial $q(p) = e^{-20p}$ ).

C. VisForm (Benchmark)

Para testar a robustez sob grandes deslocamentos de distribuição, os autores criaram o VisForm:

Escala: 210.000 imagens geradas por 12 modelos diferentes.
Diversidade: Cobre 62 formas visuais distintas (fotografias realistas, pinturas a óleo, animes, renderizações 3D, diagramas médicos, etc.).
Anotação: Cada imagem possui anotações de especialistas em 14 dimensões perceptivas (qualidade geral, composição, coerência semântica, etc.), com alto acordo entre anotadores.

3. Principais Contribuições

Paradigma de Tokens Discretos: Propõe o uso de estatísticas de códigobook (vocabulário e gramática de tokens) como espaço de avaliação primário, superando as limitações dos recursos contínuos invariantes.
Novas Métricas:
- CHD: Uma métrica de distribuição robusta, sem treinamento, sensível a mudanças semânticas e estilísticas.
- CMMS: Uma métrica de qualidade sem referência que generaliza bem sem depender de anotações humanas para treinamento.
VisForm Benchmark: Um conjunto de dados massivo e diversificado para avaliação cruzada de domínios, preenchendo a lacuna de benchmarks que cobrem estilos não fotorealistas e domínios especializados.

4. Resultados Experimentais

Os resultados demonstram superioridade consistente sobre o estado da arte (SOTA) em múltiplos benchmarks (AGIQA, HPDv2, HPDv3 e VisForm):

Correlação com Julgamento Humano:
- O CHD alcançou correlações de Spearman de 0,829 no AGIQA e 0,867 no HPDv3, superando FID, KID, CLIP-FID e CMMD.
- O CMMS obteve correlações ainda mais altas: 0,943 no AGIQA e 0,872 no HPDv3, superando métricas de qualidade aprendidas como MUSIQ, CLIP-IQA e DEQA.
Previsão de Preferência (Pairwise): O CMMS alcançou a maior precisão na previsão de preferências humanas em todos os benchmarks (ex: 71,5% no AGIQA, 74,9% no HPDv2).
Robustez de Domínio: No benchmark VisForm, as métricas baseadas em tokens mantiveram alta correlação em domínios não fotorealistas (arte, esboços, diagramas), onde métricas baseadas em pixels (como FID) sofreram quedas drásticas de desempenho.
Eficiência de Amostra: O CHD estabiliza com apenas ~1.000 imagens, enquanto o FID requer mais de 10.000 para convergir, tornando a abordagem proposta mais eficiente para avaliar modelos caros ou com dados limitados.

5. Significado e Conclusão

Este trabalho estabelece um novo marco na avaliação de modelos generativos ao demonstrar que estatísticas de tokens discretos oferecem uma base mais fiel, interpretável e robusta para medir a qualidade visual do que os recursos contínuos tradicionais.

Interpretabilidade: As métricas baseiam-se em contagens e co-ocorrências de tokens, tornando o processo de avaliação mais transparente do que "caixas pretas" de redes neurais profundas.
Generalização: A abordagem é agnóstica ao domínio, funcionando igualmente bem para fotos, arte e dados científicos, sem necessidade de ajuste fino (fine-tuning) para cada novo estilo.
Reprodutibilidade: Os autores liberarão todo o código, modelos e dados (VisForm), facilitando pesquisas futuras na área de avaliação de IA generativa.

Em suma, o artigo sugere que a transição de "recursos contínuos" para "estatísticas de código discreto" resolve o desalinhamento fundamental entre métricas automáticas e a percepção humana de qualidade visual.