Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

Este artigo de posicionamento defende que a avaliação de sistemas modernos de processamento visual deve abandonar a primazia de métricas objetivas de qualidade de imagem em favor de uma abordagem centrada no ser humano, contextual e detalhada, para evitar que a divergência entre resultados métricos e percepção humana restrinja a inovação e desvie o progresso da pesquisa.

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef de cozinha renomado. Por anos, a única forma de julgar se o seu prato estava bom era pesando os ingredientes com uma balança de precisão. Se a receita pedia 100g de farinha e você usou exatamente 100g, o prato era um sucesso. Se usou 101g, era um fracasso.

O problema é que, com o tempo, a culinária evoluiu. Hoje, os chefs não querem apenas seguir receitas exatas; eles querem criar sabores novos, texturas surpreendentes e pratos que façam as pessoas sorrirem. Mas, na comunidade de pesquisa de visão computacional (que cria softwares para "ver" e melhorar imagens), ainda estamos obcecados com aquela velha balança.

Este artigo é um manifesto dizendo: "Chega de pesar os ingredientes! Vamos provar a comida!"

Aqui está a explicação do que os autores estão dizendo, usando analogias do dia a dia:

1. O Problema da "Balança Cega" (Métricas vs. Humanos)

Durante muito tempo, os cientistas mediram a qualidade das imagens restauradas (como fotos antigas arrumadas ou imagens borradas melhoradas) usando fórmulas matemáticas chamadas métricas (como PSNR e SSIM).

  • A analogia: Imagine que você tem uma foto borrada de um cachorro. O computador tenta "adivinhar" os pelos.
    • O método antigo (Métricas): O computador olha para a foto original e diz: "Você não desenhou exatamente o mesmo pelo na mesma posição. Nota: 50/100."
    • O método novo (IA Generativa): A IA cria pelos novos, super realistas, que parecem verdadeiros, mas não são exatamente iguais aos da foto original.
    • O conflito: As fórmulas antigas punem essa criatividade. Elas dão nota baixa para a foto linda e realista porque ela não é uma cópia pixel-perfect da original. É como se um juiz de culinária rejeitasse um bolo delicioso porque o açúcar foi colocado em uma ordem diferente da receita original.

2. A Armadilha dos "Pontos de Leaderboard"

Como os pesquisadores precisam publicar artigos e ganhar reconhecimento, eles começam a treinar suas IAs não para fazer imagens bonitas para humanos, mas para fazer as fórmulas matemáticas ficarem felizes.

  • A analogia: É como um aluno que estuda apenas para decorar as respostas de um teste de múltipla escolha, em vez de aprender a matéria. Ele tira nota 10 no exame, mas não sabe resolver um problema real.
  • O resultado: As IAs estão criando imagens que têm "pontuação alta" no teste, mas que parecem estranhas, com texturas exageradas ou rostos distorcidos, porque a IA aprendeu que "mais detalhes agudos = nota maior", mesmo que isso pareça artificial para um olho humano.

3. O Perigo das "Falsas Melhorias"

O artigo mostra que as novas ferramentas de avaliação (que tentam imitar o olho humano) também estão sendo enganadas.

  • A analogia: Imagine que você passa um brilho excessivo em uma foto de uma paisagem. A foto fica mais "nítida" e brilhante. As novas métricas dizem: "Uau! Nota máxima! Muito detalhe!"
  • A realidade: Para um humano, aquela foto parece fake, com cores estranhas e sem graça. As métricas estão sendo "viciadas" em ver apenas ruído e bordas, confundindo "barulho" com "qualidade". É como confundir um filme com muitos efeitos especiais (mas sem roteiro) com um filme de cinema premiado.

4. O Que Eles Querem Mudar? (A Solução)

Os autores não dizem para jogar as métricas fora. Elas são úteis, como uma régua para medir o tamanho de uma mesa. Mas a régua não pode dizer se a mesa é bonita ou confortável.

Eles propõem uma mudança de mentalidade:

  • Do "Tamanho" para o "Gosto": Em vez de apenas olhar para o número na tela, precisamos perguntar: "O ser humano gosta disso?"
  • Contexto é Rei: Uma foto de um desenho animado precisa de um tipo de qualidade; uma foto de um rosto humano precisa de outra. Não dá para usar a mesma régua para tudo.
  • A Nova Regra: A avaliação deve ser humana. Isso significa fazer mais testes com pessoas reais, entender o que elas preferem em diferentes situações (rostos, paisagens, texturas) e usar isso como o guia principal, não o número do computador.

Resumo Final

O artigo diz que a tecnologia de melhorar imagens cresceu muito (agora ela "cria" coisas novas, não apenas conserta o velho), mas a forma como a avaliamos ficou parada no passado.

Estamos correndo atrás de números que não significam nada para a experiência real. É hora de parar de olhar apenas para o placar do jogo e começar a assistir à partida de verdade. Se a imagem parece boa para nós, humanos, então ela é boa. Se o computador diz que é perfeita, mas parece estranha, o computador é que precisa ser reprogramado, não a nossa percepção.