Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef de cozinha renomado. Por anos, a única forma de julgar se o seu prato estava bom era pesando os ingredientes com uma balança de precisão. Se a receita pedia 100g de farinha e você usou exatamente 100g, o prato era um sucesso. Se usou 101g, era um fracasso.

O problema é que, com o tempo, a culinária evoluiu. Hoje, os chefs não querem apenas seguir receitas exatas; eles querem criar sabores novos, texturas surpreendentes e pratos que façam as pessoas sorrirem. Mas, na comunidade de pesquisa de visão computacional (que cria softwares para "ver" e melhorar imagens), ainda estamos obcecados com aquela velha balança.

Este artigo é um manifesto dizendo: "Chega de pesar os ingredientes! Vamos provar a comida!"

Aqui está a explicação do que os autores estão dizendo, usando analogias do dia a dia:

1. O Problema da "Balança Cega" (Métricas vs. Humanos)

Durante muito tempo, os cientistas mediram a qualidade das imagens restauradas (como fotos antigas arrumadas ou imagens borradas melhoradas) usando fórmulas matemáticas chamadas métricas (como PSNR e SSIM).

A analogia: Imagine que você tem uma foto borrada de um cachorro. O computador tenta "adivinhar" os pelos.
- O método antigo (Métricas): O computador olha para a foto original e diz: "Você não desenhou exatamente o mesmo pelo na mesma posição. Nota: 50/100."
- O método novo (IA Generativa): A IA cria pelos novos, super realistas, que parecem verdadeiros, mas não são exatamente iguais aos da foto original.
- O conflito: As fórmulas antigas punem essa criatividade. Elas dão nota baixa para a foto linda e realista porque ela não é uma cópia pixel-perfect da original. É como se um juiz de culinária rejeitasse um bolo delicioso porque o açúcar foi colocado em uma ordem diferente da receita original.

2. A Armadilha dos "Pontos de Leaderboard"

Como os pesquisadores precisam publicar artigos e ganhar reconhecimento, eles começam a treinar suas IAs não para fazer imagens bonitas para humanos, mas para fazer as fórmulas matemáticas ficarem felizes.

A analogia: É como um aluno que estuda apenas para decorar as respostas de um teste de múltipla escolha, em vez de aprender a matéria. Ele tira nota 10 no exame, mas não sabe resolver um problema real.
O resultado: As IAs estão criando imagens que têm "pontuação alta" no teste, mas que parecem estranhas, com texturas exageradas ou rostos distorcidos, porque a IA aprendeu que "mais detalhes agudos = nota maior", mesmo que isso pareça artificial para um olho humano.

3. O Perigo das "Falsas Melhorias"

O artigo mostra que as novas ferramentas de avaliação (que tentam imitar o olho humano) também estão sendo enganadas.

A analogia: Imagine que você passa um brilho excessivo em uma foto de uma paisagem. A foto fica mais "nítida" e brilhante. As novas métricas dizem: "Uau! Nota máxima! Muito detalhe!"
A realidade: Para um humano, aquela foto parece fake, com cores estranhas e sem graça. As métricas estão sendo "viciadas" em ver apenas ruído e bordas, confundindo "barulho" com "qualidade". É como confundir um filme com muitos efeitos especiais (mas sem roteiro) com um filme de cinema premiado.

4. O Que Eles Querem Mudar? (A Solução)

Os autores não dizem para jogar as métricas fora. Elas são úteis, como uma régua para medir o tamanho de uma mesa. Mas a régua não pode dizer se a mesa é bonita ou confortável.

Eles propõem uma mudança de mentalidade:

Do "Tamanho" para o "Gosto": Em vez de apenas olhar para o número na tela, precisamos perguntar: "O ser humano gosta disso?"
Contexto é Rei: Uma foto de um desenho animado precisa de um tipo de qualidade; uma foto de um rosto humano precisa de outra. Não dá para usar a mesma régua para tudo.
A Nova Regra: A avaliação deve ser humana. Isso significa fazer mais testes com pessoas reais, entender o que elas preferem em diferentes situações (rostos, paisagens, texturas) e usar isso como o guia principal, não o número do computador.

Resumo Final

O artigo diz que a tecnologia de melhorar imagens cresceu muito (agora ela "cria" coisas novas, não apenas conserta o velho), mas a forma como a avaliamos ficou parada no passado.

Estamos correndo atrás de números que não significam nada para a experiência real. É hora de parar de olhar apenas para o placar do jogo e começar a assistir à partida de verdade. Se a imagem parece boa para nós, humanos, então ela é boa. Se o computador diz que é perfeita, mas parece estranha, o computador é que precisa ser reprogramado, não a nossa percepção.

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

1. O Problema da "Balança Cega" (Métricas vs. Humanos)

2. A Armadilha dos "Pontos de Leaderboard"

3. O Perigo das "Falsas Melhorias"

4. O Que Eles Querem Mudar? (A Solução)

Resumo Final

Título: Avaliação de Processamento Visual Deve Ser Centrada no Humano, Não na Métrica

1. O Problema

2. Metodologia e Análise

3. Principais Contribuições

4. Resultados Chave

5. Significado e Direções Futuras

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

1. O Problema da "Balança Cega" (Métricas vs. Humanos)

2. A Armadilha dos "Pontos de Leaderboard"

3. O Perigo das "Falsas Melhorias"

4. O Que Eles Querem Mudar? (A Solução)

Resumo Final

Título: Avaliação de Processamento Visual Deve Ser Centrada no Humano, Não na Métrica

1. O Problema

2. Metodologia e Análise

3. Principais Contribuições

4. Resultados Chave

5. Significado e Direções Futuras

Mais como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers