Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

Este artículo de posición sostiene que la evaluación de los sistemas modernos de procesamiento visual debe dejar de centrarse exclusivamente en métricas objetivas para adoptar un enfoque más humano, consciente del contexto y detallado, que priorice la percepción y las preferencias de los usuarios.

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que la investigación sobre cómo mejorar las fotos (como hacerlas más nítidas o restaurarlas) es como una competencia de chefs.

Durante mucho tiempo, el único criterio para decidir quién era el mejor chef era una balanza digital. Si el plato pesaba exactamente lo mismo que el plato original (la "foto de referencia"), el chef ganaba. Los investigadores (los chefs) se obsesionaron con ajustar sus recetas para que la balanza marcara el número perfecto, incluso si eso significaba que la comida sabía a cartón o tenía una textura extraña.

Esta es la tesis del artículo que acabas de leer: Hemos estado midiendo el éxito de la tecnología visual con una regla equivocada.

Aquí tienes la explicación sencilla, usando analogías:

1. El Problema: La "Balanza" vs. El "Paladar Humano"

Antes, las fotos se arreglaban intentando copiar pixel por pixel la imagen original. Las métricas antiguas (llamadas PSNR o SSIM) funcionaban bien ahí: medían qué tan parecida era la copia al original.

Pero hoy, la tecnología ha evolucionado. Ahora usamos Inteligencia Artificial generativa (como GANs o modelos de difusión). Estos no solo "copian", sino que imaginan detalles que faltan.

  • La analogía: Imagina que tienes una foto borrosa de un perro.
    • El método antiguo (PSNR): Intenta adivinar cada pelo basándose en la foto borrosa. El resultado es suave, pero aburrido y borroso. La "balanza" dice: "¡Perfecto! Es idéntico a la foto borrosa".
    • El método nuevo (IA Generativa): "Pinta" pelos nuevos, define mejor los ojos y le da una textura realista. La foto se ve increíble para un humano. Pero, como los pelos nuevos no estaban en la foto original, la "balanza" dice: "¡Error! No es idéntico al original".

El problema: Estamos premiando a los chefs que hacen comida que pesa igual que el original (pero sabe mal), y penalizando a los que hacen comida deliciosa y realista (pero que pesa diferente).

2. El Peligro: Jugar para Ganar la Puntuación

Como los investigadores necesitan publicar sus trabajos y ganar premios, se han visto obligados a "hacer trampa" para subir sus puntuaciones en la balanza.

  • La analogía: Es como si un estudiante de arte tuviera que dibujar un paisaje. En lugar de pintar algo hermoso, decide ponerle mucho brillo y contrastes exagerados solo porque el profesor (la métrica) le da más puntos por el brillo, aunque el dibujo se vea artificial y feo a los ojos de cualquier persona.
  • Esto está frenando la innovación. Los investigadores están creando imágenes que se ven "bien" en una hoja de cálculo, pero que a veces se ven extrañas, con texturas raras o caras deformadas, para los ojos humanos.

3. La Solución Propuesta: Volver al "Humano"

El artículo dice que debemos dejar de mirar solo la puntuación y empezar a mirar cómo se siente la imagen.

  • La analogía: En lugar de que un robot juzgue la comida, necesitamos un comité de comensales reales.
  • No basta con decir "Esta foto es un 9.5/10". Necesitamos preguntar:
    • ¿Se ve natural la piel de la persona?
    • ¿Los edificios tienen sentido arquitectónico?
    • ¿El pelo del perro parece real o parece plástico?
    • ¿En una foto de un dibujo animado, la IA intentó hacerlo realista (y falló) o mantuvo el estilo de dibujo?

4. ¿Por qué es difícil?

El artículo reconoce que las métricas (la balanza) son útiles porque son rápidas y baratas. Medir a miles de personas es lento y costoso. Además, el gusto humano es subjetivo (a unos les gusta el salado, a otros el dulce).

  • El desafío: Crear una nueva forma de evaluar que sea tan rápida como la balanza, pero tan sabia como un humano.

En Resumen

El mensaje principal es: Dejemos de obsesionarnos con los números fríos.

La tecnología visual ha avanzado tanto que ya no se trata de "reparar" una foto, sino de crear una experiencia visual agradable. Si seguimos midiendo el éxito solo con reglas antiguas, estaremos guiando a la inteligencia artificial hacia un callejón sin salida, donde las imágenes son matemáticamente perfectas pero visualmente aburridas o raras.

La nueva regla de oro: Si una foto se ve increíble para una persona, ¡es una buena foto! No importa si la computadora dice que los números no cuadran. La tecnología debe servir a los ojos humanos, no a las hojas de cálculo.