Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

Ce papier de position soutient que l'évaluation des systèmes de traitement visuel doit évoluer d'une approche centrée sur des métriques objectives vers une approche humanocentrée, contextuelle et nuancée, afin de mieux refléter la perception humaine et de ne pas entraver l'innovation.

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu

Publié 2026-03-10
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Dilemme de l'Artiste : La Note du Professeur ou le Sourire du Public ?

Imaginez que vous êtes un chef cuisinier (ou un artiste). Votre but est de créer un plat (ou une image) qui fait plaisir à votre client.

Pendant des années, la communauté scientifique qui travaille sur l'amélioration des images (comme rendre une photo floue plus nette) a agi comme un élève qui ne regarde que sa note sur 20. Cette note, c'est une formule mathématique appelée "métrique" (comme le PSNR ou le SSIM).

Le problème, c'est que la note du professeur ne correspond plus au goût du client.

Ce papier de recherche, écrit par une équipe d'experts, lance un appel urgent : Arrêtons de courir après la note parfaite et recommençons à écouter ce que les humains trouvent beau !

Voici les points clés, expliqués avec des analogies :

1. Le Piège de la "Note Parfaite" (Le Mètre-Ruban vs. Le Cœur)

Autrefois, pour améliorer une photo floue, les ordinateurs essayaient simplement de recoller les pixels un par un pour qu'ils ressemblent exactement à l'original. Les formules mathématiques (les métriques) étaient parfaites pour ça : elles mesuraient la distance entre deux pixels.

Mais aujourd'hui, les nouvelles technologies (comme l'Intelligence Artificielle générative) sont plus intelligentes. Elles ne se contentent pas de recoller des pixels ; elles inventent des détails réalistes (comme des poils d'animal ou des textures de peau) qui n'étaient pas dans l'original.

  • L'analogie : Imaginez un restaurateur de tableaux.
    • L'approche "Métrique" : Il demande : "Est-ce que chaque pixel de ma copie est à la même distance que l'original ?" Si oui, c'est parfait.
    • L'approche "Humaine" : Elle demande : "Est-ce que ce tableau semble vivant ? Est-ce que les yeux du personnage semblent réels ?"
    • Le drame : Parfois, pour avoir une meilleure note mathématique, l'IA rend l'image trop lisse (comme une peau de plastique). Pour avoir un meilleur aspect visuel, elle invente des détails. Mais les formules mathématiques punissent ces détails inventés ! C'est comme si un professeur punissait un élève pour avoir ajouté de la créativité à son dessin, simplement parce que cela ne correspondait pas au modèle exact.

2. La Course aux Armements (Tricher pour avoir une meilleure note)

Comme les chercheurs sont sous pression pour avoir les meilleures notes pour publier leurs articles, ils ont commencé à "tricher" avec les formules.

  • L'analogie : C'est comme un étudiant qui sait que son professeur note la taille de l'écriture. Alors, l'étudiant écrit tout en très gros, même si le texte est illisible et n'a aucun sens.
  • La réalité : Les chercheurs ont appris à créer des images avec beaucoup de "bruit" et de détails artificiels (trop de netteté, des textures bizarres). Les formules mathématiques adorent ça et donnent des notes élevées. Mais quand un humain regarde l'image, il trouve ça agressif, faux et désagréable. C'est comme un fruit artificiel qui brille trop : il a l'air parfait sous la lumière, mais il n'a pas de goût.

3. Pourquoi une seule note ne suffit plus (Le Test du Goût)

Le papier explique qu'une seule note globale ne peut pas tout dire. Une image peut être magnifique pour un visage humain, mais terrible pour un paysage.

  • L'analogie : Imaginez un examen de cuisine où l'on donne une note globale.
    • Un chef excelle dans les desserts (il gagne la note).
    • Un autre chef excelle dans les plats de viande.
    • Si on les mélange dans un seul test, on ne sait pas qui est le meilleur pour quel plat.
  • La solution : Il faut des évaluations plus fines. Il faut demander aux humains : "Aimez-vous ce visage ?" "Aimez-vous ce paysage ?" "Est-ce que ce texte est lisible ?". C'est ce qu'on appelle une évaluation centrée sur l'humain.

4. Le Futur : L'IA doit apprendre à "Sentir"

Les auteurs ne disent pas qu'il faut jeter les formules mathématiques. Elles sont utiles pour les tests rapides. Mais elles ne doivent plus être le seul juge.

  • L'analogie : Les formules mathématiques sont comme un thermomètre. Elles disent s'il fait chaud ou froid. Mais elles ne peuvent pas dire si l'ambiance est agréable ou si la musique est belle.
  • La proposition : Il faut construire de nouvelles "formules" qui sont plus intelligentes, capables de comprendre le contexte (comme un humain). Par exemple, comprendre qu'un flou d'arrière-plan est voulu (pour mettre en valeur le sujet) et non une erreur.

En résumé

Ce papier dit aux chercheurs : "Ne soyez pas des robots qui optimisent des chiffres. Soyez des artistes qui servent les humains."

Si une image a une note mathématique parfaite mais qu'elle fait peur ou semble fausse à un humain, alors elle a échoué. L'objectif final n'est pas de battre un record sur un tableau de classement, mais de créer des images qui touchent, émerveillent et servent réellement les gens.

Le message clé : La mesure (la métrique) est un outil, pas le but. Le but, c'est le plaisir de l'œil humain.