Pointwise Metrics Mislead: An Evaluation Protocol for… — Explication vulgarisée

Auteurs originaux : Mads H. Baattrup, Jörn Bach, Laurids Jeppe, Finn Labe, Alexander Grohsjean, Christian Schwanenberger, Peer Stelldinger

Publié 2026-05-25

📖 6 min de lecture🧠 Analyse approfondie

Voir sur arXiv ↗PDF ↗

CC BY 4.0

Auteurs originaux : Mads H. Baattrup, Jörn Bach, Laurids Jeppe, Finn Labe, Alexander Grohsjean, Christian Schwanenberger, Peer Stelldinger

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Le Grand Problème : Le Piège de la « Moyenne »

Imaginez que vous essayez de deviner l'emplacement d'un trésor caché. Vous avez une carte, mais elle est un peu floue. Parfois, le trésor se trouve définitivement dans la grotte du Nord, et parfois, il se trouve définitivement dans la grotte du Sud. Il n'est jamais au milieu.

Dans le monde de la science (comme en physique des particules ou en imagerie médicale), les scientifiques utilisent souvent des ordinateurs pour résoudre ces « jeux de devinettes ». Pendant longtemps, ils ont jugé la qualité d'un ordinateur en posant une question simple : « À quel point votre devinette est-elle proche de la vraie réponse ? »

Si l'ordinateur devine « Nord » et que le trésor est « Nord », il obtient un score élevé. S'il devine « Sud » et que le trésor est « Nord », il obtient un score faible.

L'article soutient que cette façon de juger est brisée lorsqu'il existe deux réponses possibles (Nord et Sud).

Si un ordinateur est contraint de donner une seule chiffre comme réponse pour minimiser son « score d'erreur », il trichera. Au lieu de dire « C'est soit Nord, soit Sud », il devinera « Milieu ».

Pourquoi ? Parce que mathématiquement, le « Milieu » est la moyenne de Nord et de Sud. La distance du Milieu au Nord est la même que celle du Milieu au Sud. Ainsi, la devinette « Milieu » a l'erreur moyenne la plus faible.
Le Problème : Le trésor n'est jamais au Milieu. L'ordinateur donne une réponse moyenne mathématiquement « parfaite » qui est physiquement impossible.

La Conséquence : Une Image Floue et Déformée

L'article montre que lorsque les scientifiques utilisent ces scores de « moyenne » (appelés RMSE ou MAE) pour sélectionner les meilleurs modèles informatiques, ils choisissent par accident des modèles qui aplatissent la vérité.

Imaginez que vous essayez de recréer une chaîne de montagnes à partir de photos floues.

La Vérité : Deux pics nets et distincts (Nord et Sud).
Le Modèle « Moyenne » : Il dessine une seule colline large et plate au milieu.

Si vous regardez la « colline plate », elle peut sembler plus proche des photos que les pics nets, donc l'ordinateur obtient un meilleur score. Mais si vous utilisez cette colline plate pour construire une station de ski, vous serez en grande difficulté car il n'y a pas de vrais pics pour skier.

En science, ces « pics » et ces « queues » des données contiennent les secrets les plus importants (comme la masse d'une nouvelle particule). En forçant l'ordinateur à donner une seule réponse « moyenne », nous effaçons par accident les détails les plus importants, rendant nos mesures scientifiques erronées.

La Solution : Un Nouveau Test en Trois Étapes

Les auteurs proposent une nouvelle façon de tester ces ordinateurs, comme un examen de conduite avec trois parties différentes au lieu d'une seule.

1. Le Test de la « Carte Complète » (CRPS)
Au lieu de demander une seule devinette, nous demandons à l'ordinateur de dessiner la carte complète des possibilités.

Analogie : Au lieu de demander « Le trésor est-il au Nord ou au Sud ? », nous demandons : « Dessinez la carte de probabilité. »
Un bon modèle dessinera deux taches distinctes (une pour le Nord, une pour le Sud). Un mauvais modèle dessinera une grande tache au milieu. Ce test récompense les modèles qui admettent : « Je ne sais pas exactement lequel c'est, mais je sais que c'est l'un de ces deux-là. »

2. Le Test de la « Foule » (Fidélité du Spectre)
Nous examinons les résultats de 10 000 devinettes prises ensemble.

Analogie : Si vous demandez à 1 000 personnes de deviner où se trouve le trésor, et que 500 disent Nord et 500 disent Sud, vous obtenez une image parfaite des deux grottes. Si le modèle « moyenne » est utilisé, tout le monde dit « Milieu », et vous obtenez l'image d'une seule grotte factice.
Ce test vérifie si l'ensemble des devinettes ressemble au monde réel, et pas seulement si les devinettes individuelles sont proches.

3. Le Test de la « Confiance » (Calibration)
Nous vérifions si l'ordinateur est honnête sur sa certitude.

Analogie : Si une application météo annonce 90 % de chances de pluie, il devrait pleuvoir 90 % du temps. Si elle annonce 90 % mais qu'il ne pleut que 50 % du temps, l'application ment sur sa confiance.
Ce test garantit que l'ordinateur ne devine pas au hasard, mais qu'il est réellement confiant aux bons endroits.

Ce Qu'ils Ont Découvert

Les auteurs ont testé cette nouvelle méthode sur deux choses :

Un problème mathématique fictif où ils connaissaient la réponse exacte.
Un vrai problème de physique impliquant des quarks top (des particules minuscules) où deux neutrinos (particules fantômes) échappent à la détection, rendant les mathématiques très complexes.

Le Résultat Choquant :
Les modèles qui semblaient être les « gagnants » sous l'ancien test de la « Moyenne » (ceux qui donnaient la réponse unique, plate et centrale) étaient en réalité les pires pour préserver la forme réelle des données.

Les modèles qui donnaient les réponses « désordonnées » à deux taches (ceux qui semblaient pires sous l'ancien test) étaient en réalité les meilleurs pour dire la vérité.

L'Essentiel

L'article conclut que la façon dont vous mesurez le succès détermine ce que vous trouvez.

Si vous ne mesurez que « à quel point la devinette est proche de la vérité », vous construirez des modèles qui effacent les parties intéressantes et complexes de la réalité. Pour obtenir la bonne réponse scientifique, vous devez arrêter de demander un seul chiffre et commencer à demander l'histoire complète des possibilités.

En bref : Ne demandez pas seulement : « À quel point étiez-vous proche ? » Demandez : « Avez-vous raconté toute l'histoire ? »

Énoncé du problème

Dans la reconstruction scientifique (par exemple, physique des particules, imagerie médicale, géophysique), l'évaluation est actuellement dominée par des métriques ponctuelles telles que l'erreur quadratique moyenne (RMSE), l'erreur absolue moyenne (MAE) et la résolution par événement. Ces métriques fonctionnent sur l'hypothèse implicite qu'une erreur plus faible équivaut à une meilleure reconstruction.

Les auteurs soutiennent que cette hypothèse échoue structurellement pour les problèmes inverses sous-contraints où la postérieure conditionnelle $p(z|x)$ est multimodale. Dans de tels scénarios, le prédicteur optimal sous l'erreur quadratique moyenne (MSE) est l'espérance conditionnelle $E[z|x]$ . Pour les postérieures multimodales, cette espérance tombe souvent dans des régions de densité de probabilité nulle (entre les modes). Par conséquent, les modèles entraînés pour minimiser les erreurs ponctuelles produisent des prédictions individuellement « non physiques » et, lorsqu'elles sont agrégées, compriment systématiquement le spectre marginal de la variable latente $z$ . Cette compression déforme les queues, les modes et les formes des distributions, qui sont précisément les caractéristiques sur lesquelles reposent les mesures scientifiques en aval.

Fondement théorique

L'article établit un argument théorique basé sur la loi de la variance totale :
$\text{Var}[z] = E[\text{Var}[z|x]] + \text{Var}[E[z|x]]$
Les auteurs démontrent que pour tout estimateur ponctuel $f_\theta(x)$ convergeant vers la moyenne conditionnelle $E[z|x]$ , la variance des prédictions $\text{Var}[E[z|x]]$ est strictement inférieure ou égale à la vraie variance marginale $\text{Var}[z]$ , l'égalité n'étant valable que si la postérieure a une largeur nulle.

Implication : Les estimateurs ponctuels produisent intrinsèquement un spectre marginal plus étroit que la réalité. Il s'agit d'un biais, et non d'un terme de variance, ce qui signifie qu'il ne diminue pas avec la taille des ensembles de données.
Conséquence : Évaluer les modèles uniquement par des métriques ponctuelles récompense activement la suppression de la structure postérieure et pénalise les modèles qui la préservent, conduisant à des conclusions scientifiques biaisées.

Méthodologie : Un protocole d'évaluation en trois parties

Pour remédier à ces modes de défaillance, les auteurs proposent un protocole à trois métriques où chaque métrique cible une déficience spécifique manquée par les autres :

Précision distributionnelle par événement (CRPS) :
- Utilise le Continuous Ranked Probability Score (CRPS), une règle de score strictement propre.
- Contrairement au RMSE/MAE, le CRPS n'est minimisé que lorsque la distribution prédictive correspond à la vraie postérieure. Il pénalise l'« effondrement postérieur » (prédire un point unique dans un espace multimodal) plutôt que de le récompenser.
- Il se réduit au MAE pour les estimateurs ponctuels, permettant une comparaison équitable entre les modèles génératifs et les modèles de régression.
Fidélité du spectre au niveau de la population :
- Évalue la distribution marginale $p(z)$ sur l'ensemble du jeu de données, qui est la quantité d'intérêt pour la physique en aval.
- Utilise une statistique $\chi^2$ binnée comparant l'histogramme des valeurs prédites aux valeurs réelles.
- Cette métrique détecte la compression systématique des caractéristiques spectrales (queues et modes) que les métriques ponctuelles manquent.
Fiabilité de l'incertitude (Calibration) :
- Évalue si la largeur de la postérieure prédite est fiable en utilisant la prédiction conforme pour générer des courbes de couverture.
- Un modèle parfaitement calibré produit une courbe de couverture suivant la diagonale (la couverture empirique égale le niveau de confiance nominal).
- Cela distingue les modèles qui sont simplement nets (étroits) de ceux qui sont à la fois nets et calibrés.

Contributions clés

Preuve théorique : Démonstration que tout estimateur ponctuel minimisant le MSE ou le MAE produit un spectre marginal strictement plus étroit que la réalité dès que la postérieure a une variance non nulle, indépendamment de l'architecture ou de la taille du jeu de données.
Protocole d'évaluation : Introduction d'un protocole unifié (CRPS, Fidélité du spectre, Calibration) applicable aux familles de modèles de régression, de mélanges et génératifs.
Validation empirique : Démonstration que les classements des modèles s'inversent entre les métriques ponctuelles et distributionnelles sur des benchmarks synthétiques et réels.

Résultats expérimentaux

Benchmark I : Problème inverse synthétique

Configuration : Un problème contrôlé avec une postérieure bimodale analytiquement traitable ( $x = z^2 + \epsilon$ ).
Constats :
- Un MLP de régression standard a obtenu le RMSE le plus bas mais a effondré le spectre marginal en un pic à zéro (la moyenne conditionnelle), échouant à représenter la vérité bimodale.
- Les modèles génératifs (Flux de normalisation, Réseaux de densité de mélange) avaient un RMSE plus élevé mais ont atteint un CRPS et une fidélité spectrale quasi parfaits ( $\chi^2_{spec}$ proche des degrés de liberté).
- La moyenne des échantillons postérieurs du Flux de normalisation a récupéré le mauvais RMSE et la distorsion spectrale de la régression, confirmant que la régression est simplement la moyenne conditionnelle du Flux.

Benchmark II : Physique des particules (Reconstruction de quarks top)

Configuration : Reconstruction de paires de quarks top à partir de désintégrations dileptoniques (un problème inverse plusieurs-à-un avec ambiguïté combinatoire et neutrinos manquants).
Constats :
- Métriques ponctuelles : Un Transformer entraîné avec un MSE pur a obtenu le meilleur RMSE. Un Transformer avec régularisation MMD (Marginal Maximum Mean Discrepancy) s'est légèrement moins bien comporté.
- Métriques distributionnelles : Le classement s'est inversé. Un Flux de normalisation discret a dominé sur le CRPS et la fidélité spectrale. Les Transformers, même avec régularisation MMD, n'ont pas réussi à corriger la multimodalité par événement, résultant en de massives valeurs de $\chi^2_{spec}$ (ordres de grandeur pires que les flux).
- Calibration : Alors que le CRPS et la fidélité spectrale distinguaient les flux des transformers, la calibration distinguait les deux architectures de flux. Le Flux discret (vraisemblance exacte) était bien calibré, tandis que le Flux continu (vraisemblance approchée basée sur des EDO) sous-estimait systématiquement la couverture, une distinction invisible au seul CRPS.

Signification et revendications

L'article affirme que le protocole d'évaluation, et non le modèle, détermine la conclusion scientifique. En s'appuyant sur des métriques ponctuelles, la communauté scientifique a involontairement favorisé des modèles dont les spectres reconstruits ne peuvent soutenir les mesures en aval.

Désalignement structurel : Les auteurs affirment que les métriques ponctuelles sont structurellement désalignées par rapport aux objectifs de la reconstruction scientifique dans des contextes multimodaux.
Nécessité du protocole : Le protocole en trois étapes proposé est nécessaire pour révéler les distinctions entre des architectures qui semblent identiques sous les métriques standard (par exemple, distinguer les flux de vraisemblance exacts et approximatifs via la calibration).
Agnosticisme du domaine : Les résultats s'appliquent à tout problème inverse avec une variance postérieure non négligeable (par exemple, récupération de phase, inférence cosmologique), et pas seulement aux benchmarks spécifiques testés.

Les auteurs concluent qu'une évaluation rigoureuse utilisant ce protocole rend visible le biais de l'évaluation basée uniquement sur des métriques ponctuelles, fournissant aux praticiens une base de comparaison sur laquelle les conclusions scientifiques peuvent reposer. Ils notent que, bien que leurs résultats soient robustes, les valeurs de performance absolues sont spécifiques à leur configuration expérimentale, et que l'inversion du classement elle-même est le résultat robuste et généralisable.

Pointwise Metrics Mislead: An Evaluation Protocol for Multimodal Inverse Problems