Auteurs originaux : Manuel Haußmann, Ramon Winterhalder, Maria Ubiali

Publié 2026-05-12

📖 8 min de lecture🧠 Analyse approfondie

Auteurs originaux : Manuel Haußmann, Ramon Winterhalder, Maria Ubiali

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

La Grande Image : Pourquoi deviner ne suffit pas

Imaginez que vous soyez un physicien tentant de découvrir une nouvelle particule, ou un médecin utilisant une intelligence artificielle pour diagnostiquer une maladie. Dans les deux cas, obtenir la bonne réponse est important, mais savoir à quel point vous êtes sûr de cette réponse est encore plus critique.

Si une IA déclare : « Il y a 99 % de chances que ce soit une tumeur », alors qu'il ne s'agit en réalité que d'une ombre, c'est dangereux. Si un physicien affirme : « Nous avons trouvé une nouvelle particule », mais que ses mathématiques ne tiennent pas compte du « flou » de ses données, il pourrait se tromper.

Ce document est un guide pour les scientifiques et les chercheurs en IA. Il soutient que nous avons besoin d'un langage commun pour parler d'incertitude (le « flou » ou le « doute » dans les prédictions) et de règles strictes pour vérifier si cette incertitude est rapportée honnêtement.

1. Le Dictionnaire du Doute (Taxonomie)

Le document commence par souligner que les physiciens et les experts en IA utilisent souvent des mots différents pour les mêmes choses, ce qui crée de la confusion. Ils proposent un « dictionnaire » clair avec deux axes principaux pour trier l'incertitude :

Axe A : D'où vient le doute ? (Source)

Incertitude Statistique (Le « Bruit ») : Imaginez que vous essayez de deviner la taille moyenne des personnes dans une pièce en mesurant seulement trois individus. Votre estimation pourrait être fausse simplement parce que vous n'avez pas mesuré assez de personnes. C'est Statistique. Si vous mesurez 1 000 personnes, ce doute disparaît.
Incertitude Systématique (La « Règle Cassée ») : Imaginez que vous mesurez 1 000 personnes, mais que votre règle est en réalité d'un pouce trop courte. Peu importe le nombre de personnes que vous mesurez, votre réponse sera toujours fausse. C'est Systématique. Cela provient de mauvais outils ou de mauvaises hypothèses, et non d'un manque de données.

Axe B : Peut-on le corriger ? (Nature)

Incertitude Aléatoire (Le « Jet de Dés ») : Il s'agit d'un hasard inhérent à la nature. Pensez au lancer d'une pièce. Même si vous connaissez tout sur la pièce et celui qui la lance, vous ne pouvez pas prédire le prochain lancer. C'est irréductible. Vous ne pouvez pas corriger cela en obtenant plus de données ; c'est simplement ainsi que le monde fonctionne.
Incertitude Épistémique (La « Pièce de Puzzle Manquante ») : Il s'agit d'un doute causé par un manque de connaissances. Imaginez que vous essayez de résoudre un puzzle mais qu'il vous manque la moitié des pièces. Si vous obtenez plus de pièces (plus de données) ou une meilleure image de l'aspect du puzzle (une meilleure théorie), ce doute disparaît. C'est réductible.

L'Idée Maîtresse du Document : Ces catégories se chevauchent. Par exemple, une « règle cassée » (Systématique) pourrait être une « pièce de puzzle manquante » (Épistémique) si nous ne savons pas encore que la règle est cassée. Le document fournit un graphique pour aider à trier ces éléments afin que les scientifiques ne les confondent pas.

2. Deux Manières de Penser (Fréquentiste vs Bayésien)

Le document explique qu'il existe deux écoles de pensée principales sur la manière de gérer ces doutes :

Le Fréquentiste (Le « Joueur à Long Terme ») : Cette approche demande : « Si je répétais cette expérience 1 000 fois, à quelle fréquence ma réponse serait-elle correcte ? » Ils se concentrent sur la Couverture. S'ils disent « Je suis confiant à 95 % », cela signifie que dans 95 expériences sur 100 répétées, la vraie réponse se trouvera dans leur intervalle.
Le Bayésien (Le « Miseur de Croyance ») : Cette approche demande : « Étant donné ce que je savais avant et ce que je viens de voir, quelle est la probabilité que ma réponse soit correcte ? » Ils commencent par une « croyance a priori » (une hypothèse basée sur l'expérience passée) et la mettent à jour avec de nouvelles données pour créer un « postérieur » (la nouvelle croyance mise à jour).

Le document note que la physique des particules préfère généralement l'approche fréquentiste, tandis que la cosmologie préfère souvent l'approche bayésienne. Les deux sont valables, mais elles parlent des langages différents.

3. Le Test de Contrainte (Validation)

La partie la plus importante du document concerne la validation. Le fait qu'une IA disse qu'elle est confiante à 95 % ne signifie pas qu'elle est confiante à 95 %. Le document suggère trois façons de « tester la résistance » de ces prédictions d'IA :

Tests de Couverture (Le « Filet de Sécurité ») : Si une IA trace un filet de sécurité (un intervalle de prédiction) disant qu'elle attrapera la vraie réponse 95 % du temps, vous vérifiez le filet. Si vous laissez tomber 100 balles et que le filet n'en attrape que 80, l'IA ment (elle est trop confiante). Si elle en attrape 99, elle est trop prudente.
Tests de Biais (Le « Centre de Gravité ») : L'estimation la plus probable de l'IA est-elle systématiquement décalée vers la gauche ou vers la droite ? Imaginez une cible. Si les fléchettes de l'IA sont toutes regroupées étroitement mais à 2 pouces à gauche du centre, elle a un biais. Elle est précise, mais pas exacte.
Règles de Notation (Le « Bulletin de Notes ») : Au lieu de vérifier simplement si l'IA avait raison ou tort, cela attribue une note à l'IA en fonction de la façon dont sa carte de probabilité complète correspond à la réalité. Cela récompense l'IA pour son honnêteté concernant son incertitude. Si l'IA dit « J'ai 50/50 » et que c'est effectivement 50/50, elle obtient une bonne note. Si elle dit « Je suis sûr à 100 % » et qu'elle se trompe, elle obtient une note terrible.

4. Les Exemples « Jouets » (Ce qui se passe dans le monde réel ?)

Les auteurs ont testé ces idées sur des problèmes mathématiques simples (régression et classification) pour observer le comportement de différentes méthodes d'IA.

La « Zone Sûre » (Interpolation) : Lorsque l'IA est invitée à prédire quelque chose de similaire à ce qu'elle a déjà vu (comme prédire la météo en juillet en se basant sur des données de juillet), presque toutes les méthodes fonctionnent bien. Elles donnent toutes des réponses similaires et des niveaux de confiance similaires.
La « Zone Dangereuse » (Extrapolation) : Lorsque l'IA est invitée à prédire quelque chose qu'elle n'a jamais vu (comme prédire la météo en juillet en se basant uniquement sur des données de janvier), les choses se compliquent.
- La Leçon : Dans la zone dangereuse, la confiance de l'IA ne repose plus sur des données ; elle repose sur des hypothèses.
- L'Analogie : Imaginez une carte d'une ville. Si vous demandez à l'IA de vous dire le nom de la rue d'une maison que vous n'avez jamais vue, mais qui se trouve sur une route que vous connaissez, elle peut deviner. Mais si vous lui demandez le nom de la rue d'une maison dans un pays complètement différent, elle doit deviner en se basant sur ce qu'elle pense que les villes ressemblent.
- Le Résultat : Le document a constaté que dans ces zones « inconnues », différentes méthodes d'IA donnent des réponses et des niveaux de confiance radicalement différents. Aucune d'entre elles n'était parfaitement fiable. L'incertitude qu'elles rapportaient reflétait principalement leur « personnalité » interne (leurs hypothèses mathématiques) plutôt qu'une connaissance réelle.

Résumé

Ce document est un appel à la clarté et à l'honnêteté en science.

Arrêtez de mélanger les mots : Soyez clair sur le fait que votre doute provient du bruit (aléatoire) ou de l'ignorance (manque de données).
Vérifiez votre travail : Ne faites pas confiance aveuglément au chiffre de l'IA. Utilisez des « tests de couverture » et des « tests de biais » pour voir si l'IA dit vraiment la vérité sur sa confiance.
Méfiez-vous de l'inconnu : Lorsque l'IA est invitée à deviner des choses qu'elle n'a pas vues, sa confiance est une hypothèse, pas un fait. Les scientifiques doivent traiter ces résultats d'« extrapolation » avec une extrême prudence.

L'objectif ultime est de s'assurer que lorsque l'IA aide à faire des découvertes scientifiques, nous savons exactement dans quelle mesure nous pouvons faire confiance au résultat.

Résumé technique : Incertitude en physique et en IA : Taxonomie, quantification et validation

Énoncé du problème

L'intégration de l'apprentissage automatique (ML) en physique nécessite une quantification fiable de l'incertitude (UQ) pour garantir la validité statistique des conclusions scientifiques. Bien que les estimations d'incertitude soient indispensables en physique pour déterminer la crédibilité des mesures, combiner des résultats et établir des seuils de découverte, leur application en ML manque souvent d'une interprétation statistique unifiée. La terminologie est incohérente entre les communautés : les physiciens distinguent traditionnellement les incertitudes statistiques et systématiques, tandis que la littérature statistique et en ML utilise souvent les distinctions aléatoire (données) et épistémique (modèle). Ces vocabulaires se chevauchent mais ne sont pas synonymes, ce qui entraîne une confusion potentielle concernant la réductibilité et la source de l'incertitude. De plus, les méthodes modernes de ML pour l'UQ varient considérablement dans leur fondement théorique, allant de celles offrant des garanties à échantillon fini (par exemple, la prédiction conforme) à celles reposant sur une validation empirique (par exemple, les ensembles profonds). Il existe un besoin critique d'un cadre structuré pour clarifier ces concepts, distinguer l'incertitude d'inférence de l'incertitude prédictive, et fournir des outils fondés sur des principes pour la validation.

Méthodologie

L'article établit un aperçu structuré de l'UQ à travers trois piliers méthodologiques principaux :

Cadre taxonomique : Les auteurs proposent une taxonomie unifiée basée sur trois dimensions :
- Source : Statistique (fluctuations de données finies) vs Systématique (modélisation imparfaite/hypothèses).
- Nature : Aléatoire (aléatoire irréductible dans la génération de données) vs Épistémique (incertitude due au manque de connaissances, réductible par plus de données ou de meilleurs modèles).
- Objet : Incertitude d'inférence (sur les paramètres $\theta$ ) vs Incertitude prédictive (sur les observables futurs $y^*$ ).
  L'article clarifie que statistique/systématique classifient les sources, tandis qu'aléatoire/épistémique classifient la nature. Il décompose explicitement l'incertitude épistémique en variabilité d'entraînement, variabilité des données, biais du modèle et dérive de domaine.
Perspectives statistiques : L'article oppose les cadres Frequentiste et Bayésien.
- Frequentiste : Se concentre sur les garanties à long terme (par exemple, intervalles de confiance, prédiction conforme) où les données sont aléatoires et les paramètres fixes.
- Bayésien : Se concentre sur la modélisation probabiliste des paramètres (distributions a posteriori) et des distributions prédictives via la marginalisation.
- Le texte discute des ponts entre ces deux approches, tels que le théorème de Bernstein–von Mises et les approches Généralisées/Post-Bayésiennes (par exemple, Inférence Variationnelle Généralisée) qui découplent les objectifs d'inférence des hypothèses de vraisemblance strictes.
Validation et diagnostics : Les auteurs détaillent des outils statistiques spécifiques pour valider l'UQ :
- Tests de couverture : Évaluer si les régions prédictives contiennent les véritables résultats avec la fréquence annoncée (marginale vs conditionnelle).
- Calibration : Mesurer l'alignement entre les probabilités prédites et les fréquences observées (par exemple, erreur de calibration attendue, diagrammes de fiabilité).
- Tests de biais : Diagnostiquer les décalages systématiques dans les estimations centrales à l'aide de distributions de tirage et de résidus normalisés.
- Règles de score appropriées : Évaluer la fidélité globale des distributions prédictives (par exemple, score de Brier, log-vraisemblance négative) pour inciter à des prédictions probabilistes honnêtes.
Illustrations empiriques : L'article implémente et compare cinq méthodes d'UQ sur des tâches de régression et de classification contrôlées :
- Méthodes : Processus Gaussiens (GP), Prédiction Conforme (CP), Réseaux de Neurones Bayésiens (BNN) via Inférence Variationnelle (VI) et Monte Carlo Hamiltonien (HMC), Ensembles Répulsifs (RE), et Apprentissage Profond Évidentiel (EDL).
- Tâches : Un problème de régression 1D (testant l'interpolation vs l'extrapolation) et un problème de classification binaire (jeu de données deux lunes avec un carré central supprimé).

Contributions clés

Taxonomie unifiée : L'article fournit une classification multidimensionnelle claire de l'incertitude qui réconcilie le langage « statistique/systématique » de la physique avec le langage « aléatoire/épistémique » du ML, en cartographiant explicitement leurs intersections (par exemple, Tableau 1).
Distinction des objets : Il sépare rigoureusement l'incertitude d'inférence (paramètres) de l'incertitude prédictive (observables), clarifiant que les critères de validation (comme la couverture) diffèrent considérablement entre les deux.
Boîte à outils de validation : Il consolide un ensemble d'outils de diagnostic fondés sur des principes (couverture, calibration, biais, règles de score) nécessaires pour évaluer si les déclarations d'incertitude basées sur le ML sont dignes de confiance dans les flux de travail scientifiques.
Comparaison méthodologique : Grâce à des exemples traités, l'article démontre comment différentes hypothèses de modélisation (biais inductifs) conduisent à des estimations d'incertitude divergentes, en particulier dans les régimes d'extrapolation où les données sont rares.

Résultats

Les exemples empiriques produisent plusieurs constatations critiques :

Interpolation vs Extrapolation : Dans les régions d'interpolation riches en données, différentes méthodes d'UQ (GP, BNN, Ensembles, CP) produisent une précision et des bandes d'incertitude comparables. Cependant, dans les régions d'extrapolation (en dehors du domaine d'entraînement), les méthodes divergent considérablement. Leur comportement est régi par des biais inductifs (par exemple, choix du noyau dans les GP, architecture dans les réseaux de neurones) plutôt que par des contraintes de données.
Échec de la calibration en extrapolation : Les diagnostics de validation (courbes de calibration et distributions de tirage) révèlent que, bien que les méthodes puissent être bien calibrées dans le domaine d'entraînement, aucune ne maintient une couverture nominale ou des distributions de tirage de largeur unitaire lorsqu'elles sont contraintes d'extrapoler. Les estimations d'incertitude dans ces régions reflètent des hypothèses a priori plutôt que des contraintes statistiques.
Performance de classification : Dans la tâche de classification binaire, les méthodes effectuant une inférence a posteriori (HMC, VI, Ensembles) surpassent généralement les bases déterministes en termes de calibration (score de Brier et ECE plus faibles). Les ensembles répulsifs ont montré une calibration améliorée par rapport aux ensembles naïfs en couvrant mieux l'a posteriori.
Limites d'approximation : Bien que le HMC serve de « référence », la VI à champ moyen et autres approximations peuvent performer de manière comparable dans des scénarios simples et unimodaux. Cependant, l'article note que pour des a posteriori complexes (multimodaux, à queues lourdes), le choix de l'approximation devient critique.

Importance et affirmations

L'article se positionne comme une contribution fondamentale à l'initiative VERaiPHY, visant à établir des normes de vérification et de validation pour le ML en physique. Son importance réside dans :

Clarté conceptuelle : Il comble les lacunes terminologiques entre les communautés de physique, de statistiques et de ML, fournissant un langage commun pour discuter de l'incertitude.
Conseils pratiques : Il souligne que la validité de l'UQ n'est pas garantie par la dérivation formelle d'une méthode mais doit être validée empiriquement à l'aide de diagnostics spécifiques.
Attentes réalistes : Les auteurs affirment modestement que, bien que des méthodes d'UQ évolutives existent, la question ouverte la plus critique est leur robustesse face à des hypothèses non idéales (mauvaise spécification du modèle, dérive de distribution). Ils soutiennent que dans les régimes d'extrapolation, l'incertitude dépend fondamentalement des hypothèses de modélisation, nécessitant une interprétation prudente plutôt qu'une confiance aveugle dans les sorties algorithmiques.
Intégration dans le pipeline : L'article affirme que l'UQ robuste n'est pas un ajout optionnel mais un composant structurel du pipeline complet d'inférence scientifique, essentiel pour des tâches en aval comme le dépliement, l'estimation de paramètres et les ajustements globaux.

L'ouvrage conclut qu'une utilisation scientifique digne de confiance du ML exige de rendre explicites et testables à chaque étape du pipeline les hypothèses de modélisation, les procédures d'inférence et les diagnostics de validation.

Uncertainty in Physics and AI: Taxonomy, Quantification, and Validation