Uncertainty in Physics and AI: Taxonomy, Quantification, and Validation

Cet article présente une taxonomie unifiée et une vue d'ensemble structurée de la quantification de l'incertitude en apprentissage automatique pour la physique, clarifiant les interprétations à travers les cadres statistiques et décrivant des outils de validation rigoureux pour garantir des énoncés probabilistes fiables au service de la découverte scientifique.

Auteurs originaux : Manuel Haußmann, Ramon Winterhalder, Maria Ubiali

Publié 2026-05-12
📖 8 min de lecture🧠 Analyse approfondie

Auteurs originaux : Manuel Haußmann, Ramon Winterhalder, Maria Ubiali

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

La Grande Image : Pourquoi deviner ne suffit pas

Imaginez que vous soyez un physicien tentant de découvrir une nouvelle particule, ou un médecin utilisant une intelligence artificielle pour diagnostiquer une maladie. Dans les deux cas, obtenir la bonne réponse est important, mais savoir à quel point vous êtes sûr de cette réponse est encore plus critique.

Si une IA déclare : « Il y a 99 % de chances que ce soit une tumeur », alors qu'il ne s'agit en réalité que d'une ombre, c'est dangereux. Si un physicien affirme : « Nous avons trouvé une nouvelle particule », mais que ses mathématiques ne tiennent pas compte du « flou » de ses données, il pourrait se tromper.

Ce document est un guide pour les scientifiques et les chercheurs en IA. Il soutient que nous avons besoin d'un langage commun pour parler d'incertitude (le « flou » ou le « doute » dans les prédictions) et de règles strictes pour vérifier si cette incertitude est rapportée honnêtement.


1. Le Dictionnaire du Doute (Taxonomie)

Le document commence par souligner que les physiciens et les experts en IA utilisent souvent des mots différents pour les mêmes choses, ce qui crée de la confusion. Ils proposent un « dictionnaire » clair avec deux axes principaux pour trier l'incertitude :

Axe A : D'où vient le doute ? (Source)

  • Incertitude Statistique (Le « Bruit ») : Imaginez que vous essayez de deviner la taille moyenne des personnes dans une pièce en mesurant seulement trois individus. Votre estimation pourrait être fausse simplement parce que vous n'avez pas mesuré assez de personnes. C'est Statistique. Si vous mesurez 1 000 personnes, ce doute disparaît.
  • Incertitude Systématique (La « Règle Cassée ») : Imaginez que vous mesurez 1 000 personnes, mais que votre règle est en réalité d'un pouce trop courte. Peu importe le nombre de personnes que vous mesurez, votre réponse sera toujours fausse. C'est Systématique. Cela provient de mauvais outils ou de mauvaises hypothèses, et non d'un manque de données.

Axe B : Peut-on le corriger ? (Nature)

  • Incertitude Aléatoire (Le « Jet de Dés ») : Il s'agit d'un hasard inhérent à la nature. Pensez au lancer d'une pièce. Même si vous connaissez tout sur la pièce et celui qui la lance, vous ne pouvez pas prédire le prochain lancer. C'est irréductible. Vous ne pouvez pas corriger cela en obtenant plus de données ; c'est simplement ainsi que le monde fonctionne.
  • Incertitude Épistémique (La « Pièce de Puzzle Manquante ») : Il s'agit d'un doute causé par un manque de connaissances. Imaginez que vous essayez de résoudre un puzzle mais qu'il vous manque la moitié des pièces. Si vous obtenez plus de pièces (plus de données) ou une meilleure image de l'aspect du puzzle (une meilleure théorie), ce doute disparaît. C'est réductible.

L'Idée Maîtresse du Document : Ces catégories se chevauchent. Par exemple, une « règle cassée » (Systématique) pourrait être une « pièce de puzzle manquante » (Épistémique) si nous ne savons pas encore que la règle est cassée. Le document fournit un graphique pour aider à trier ces éléments afin que les scientifiques ne les confondent pas.


2. Deux Manières de Penser (Fréquentiste vs Bayésien)

Le document explique qu'il existe deux écoles de pensée principales sur la manière de gérer ces doutes :

  • Le Fréquentiste (Le « Joueur à Long Terme ») : Cette approche demande : « Si je répétais cette expérience 1 000 fois, à quelle fréquence ma réponse serait-elle correcte ? » Ils se concentrent sur la Couverture. S'ils disent « Je suis confiant à 95 % », cela signifie que dans 95 expériences sur 100 répétées, la vraie réponse se trouvera dans leur intervalle.
  • Le Bayésien (Le « Miseur de Croyance ») : Cette approche demande : « Étant donné ce que je savais avant et ce que je viens de voir, quelle est la probabilité que ma réponse soit correcte ? » Ils commencent par une « croyance a priori » (une hypothèse basée sur l'expérience passée) et la mettent à jour avec de nouvelles données pour créer un « postérieur » (la nouvelle croyance mise à jour).

Le document note que la physique des particules préfère généralement l'approche fréquentiste, tandis que la cosmologie préfère souvent l'approche bayésienne. Les deux sont valables, mais elles parlent des langages différents.


3. Le Test de Contrainte (Validation)

La partie la plus importante du document concerne la validation. Le fait qu'une IA disse qu'elle est confiante à 95 % ne signifie pas qu'elle est confiante à 95 %. Le document suggère trois façons de « tester la résistance » de ces prédictions d'IA :

  • Tests de Couverture (Le « Filet de Sécurité ») : Si une IA trace un filet de sécurité (un intervalle de prédiction) disant qu'elle attrapera la vraie réponse 95 % du temps, vous vérifiez le filet. Si vous laissez tomber 100 balles et que le filet n'en attrape que 80, l'IA ment (elle est trop confiante). Si elle en attrape 99, elle est trop prudente.
  • Tests de Biais (Le « Centre de Gravité ») : L'estimation la plus probable de l'IA est-elle systématiquement décalée vers la gauche ou vers la droite ? Imaginez une cible. Si les fléchettes de l'IA sont toutes regroupées étroitement mais à 2 pouces à gauche du centre, elle a un biais. Elle est précise, mais pas exacte.
  • Règles de Notation (Le « Bulletin de Notes ») : Au lieu de vérifier simplement si l'IA avait raison ou tort, cela attribue une note à l'IA en fonction de la façon dont sa carte de probabilité complète correspond à la réalité. Cela récompense l'IA pour son honnêteté concernant son incertitude. Si l'IA dit « J'ai 50/50 » et que c'est effectivement 50/50, elle obtient une bonne note. Si elle dit « Je suis sûr à 100 % » et qu'elle se trompe, elle obtient une note terrible.

4. Les Exemples « Jouets » (Ce qui se passe dans le monde réel ?)

Les auteurs ont testé ces idées sur des problèmes mathématiques simples (régression et classification) pour observer le comportement de différentes méthodes d'IA.

  • La « Zone Sûre » (Interpolation) : Lorsque l'IA est invitée à prédire quelque chose de similaire à ce qu'elle a déjà vu (comme prédire la météo en juillet en se basant sur des données de juillet), presque toutes les méthodes fonctionnent bien. Elles donnent toutes des réponses similaires et des niveaux de confiance similaires.
  • La « Zone Dangereuse » (Extrapolation) : Lorsque l'IA est invitée à prédire quelque chose qu'elle n'a jamais vu (comme prédire la météo en juillet en se basant uniquement sur des données de janvier), les choses se compliquent.
    • La Leçon : Dans la zone dangereuse, la confiance de l'IA ne repose plus sur des données ; elle repose sur des hypothèses.
    • L'Analogie : Imaginez une carte d'une ville. Si vous demandez à l'IA de vous dire le nom de la rue d'une maison que vous n'avez jamais vue, mais qui se trouve sur une route que vous connaissez, elle peut deviner. Mais si vous lui demandez le nom de la rue d'une maison dans un pays complètement différent, elle doit deviner en se basant sur ce qu'elle pense que les villes ressemblent.
    • Le Résultat : Le document a constaté que dans ces zones « inconnues », différentes méthodes d'IA donnent des réponses et des niveaux de confiance radicalement différents. Aucune d'entre elles n'était parfaitement fiable. L'incertitude qu'elles rapportaient reflétait principalement leur « personnalité » interne (leurs hypothèses mathématiques) plutôt qu'une connaissance réelle.

Résumé

Ce document est un appel à la clarté et à l'honnêteté en science.

  1. Arrêtez de mélanger les mots : Soyez clair sur le fait que votre doute provient du bruit (aléatoire) ou de l'ignorance (manque de données).
  2. Vérifiez votre travail : Ne faites pas confiance aveuglément au chiffre de l'IA. Utilisez des « tests de couverture » et des « tests de biais » pour voir si l'IA dit vraiment la vérité sur sa confiance.
  3. Méfiez-vous de l'inconnu : Lorsque l'IA est invitée à deviner des choses qu'elle n'a pas vues, sa confiance est une hypothèse, pas un fait. Les scientifiques doivent traiter ces résultats d'« extrapolation » avec une extrême prudence.

L'objectif ultime est de s'assurer que lorsque l'IA aide à faire des découvertes scientifiques, nous savons exactement dans quelle mesure nous pouvons faire confiance au résultat.

Noyé(e) sous les articles dans votre domaine ?

Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.

Essayer Digest →