Bayes, E-values and Testing

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes le gardien d'un pont très important. Votre travail consiste à surveiller le trafic (les données) qui passe en continu. Parfois, le pont est stable, mais parfois, il commence à grincer ou à trembler (le modèle devient mauvais).

Le problème classique, c'est que si vous décidez d'arrêter la surveillance à un moment précis parce que vous avez "vu quelque chose", vous risquez de vous tromper. C'est comme si vous regardiez un jeu de dés et arrêtiez de compter dès que vous voyiez un 6, en pensant que le joueur triche, alors que c'était juste de la chance. En statistiques classiques, cette liberté d'arrêter quand on veut fausse les résultats.

Ce papier propose une nouvelle façon de faire, un peu comme si vous donniez à chaque gardien un compteur de preuves spécial qui ne peut jamais tricher, peu importe quand il décide d'arrêter de compter.

Voici les idées principales, expliquées simplement :

1. Les trois couches du système (Le "Type" de la preuve)

Les auteurs disent que pour bien surveiller un système, il faut séparer trois choses qui sont souvent mélangées :

La Représentation (Le Moteur) : C'est la façon dont on calcule la preuve. Imaginez que vous avez deux cartes : une carte "Système Normal" et une carte "Système Défectueux". À chaque nouvelle voiture qui passe, vous comparez la probabilité qu'elle soit sur l'une ou l'autre carte. Si vous faites bien les calculs (en utilisant un outil mathématique appelé "rapport de vraisemblance"), vous obtenez un score qui grandit quand le système va mal. C'est le seul moyen mathématiquement optimal de le faire si vous voulez minimiser les erreurs.
La Validité (Le Bouclier) : C'est la garantie que votre compteur ne va pas exploser par hasard. Même si le système est parfait, votre compteur peut monter un peu par hasard. Mais grâce à une règle mathématique (l'inégalité de Ville), on sait que si le système est parfait, la chance que votre compteur dépasse un certain seuil (par exemple 20) est inférieure à 1 sur 20, peu importe quand vous décidez de regarder. C'est comme un bouclier qui protège contre les fausses alarmes, même si vous regardez toutes les 5 minutes.
La Décision (Le Frein) : C'est le moment où vous dites "Stop !". Quand le compteur atteint un certain niveau (disons 20), vous arrêtez le trafic pour vérifier. Les auteurs montrent que si vous utilisez le bon "moteur" (la couche 1), vous atteindrez ce seuil beaucoup plus vite et plus efficacement que si vous utilisiez n'importe quel compteur au hasard.

2. Le piège des "Codes" (L'histoire du NML)

Il y a une idée populaire en informatique : utiliser des méthodes de compression de données (comme le code NML) pour détecter des anomalies. L'idée est : "Si on ne peut pas compresser les données, c'est qu'il y a quelque chose d'étrange".

Les auteurs disent : Attention !
Ces méthodes de compression sont excellentes pour stocker des données une fois pour toutes (comme faire un zip sur un disque dur). Mais elles échouent complètement si vous essayez de les utiliser en temps réel, pas à pas.

L'analogie : Imaginez un codeur qui dit : "Pour compresser ce fichier de 100 pages, j'ai besoin de connaître la page 100 pour écrire le résumé de la page 1". C'est impossible en temps réel !
Le résultat : Si vous utilisez ces codes comme compteur de preuves en direct, votre "bouclier" (la validité) se brise. Vous aurez beaucoup trop de fausses alarmes. Il faut utiliser une autre méthode (les "codes préquentiels") qui s'adapte au fur et à mesure, comme un joueur qui apprend de ses erreurs à chaque tour.

3. Pourquoi tout cela est important pour l'IA ?

Aujourd'hui, les systèmes d'intelligence artificielle (comme ceux qui recommandent des vidéos ou diagnostiquent des maladies) tournent 24h/24. Ils changent, ils apprennent, et on ne peut pas les arrêter pour les tester.

Avant : On attendait d'avoir assez de données pour faire un test, puis on arrêtait. Si on arrêtait trop tôt, c'était invalide.
Maintenant (avec ce papier) : On peut surveiller l'IA en continu. On peut arrêter le système dès qu'il commence à faire des erreurs, sans avoir peur d'avoir été trompé par le hasard.

En résumé

Ce papier est comme un manuel d'instructions pour construire un système d'alarme infaillible pour l'IA.

Il vous dit quel calcul utiliser pour que l'alarme soit la plus rapide possible (le rapport de vraisemblance).
Il vous garantit que l'alarme ne sonnera pas tout le temps pour rien, même si vous la regardez tout le temps.
Il vous met en garde contre certaines méthodes de compression de données qui semblent intelligentes mais qui cassent l'alarme si on les utilise en direct.

C'est une façon de dire aux ingénieurs : "Ne mélangez pas vos outils. Séparez ce que vous calculez, ce qui est garanti, et quand vous décidez d'agir, et vous aurez un système robuste et sûr."

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "Bayes, E-values, and Testing" de Nicholas G. Polson, Vadim Sokolov et Daniel Zantedeschi.

1. Problématique et Contexte

Les systèmes d'apprentissage automatique déployés génèrent des données de manière continue (séries temporelles, tests A/B adaptatifs, prédiction conformelle). Dans ce contexte, l'inférence classique basée sur des échantillons fixes (valeurs-p, intervalles de confiance) perd ses garanties d'erreur lorsqu'elle est soumise à des règles d'arrêt optionnelles (optional stopping), c'est-à-dire lorsque l'arrêt de l'expérience dépend des données observées jusqu'alors.

Les E-values et les E-processus (supermartingales non négatives d'espérance initiale unitaire) offrent une solution théorique via l'inégalité de Ville, garantissant un contrôle du risque de Type I valide à tout moment (anytime-valid). Cependant, la littérature actuelle tend à confondre trois aspects distincts :

La représentation de la preuve (rapport de vraisemblance, score de pari, longueur de code).
La validité (propriété de supermartingale sous l'hypothèse nulle).
La décision (choix du seuil d'arrêt et efficacité statistique).

Cette confusion conduit à des erreurs pratiques : une fonction de longueur de code peut ressembler à une E-value sans en être une, et un E-processus valide peut avoir une puissance statistique nulle si son seuil est mal calibré.

2. Méthodologie : Le Cadre Typé (Typed Framework)

Les auteurs proposent un cadre formel qui décompose l'évidence séquentielle en trois couches logiquement distinctes, séparant ainsi la structure mathématique de son utilisation :

Couche de Représentation (Representation Layer) :
- Définit la géométrie de l'évidence via la dérivée de Radon-Nikodým ( $dQ/dP$ ) et la géométrie de la perte logarithmique (log-loss).
- Identifie le rapport de vraisemblance (Likelihood Ratio - LR) comme la représentation canonique sous des hypothèses de prédiction cohérente.
Couche de Validité (Validity Layer) :
- Se concentre sur la propriété de supermartingale sous l'hypothèse nulle $H_0$ .
- Garantit le contrôle de l'erreur via l'inégalité de Ville, indépendamment de la règle d'arrêt.
- Définit l'algèbre des classes d'E-processus (convexité, mélanges, arrêts optionnels).
Couche de Décision (Decision Layer) :
- Gère le choix du seuil d'arrêt ( $\tau_b$ ) et l'efficacité de la détection.
- Utilise des théorèmes de déviation modérée pour caractériser la vitesse de croissance de l'évidence et le temps d'arrêt attendu.

L'interface entre ces couches est cruciale : l'optimalité à une couche ne garantit pas l'optimalité à une autre.

3. Contributions Clés et Résultats Théoriques

L'article établit six résultats majeurs :

A. Canonicalité sous Perte Logarithmique (Théorème 3.1)

Sous l'hypothèse de prédiction cohérente et de minimisation du risque de Bayes avec une perte logarithmique (log-loss), le rapport de vraisemblance est la représentation unique de l'évidence.

Tout E-processus dérivé d'une prédiction cohérente et minimisant le risque de Bayes est un processus de rapport de vraisemblance.
Les constructions générales d'E-processus sont valides mais ne récupèrent pas nécessairement cette région de rejet optimale.

B. Efficacité des Seuils et Déviation Modérée (Théorème 5.4, Proposition 5.9)

Les auteurs quantifient l'écart d'efficacité entre les seuils basés uniquement sur la validité (bornes de Markov/Ville) et ceux basés sur la structure du rapport de vraisemblance.

Pour un rapport de vraisemblance, le temps d'arrêt attendu $\tau_b$ sous l'alternative suit : $E_1[\tau_b] = \frac{\log b}{\mu} + O(\sqrt{\log b})$ , où $\mu = D_{KL}(P_1 \| P_0)$ .
Les E-processus valides mais sans structure de rapport de vraisemblance n'admettent aucune garantie de taux de croissance exponentielle. Ils sont confinés à une échelle de calibration polynomiale ($1/b$) et peuvent avoir un temps de détection arbitrairement long.

C. Obstruction Computationnelle : Codes vs. E-values (Proposition 6.1)

C'est un résultat fondamental sur la compatibilité entre l'apprentissage automatique et l'inférence séquentielle.

Les codes optimaux en regret (comme les codes NML ou MDL) ne génèrent pas généralement de E-processus valides.
Raison : La constante de normalisation des codes NML dépend de la taille totale de l'échantillon $n$ , violant la factorisation séquentielle requise pour la propriété de supermartingale à chaque pas de temps.
Solution : Seuls les codes préquentiels (basés sur des prédictions séquentielles comme le MLE préquentiel) préservent la structure de supermartingale et garantissent la validité anytime.

D. Algèbre de la Classe d'Évidence (Théorème 4.2)

La classe des E-processus forme un ensemble convexe maximal fermé sous :

Les mélanges convexes et bayésiens.
L'arrêt optionnel prévisible.
Le "stitching" (assemblage) de processus sur différentes phases expérimentales.
Cela permet de construire des preuves modulaires pour des pipelines complexes sans perdre le contrôle de l'erreur.

E. Unicité de la Règle de Scoring (Proposition 7.2)

Parmi toutes les règles de scoring strictement propres, la perte logarithmique (log-loss) est la seule dont les ratios d'évidence induits forment des martingales (et non de simples supermartingales strictes qui s'effondrent vers zéro). Les autres scores (ex: Brier score) ne sont pas naturellement alignés avec la structure multiplicative des E-values.

F. Conformal E-Prediction (Proposition 8.3)

Sous l'hypothèse d'échangeabilité, les E-values basées sur la non-conformité fournissent des garanties de couverture valides à tout moment pour la prédiction séquentielle, reliant le cadre typé à l'apprentissage en ligne sans distribution.

4. Résultats Expérimentaux

Des expériences Monte Carlo sur des données Bernoulli valident les prédictions théoriques :

Vitesse de détection : Les processus LR atteignent les seuils de rejet beaucoup plus rapidement (taux logarithmique) que les méthodes de calibration pure.
Contrôle du Type I : Sous arrêt optionnel agressif, le processus LR maintient un taux de fausse alarme proche de la borne théorique (ex: 4.2% pour une cible de 5%), tandis que les ratios basés sur des ajustements ML non normalisés (violant la propriété de supermartingale) explosent (22.5% de fausses alarmes).
Sensibilité à la spécification : Si le modèle alternatif est mal spécifié, l'évidence peut dériver vers l'hypothèse nulle, illustrant le risque de choisir une alternative inadaptée.

5. Signification et Implications

Ce travail a des implications profondes pour la pratique du Machine Learning et de la statistique :

Architecture de Déploiement : Le cadre typé fournit une architecture logicielle pour la surveillance de modèles en production. Il sépare clairement la spécification du modèle (représentation), la certification de validité (supermartingale) et le seuil d'alerte (décision).
Limites du MDL/Code : Il avertit les praticiens contre l'utilisation directe de critères de sélection de modèles basés sur la longueur de description (MDL/NML) comme preuves séquentielles, car ils violent la validité anytime. Il faut utiliser des prédicteurs préquentiels.
Optimisation des Tests Séquentiels : Il démontre que pour obtenir une efficacité statistique optimale (temps de détection minimal), il est impératif d'utiliser la structure du rapport de vraisemblance plutôt que des bornes de validité génériques.
Lien PAC-Bayes : Le cadre unifie les bornes PAC-Bayes avec les E-processus, montrant que les termes de régularisation KL dans les bornes PAC-Bayes émergent naturellement de la structure de mélange bayésien des E-processus.

En résumé, l'article fournit une fondation théorique rigoureuse pour l'inférence séquentielle, clarifiant les conditions nécessaires pour que des outils computationnels (comme les codes de compression) puissent être utilisés comme preuves statistiques valides en temps réel.