Anomaly detection using surprisals

Ce papier propose un cadre unifié pour la détection d'anomalies basé sur les surprisales, qui réduit le problème complexe à l'estimation de la queue d'une distribution univariée et offre des garanties statistiques robustes même en cas de mauvaise spécification du modèle.

Rob J Hyndman, David T. Frazier

Publié Wed, 11 Ma
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Détecter l'Inattendu : Une nouvelle méthode pour repérer les anomalies

Imaginez que vous êtes un gardien de zoo. Votre travail consiste à surveiller des milliers d'animaux. La plupart se comportent de manière prévisible : les lions dorment, les singes sautent, les girafes mangent des feuilles. Mais soudain, vous voyez un lion qui essaie de voler un singe, ou un singe qui fait du yoga sur une branche. C'est une anomalie.

Le problème, c'est que les méthodes traditionnelles pour détecter ces anomalies sont souvent comme des règles rigides : "Si l'animal mesure plus de 2 mètres, c'est bizarre" ou "Si l'animal est rouge, c'est suspect". Ces règles fonctionnent mal si l'animal est un peu plus grand que la moyenne mais pas énorme, ou s'il est d'une couleur inhabituelle mais pas rouge.

Les auteurs de ce papier, Rob Hyndman et David Frazier, proposent une nouvelle approche basée sur un concept fascinant : la "Surprise" (ou Surprisal).

1. Le concept de "Surprise" : Mesurer l'étonnement

Au lieu de mesurer la taille ou la couleur, cette méthode demande une seule question à chaque observation : "À quel point cela est-il surprenant ?"

  • L'analogie du livre de cuisine : Imaginez que vous avez un livre de cuisine très fiable qui vous dit ce que les gens cuisinent d'habitude.
    • Si vous voyez quelqu'un faire une omelette, ce n'est pas surprenant (probabilité élevée, "surprise" faible).
    • Si vous voyez quelqu'un faire une omelette avec des bananes, c'est un peu surprenant.
    • Si vous voyez quelqu'un faire une omelette avec des pneus de voiture, c'est extrêmement surprenant (probabilité très faible, "surprise" élevée).

Dans ce papier, ils calculent mathématiquement ce niveau de "surprise" pour chaque donnée. Plus la "surprise" est grande, plus l'observation est potentiellement une anomalie.

2. Le problème : Et si notre livre de cuisine est faux ?

Le défi, c'est que nous ne connaissons jamais la "vérité" absolue. Nous utilisons un modèle (notre livre de cuisine) qui peut être imparfait.

  • Si notre modèle dit que les gens ne mangent jamais de bananes, mais qu'en réalité, ils en mangent souvent, notre modèle est faux.
  • Les anciennes méthodes échouent souvent ici : si votre modèle est faux, il va soit ignorer de vraies anomalies, soit crier au loup pour des choses normales.

La grande innovation de ce papier : Ils montrent que même si votre modèle est imparfait (voire "faux"), vous pouvez toujours trouver les vraies anomalies, à condition de ne pas faire confiance aveuglément au modèle pour calculer la probabilité exacte.

3. La solution : Deux méthodes pour vérifier la "Surprise"

Une fois qu'ils ont calculé le niveau de "surprise" de chaque observation, ils utilisent deux techniques astucieuses pour décider si c'est vraiment une anomalie :

A. La méthode du "Classement" (Empirique)
Imaginez que vous avez une liste de 1000 personnes classées par ordre de "surprise", du moins surpris au plus surpris.

  • Au lieu de dire "Cette personne a un score de 9,5, donc c'est bizarre", vous dites : "Cette personne est dans le top 1% des plus surprises".
  • L'analogie : C'est comme une course. Peu importe si votre chronomètre est un peu décalé (le modèle est imparfait), tant que l'ordre des coureurs est correct, vous savez qui est arrivé dernier. Si quelqu'un est dans le top 1% des plus lents, c'est un record, même si votre montre n'est pas parfaite.

B. La méthode des "Extrêmes" (Théorie des valeurs extrêmes)
Parfois, il n'y a pas assez de données pour faire un classement précis. Alors, ils regardent seulement les cas les plus extrêmes (les plus "surprenants").

  • L'analogie : Imaginez que vous étudiez les vagues à la plage. Vous ne pouvez pas prédire chaque vague, mais vous savez que les plus grosses vagues suivent une certaine loi mathématique (comme une courbe spécifique). Même si votre modèle de la mer n'est pas parfait, si vous regardez les 10 plus grosses vagues, vous pouvez prédire à quel point la prochaine pourrait être géante.
  • Ils utilisent une formule mathématique (la distribution de Pareto généralisée) pour estimer la probabilité que la "surprise" soit encore plus grande que ce qu'on a vu.

4. Pourquoi c'est génial ? (Les résultats)

Les auteurs ont testé leur méthode sur deux exemples concrets :

  1. Les taux de mortalité en France : Ils ont détecté des années où la mortalité a explosé (guerres, épidémies de choléra, grippe espagnole) même en utilisant un modèle statistique imparfait. Leurs "radars de surprise" ont sonné au bon moment.
  2. Le Cricket : Ils ont cherché des batteurs de cricket qui avaient un nombre anormal de fois où ils n'ont pas été éliminés ("not out"). Ils ont trouvé Jimmy Anderson, un joueur qui, bien que n'étant pas un grand batteur, réussissait à rester à la batte très longtemps grâce à sa défense. C'était une anomalie que les méthodes classiques auraient manquée.

En résumé

Ce papier nous dit : "Ne vous inquiétez pas si votre modèle n'est pas parfait."

Au lieu de chercher à prédire exactement ce qui va se passer, ils se concentrent sur l'ordre de la surprise.

  • Si vous avez un modèle approximatif, vous pouvez quand même trier vos données du "moins surprenant" au "plus surprenant".
  • Ensuite, vous regardez simplement les extrêmes de cette liste.
  • Cela permet de repérer des anomalies cachées (comme des pics de mortalité ou des joueurs de cricket atypiques) sans avoir besoin de connaître la vérité absolue sur le monde.

C'est comme si vous aviez un détecteur de mensonges qui ne vous dit pas exactement ce que la personne pense, mais qui vous dit avec certitude : "Hé, celle-ci est beaucoup plus bizarre que les autres !" Et c'est souvent tout ce dont on a besoin pour détecter une anomalie.