Complete Diagrammatic Axiomatisations of Relative Entropy

Cet article propose des axiomatisations complètes de la divergence de Kullback-Leibler et des divergences de Rényi d'ordre arbitraire en les étudiant sous un angle catégorique via une algèbre monoidale quantitative et un langage de diagrammes en cordes enrichi d'équations quantitatives, pour deux structures monoidales naturelles sur les matrices stochastiques.

Ralph Sarkis, Fabio Zanasi

Publié 2026-03-06
📖 6 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un chef cuisinier qui prépare deux plats différents pour vos clients. L'un est un plat classique, l'autre est une version légèrement modifiée. La question n'est pas seulement : « Est-ce que les deux plats sont identiques ? » (oui ou non). La vraie question est : « À quel point sont-ils différents ? »

C'est exactement ce que font les mathématiciens et les informaticiens quand ils étudient les probabilités et l'apprentissage automatique. Ils ne veulent pas juste savoir si deux programmes donnent le même résultat, ils veulent mesurer la « distance » entre leurs comportements.

Ce papier, écrit par Ralph Sarkis et Fabio Zanasi, propose une nouvelle façon de mesurer cette distance, en utilisant une méthode visuelle et très élégante appelée diagrammes en ficelle (ou string diagrams).

Voici une explication simple de leur travail, avec quelques analogies pour rendre les choses claires.

1. Le Problème : Mesurer la différence entre deux mondes aléatoires

Dans le monde de l'informatique moderne (comme les IA qui génèrent du texte ou les systèmes de recommandation), tout est imprévisible. On ne dit pas « il va pleuvoir », mais « il y a 70 % de chances de pluie ».

Quand on compare deux systèmes probabilistes, on utilise souvent une mesure appelée Entropie Relative (ou divergence de Kullback-Leibler). C'est comme un « mètre-ruban » spécial qui vous dit à quel point une distribution de probabilité s'éloigne d'une autre.

  • L'analogie du GPS : Imaginez que vous avez deux itinéraires GPS pour aller au travail. L'un est le trajet idéal (votre référence), l'autre est celui que vous avez pris hier. L'entropie relative ne vous dit pas juste « vous êtes arrivé », elle vous dit : « Vous avez pris 15 minutes de plus et vous avez fait 3 détours inutiles ».

Le problème, c'est que jusqu'à présent, il n'existait pas de « règle » simple et complète pour calculer cette distance dans tous les cas, surtout quand les systèmes deviennent complexes (comme des réseaux de neurones).

2. La Solution : Dessiner les mathématiques

Les auteurs utilisent une approche appelée catégorique. Au lieu d'écrire des équations compliquées avec des lettres et des chiffres, ils dessinent des diagrammes.

  • L'analogie des Lego : Imaginez que chaque système probabiliste est un bloc Lego.
    • Les fils (les lignes du diagramme) représentent l'information qui circule.
    • Les boîtes (les formes sur les fils) représentent des opérations (comme « mélanger », « choisir », « diviser »).
    • Relier deux blocs ensemble, c'est comme connecter deux étapes d'un processus.

Ces diagrammes permettent de voir la structure du problème. C'est comme passer d'une recette écrite en texte à un dessin de montage de meuble : on comprend mieux comment les pièces s'assemblent.

3. La Grande Innovation : Les « Implications Quantitatives »

C'est ici que le papier devient vraiment brillant.

Habituellement, en mathématiques, on dit : « Si A est égal à B, alors C est égal à D ». C'est une règle stricte.
Mais ici, les auteurs disent : « Si la différence entre A et B est petite (disons moins de 5 %), alors la différence entre C et D sera au plus de telle taille ».

Ils ont créé un nouveau langage pour écrire ces règles.

  • L'analogie de la chaîne de montage : Imaginez une usine où chaque étape ajoute un peu de « bruit » ou d'erreur.
    • Si vous savez que l'étape 1 a une erreur de 2 % et l'étape 2 une erreur de 3 %, pouvez-vous prédire l'erreur totale ?
    • Les auteurs ont trouvé la règle exacte (qu'ils appellent la « règle de la chaîne ») pour dire : « Si l'erreur à l'étape 1 est X et à l'étape 2 est Y, alors l'erreur totale ne dépassera jamais Z ».

Ils ont prouvé que ces règles sont complètes. Cela signifie qu'avec ces diagrammes et ces règles, vous pouvez calculer la distance entre n'importe quelle paire de systèmes probabilistes, sans rien manquer.

4. Deux Façons de Construire le Monde

Le papier explore deux façons différentes d'assembler ces blocs Lego, ce qui correspond à deux façons de voir le monde :

  1. Le Monde du « Produit » (Kronecker) : C'est comme si vous preniez deux cartes et que vous les superposiez pour créer une carte plus grande et plus complexe. C'est utile pour modéliser des réseaux de cause à effet (comme : « Si je mange du chocolat, puis-je avoir mal au ventre ? »).
  2. Le Monde de la « Somme » (Direct Sum) : C'est comme si vous aviez deux boîtes séparées et que vous les mettiez côte à côte. C'est utile pour modéliser des choix ou des mélanges (comme : « Je choisis soit le bus, soit le train »).

Les auteurs ont créé des règles spécifiques pour les deux mondes. C'est comme avoir deux manuels de construction différents, mais tous deux parfaits.

5. Pourquoi c'est important pour nous ?

Pourquoi un chef cuisinier ou un développeur devrait-il s'en soucier ?

  • Pour l'Intelligence Artificielle : Les IA apprennent en ajustant leurs probabilités pour se rapprocher de la réalité. Ces règles permettent de prouver mathématiquement à quel point l'IA s'améliore ou, au contraire, s'éloigne de ce qu'elle devrait être.
  • Pour la Vie Privée : Dans le domaine de la confidentialité des données (comme le « differential privacy »), il faut s'assurer qu'un système ne révèle pas trop d'informations. Ces diagrammes aident à calculer exactement combien d'informations fuitent.
  • Pour la Science : Cela donne un langage commun. Au lieu de réinventer la roue à chaque fois qu'on veut comparer deux systèmes, on peut utiliser ces diagrammes universels.

En résumé

Ce papier est comme la découverte d'un nouvel alphabet pour parler de l'incertitude.
Au lieu de se perdre dans des formules algébriques complexes, les auteurs nous disent : « Regardez, si vous dessinez vos systèmes comme des circuits électriques ou des Lego, et si vous appliquez ces quelques règles simples de "distance", vous pouvez comprendre et prédire le comportement de n'importe quelle machine probabiliste. »

C'est une victoire de la clarté visuelle sur la complexité mathématique, offrant un outil puissant pour construire des systèmes plus fiables, plus sûrs et plus intelligents.