Complete Diagrammatic Axiomatisations of Relative Entropy

Dieser Artikel liefert vollständige diagrammatische Axiomatisierungen der Kullback-Leibler-Divergenz und allgemeiner Rényi-Divergenzen beliebiger Ordnung im Rahmen der quantitativen monoidalen Algebra, indem er relative Entropie aus kategorientheoretischer Sicht als quantitative Erweiterung von Kategorien stochastischer Matrizen unter den monoidalen Strukturen des Kronecker-Produkts und der direkten Summe untersucht.

Ralph Sarkis, Fabio Zanasi

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Der große Vergleich: Wie man „Fehler" in Zufallsprozessen misst

Stellen Sie sich vor, Sie haben zwei verschiedene Rezepte für einen Kuchen. Beide versprechen, einen leckeren Schokoladenkuchen zu backen. Aber Rezept A ist etwas ungenau, und Rezept B ist noch ungenauer. Die Frage ist: Wie unterschiedlich sind die beiden Rezepte wirklich?

In der Welt der Wahrscheinlichkeit und des maschinellen Lernens nennen wir diese Unterschiede oft „Entfernungen". Eine besonders wichtige Art, diese Entfernung zu messen, ist die relative Entropie (oder Kullback-Leibler-Divergenz). Sie sagt uns: „Wenn ich dachte, ich würde Rezept A verwenden, aber stattdessen Rezept B nutze, wie sehr werde ich enttäuscht sein?"

Bisher gab es für diese Messung keine einfache, universelle „Rechenanleitung" (Axiome), mit der man alle möglichen Fälle durchgehen konnte. Genau das haben die Autoren Ralph Sarkis und Fabio Zanasi in diesem Papier geschafft.

Die Hauptakteure: Zwei verschiedene Welten

Die Autoren betrachten zwei verschiedene Arten, wie man diese Zufalls-Rezepte (stochastische Matrizen) kombinieren kann. Man kann sich das wie zwei verschiedene Spielregeln vorstellen:

  1. Die Welt der „Kombinationen" (Kronecker-Produkt):

    • Analogie: Stellen Sie sich vor, Sie haben zwei separate Würfel. Wenn Sie sie kombinieren, werfen Sie beide gleichzeitig. Das Ergebnis ist ein riesiges Paar von Zahlen (z. B. „3 und 5").
    • Bedeutung: Dies ist die Standard-Welt für komplexe Systeme, wie sie in neuronalen Netzen oder bei der Analyse von Ursache und Wirkung vorkommen. Hier werden Systeme nebeneinander gestellt und multipliziert.
  2. Die Welt der „Wahlmöglichkeiten" (Direkte Summe):

    • Analogie: Stellen Sie sich vor, Sie stehen an einer Kreuzung. Sie können entweder nach links (Rezept A) oder nach rechts (Rezept B) gehen. Sie tun beides nicht gleichzeitig, sondern wählen einen Pfad.
    • Bedeutung: Dies ist die Welt der Wahrscheinlichkeiten, bei der man zwischen verschiedenen Szenarien wählt (wie ein Münzwurf: Kopf oder Zahl).

Das Problem: Die alte Sprache reichte nicht

Bisher konnten Wissenschaftler mit einer Art „Bildersprache" (String-Diagramme) beschreiben, wie diese Rezepte funktionieren. Aber diese Bilder konnten nur sagen: „Rezept A ist genau wie Rezept B" oder „Rezept A ist nicht wie Rezept B".

Sie konnten aber nicht sagen: „Rezept A ist etwas anders als Rezept B, und zwar genau so viel wie eine Distanz von 0,5."
Es fehlte eine Sprache, die Abstände (Distanzen) in die Bilder einbauen konnte.

Die Lösung: Eine neue Sprache mit „Wenn-dann"-Regeln

Die Autoren haben eine neue Art von Sprache entwickelt, die sie quantitative Axiome nennen.

  • Die Bilder (String-Diagramme): Stellen Sie sich diese wie Schaltungsschemata oder Flussdiagramme vor. Sie zeigen, wie Informationen durch ein System fließen.
  • Die neuen Regeln (Implikationen): Das ist der geniale Teil. Früher sagten die Regeln nur: „Wenn du diesen Schritt machst, passiert das."
    Die neuen Regeln sagen: „Wenn der Fehler in Schritt A kleiner als 0,1 ist UND der Fehler in Schritt B kleiner als 0,2 ist, DANN ist der Gesamtfehler in Schritt C höchstens 0,3."

Das ist wie eine Kette von Domino-Steinen, bei der man nicht nur weiß, dass sie umfallen, sondern auch genau messen kann, wie stark jeder Stein beim Umfallen wackelt.

Die große Entdeckung: Die „Kettenregel"

Das Herzstück ihrer Arbeit ist die Kettenregel (Chain Rule).
Stellen Sie sich vor, Sie wollen wissen, wie unterschiedlich zwei lange Geschichten sind.

  • Die alte Methode: Man vergleicht die ganze Geschichte auf einmal. Das ist schwer.
  • Die Methode der Autoren: Man zerlegt die Geschichte in Sätze. Man vergleicht den ersten Satz, dann den zweiten, dann den dritten.
    • Wenn Satz 1 fast gleich ist (kleiner Fehler)
    • UND Satz 2 fast gleich ist (kleiner Fehler)
    • ...dann ist die ganze Geschichte fast gleich (kleiner Gesamtfehler).

Die Autoren haben bewiesen, dass man mit ihren neuen Bildern und Regeln jeden möglichen Unterschied zwischen zwei Zufallsprozessen exakt berechnen und beweisen kann. Es gibt keine Lücken mehr.

Warum ist das wichtig?

  1. Für KI und Maschinelles Lernen: Wenn KI-Modelle lernen, müssen sie wissen, wie „falsch" ihre Vorhersagen im Vergleich zur Realität sind. Diese neue Sprache hilft, diese Fehler präzise zu verstehen und zu optimieren.
  2. Für Datenschutz: Wenn man Daten anonymisiert, muss man sicherstellen, dass die „Entfernung" zwischen den echten Daten und den anonymisierten Daten groß genug ist, um niemanden zu verraten. Die Autoren liefern die Werkzeuge, um das mathematisch exakt zu prüfen.
  3. Für die Mathematik: Sie haben gezeigt, dass man komplexe Zufallsprozesse nicht nur mit Formeln, sondern mit schönen, logischen Bildern beschreiben kann, die sogar die „Größe" des Unterschieds enthalten.

Zusammenfassung in einem Satz

Die Autoren haben eine neue Art von „Rechenbuch" für Zufallsprozesse erfunden, das nicht nur sagt, ob zwei Dinge gleich sind, sondern mit Hilfe von Bildern und logischen Regeln exakt misst, wie weit sie voneinander entfernt sind – und zwar für zwei verschiedene Arten, wie diese Prozesse kombiniert werden können.

Sie haben damit die Lücke geschlossen, die bisher fehlte, um die „Entfernung" zwischen Wahrscheinlichkeiten so präzise zu beschreiben wie die Geometrie eines Dreiecks.