On the Equivalence of Random Network Distillation, Deep Ensembles, and Bayesian Inference

Diese Arbeit stellt im Grenzwert unendlicher Netzwerkbreiten eine theoretische Äquivalenz zwischen Random Network Distillation, Deep Ensembles und der Bayesschen Inferenz her und zeigt, dass sich durch eine modifizierte Zielsetzung eine exakte Posterior-Sampling-Methode für effiziente Unsicherheitsquantifizierung entwickeln lässt.

Moritz A. Zanger, Yijun Wu, Pascal R. Van der Vaart, Wendelin Böhmer, Matthijs T. J. Spaan

Veröffentlicht 2026-02-27
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wie sicher sind KI-Modelle?

Stell dir vor, du fährst ein autonomes Auto. Es sieht eine seltsame Gestalt am Straßenrand. Das Auto muss nicht nur wissen, was es ist, sondern auch: Wie sicher bin ich mir da? Wenn es sich nicht sicher ist, sollte es langsamer machen.

In der KI-Welt nennen wir das Unsicherheitsmessung. Es gibt drei Hauptmethoden, um das zu tun:

  1. Bayessche Inferenz: Der „Goldstandard". Wie ein Professor, der alles genau durchrechnet. Aber: Extrem langsam und rechenintensiv.
  2. Deep Ensembles (Tiefe Ensembles): Man trainiert 100 fast identische Autos mit leicht unterschiedlichen Startbedingungen und schaut, wie sehr sie sich in ihrer Meinung unterscheiden. Das ist gut, aber man muss 100 Autos bauen und warten – sehr teuer.
  3. Random Network Distillation (RND): Der „Hacker-Trick". Man nimmt ein Auto, trainiert es, eine zufällige, feststehende Vorhersage nachzuahmen, und misst, wie schlecht es dabei ist. Ist der Fehler groß, ist das Auto unsicher. Das ist super schnell und billig, aber niemand wusste bisher genau, warum das funktioniert oder ob es mathematisch solide ist.

Die Frage des Papers: Ist RND nur ein glücklicher Zufall oder hat es eine tiefe Verbindung zu den anderen beiden Methoden?


Die Entdeckung: Alles ist im Grunde dasselbe

Die Autoren haben sich in eine theoretische Welt begeben, in der die neuronalen Netze unendlich breit sind (wie ein Ozean statt eines Baches). In dieser idealisierten Welt haben sie drei erstaunliche Dinge herausgefunden:

1. RND ist wie ein „Mini-Ensemble"

Stell dir vor, du hast einen riesigen Haufen von 1000 verschiedenen Wettervorhersage-Experten (das Ensemble). Du fragst sie alle nach dem Wetter. Wenn sie sich stark streiten, ist das Wetter unvorhersehbar (hohe Unsicherheit).

Die Autoren zeigen: Der Fehler, den RND misst, ist mathematisch exakt dasselbe wie die Streuung dieser 1000 Experten.

  • Die Analogie: RND ist wie ein einziger Experte, der sich selbst simuliert, als wäre er 1000 verschiedene Experten gleichzeitig. Er spart dir den Aufwand, 1000 Modelle zu bauen, liefert aber das gleiche Unsicherheits-Signal.

2. RND ist wie ein „Bayesscher Wahrsager"

Bayessche Inferenz ist wie ein Wahrsager, der nicht nur eine Vorhersage macht, sondern eine ganze Wolke möglicher Zukünfte (eine Verteilung) betrachtet.
Die Autoren haben einen Trick angewendet: Sie haben die „zufällige Vorhersage" (das Zielnetzwerk), die RND normalerweise benutzt, so manipuliert, dass sie nicht mehr zufällig ist, sondern wie eine perfekte Bayessche Vorhersage aussieht.

  • Das Ergebnis: Wenn man RND mit diesem speziellen Trick benutzt, ist der Fehler nicht mehr nur ein Maß für Unsicherheit, sondern eine echte Stichprobe aus der Bayesschen Zukunft. Das bedeutet, man kann mit diesem einen Modell so tun, als würde man Tausende von Bayesschen Simulationen durchführen.

3. Der „Zaubertrick" für Stichproben

Normalerweise braucht man für Bayessche Inferenz komplizierte Methoden, um verschiedene mögliche Szenarien zu generieren. Mit dem neuen „Bayesschen RND" können wir einfach das Modell laufen lassen, den Fehler ablesen, und das ist eine gültige, unabhängige Stichprobe aus der perfekten Bayesschen Verteilung.

  • Die Analogie: Stell dir vor, du willst wissen, wie viele verschiedene Wege ein Blatt im Wind fliegen kann. Normalerweise musst du 1000 Blätter werfen. Mit diesem neuen RND-Trick reicht es, ein Blatt zu werfen, und du kannst aus dem Flugweg dieses einen Blattes sofort 1000 verschiedene, korrekte Flugwege berechnen.

Warum ist das wichtig?

Bisher war RND wie ein „schwarzer Kasten": Es funktionierte super in der Praxis (z. B. bei Robotern, die neue Umgebungen erkunden), aber die Theorie dahinter war vage.

Diese Arbeit sagt im Grunde:

„Hey, RND ist kein Zauberstab. Es ist eigentlich ein sehr cleverer, effizienter Weg, um das zu tun, was Deep Ensembles und Bayessche Methoden tun, nur viel schneller und ohne den riesigen Rechenaufwand."

Die Grenzen:
Die Theorie gilt streng genommen nur für „unendlich breite" Netze. In der echten Welt sind Netze endlich breit. Aber die Autoren zeigen, dass die Ergebnisse auch bei praktischen, normalen Netzgrößen sehr gut funktionieren.

Fazit in einem Satz

Die Autoren haben bewiesen, dass der clevere „Hacker-Trick" (RND), den viele schon nutzen, mathematisch gesehen das Gleiche ist wie die teuersten und genauesten Methoden der KI-Welt – und sie haben einen Weg gefunden, ihn noch besser zu nutzen, um echte Bayessche Vorhersagen billig und schnell zu machen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →