⚛️ high-energy theory

Towards Worst-Case Guarantees with Scale-Aware Interpretability

Dieses Paper schlägt eine Forschungsagenda für „skalenbewusste Interpretierbarkeit“ vor, die das Renormierungs-Framework aus der statistischen Physik adaptiert, um formale Werkzeuge zu entwickeln, die in der Lage sind, Worst-Case-Garantien für das Verhalten neuronaler Netze zu liefern, indem sie explizit verfolgen, wie Merkmale über verschiedene Auflösungen hinweg zusammensetzen.

Ursprüngliche Autoren: Lauren Greenspan, David Berman, Aryeh Brill, Ro Jefferson, Artemy Kolchinsky, Jennifer Lin, Andrew Mack, Anindita Maiti, Fernando E. Rosas, Alexander Stapleton, Lucas Teixeira, Dmitry Vaintrob

Veröffentlicht 2026-02-06

📖 4 Min. Lesezeit🧠 Tiefgang

CC BY 4.0

Ursprüngliche Autoren: Lauren Greenspan, David Berman, Aryeh Brill, Ro Jefferson, Artemy Kolchinsky, Jennifer Lin, Andrew Mack, Anindita Maiti, Fernando E. Rosas, Alexander Stapleton, Lucas Teixeira, Dmitry Vaintrob

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie versuchen zu verstehen, wie eine massive, komplexe Maschine funktioniert – wie ein riesiger, selbstassemblierender Roboter aus Millionen winziger Zahnräder. Derzeit versuchen KI-Forscher herauszufinden, was dieser Roboter denkt, indem sie die einzelnen Zahnräder betrachten. Aber es gibt ein Problem: Es gibt zu viele Zahnräder, und jedes einzelne zu betrachten, ist unmöglich. Zudem: Wenn man zu nah heranzoomt, sieht man nur noch Staub und Kratzer, die für die Bewegung des Roboters eigentlich gar keine Rolle spielen. Man verliert sich im Rauschen.

Dieses Paper schlägt einen neuen Weg vor, diese KI-„Roboter“ (neuronale Netze) zu betrachten, indem es eine kraftvolle Idee aus der Physik namens Renormierung entlehnt.

Hier ist die Aufschlüsselung ihrer Idee anhand einfacher Analogien:

1. Das Problem: Sich in den Details verlieren

Betrachten Sie ein KI-Modell wie ein hochauflösendes Foto. Wenn man so weit hineinzoomt, bis man ein einzelnes Pixel sieht, sieht man nur einen farbigen Punkt. Er verrät einem nicht, ob das Bild eine Katze oder einen Hund zeigt. Aber wenn man herauszoomt, sieht man Formen, dann Objekte, dann die gesamte Szene.

Aktuelle Werkzeuge zum Verständnis von KI versuchen oft, die „Pixel“ (einzelne Zahlen innerhalb des Computers) oder die „Formen“ (Merkmale) zu betrachten, ohne jedoch eine klare Regel dafür zu haben, wie viel man herauszoomen sollte. Sie könnten das große Ganze übersehen, weil sie zu sehr auf winzige Details fokussiert sind, oder sie könnten gefährliche kleine Details übersehen, weil sie zu sehr auf das große Ganze fixiert sind. Ihnen fehlt ein „Maßstab“.

2. Die Lösung: Das „Zoom-Objektiv“ aus der Physik

Die Autoren schlagen vor, die Renormierung zu nutzen, ein Konzept, das Physiker verwenden, um zu verstehen, wie Dinge auf unterschiedlichen Größenordnungen funktionieren.

Die Analogie: Stellen Sie sich vor, Sie betrachten einen Wald.
- Mikroskopische Sicht: Sie sehen einzelne Blätter, Zweige und Insekten.
- Makroskopische Sicht: Sie sehen die Form des Waldes, den Wind, der durch die Bäume weht, und das gesamte Ökosystem.
- Renormierung ist das mathematische Regelwerk, das Ihnen sagt: „Wenn Sie auf diese Ebene herauszoomen, können Sie die einzelnen Blätter sicher ignorieren, da sie die Form des Waldes nicht verändern. Aber wenn Sie zu weit herauszoomen, könnten Sie vielleicht ein Feuer in einem bestimmten Bereich übersehen.“

Das Paper argumentt, dass KI-Modelle Informationen natürlich in Schichten organisieren, genau wie ein Wald aus Schichten von Blättern, Ästen und dem gesamten Baum besteht. Wir brauchen ein Werkzeug, das diesen natürlichen „Zoom-Prozess“ respektiert.

3. Das Ziel: „Maßstabsbewusstes“ Verständnis

Die Autoren wollen eine neue Art von „Mikroskop“ für die KI bauen, das einen Drehregler besitzt.

Das Drehen des Reglers (Coarse-Graining/Vergröberung): Dies ist der Akt, winzige Details zu größeren, einfacheren Konzepten zusammenzufassen.
Die Garantie der „Skalentrennung“: Dies ist der wichtigste Teil. Sie wollen mathematisch beweisen, dass, wenn man weit genug herauszoomt, die winzigen, chaotischen Details (das „Rauschen“) das große Ganze nicht plötzlich verändern können.

Warum ist das wichtig für die Sicherheit?
Stellen Sie sich vor, Sie fahren ein Auto. Sie achten auf die Straße vor Ihnen (das große Ganze). Sie müssen sich nicht um jedes einzelne Staubkorn auf dem Asphalt kümmern (die winzigen Details).

Die aktuelle Sorge: Was, wenn ein winziges, unsichtbares Staubkorn (ein versteckter Trick in der KI) plötzlich dazu führt, dass das Auto abstürzt?
Das Versprechen der Renormierung: Wenn wir diesen neuen Rahmen verwenden, können wir sagen: „Wir haben weit genug herausgezoomt, um die Straße zu sehen. Wir haben mathematisch bewiesen, dass jedes Staubkorn, das kleiner als diese Größe ist, den Pfad des Autos unmöglich verändern kann. Daher sind wir sicher.“

4. Zwei Wege, dies umzusetzen

Das Paper schlägt zwei Wege vor, dies anzuwenden:

Implizite Renormierung (Der natürliche Weg): KI-Modelle machen dies bereits automatisch, wenn sie lernen. Zum Beispiel lernt eine KI zur Bildgenerierung zuerst die allgemeine Form eines Gesichts, dann die Augen, dann die Wimpern. Die Autoren wollen untersuchen, wie die KI von selbst „herauszoomt“.
Explizite Renormierung (Der Werkzeug-Weg): Hierbei geht es darum, neue Software-Werkzeuge zu bauen (wie eine bessere Version aktueller „Feature-Finder“), die die KI dazu zwingen, ihre Arbeit auf verschiedenen Zoom-Ebenen zu zeigen. Anstatt nur ein einzelnes „Merkmal“ zu finden, würde das Werkzeug Ihnen den „Wald“, dann den „Baum“, dann den „Ast“ zeigen und Ihnen sagen, auf welcher Ebene man sicher ignorieren kann.

5. Der Aufruf zum Handeln

Die Autoren rufen Physiker, Informatiker und Experten für KI-Sicherheit dazu auf, zusammenzuarbeiten. Sie glauben, dass wir durch die Kombination der Mathematik der Physik mit den Werkzeugen der KI endlich KI-Systeme bauen können, denen wir vertrauen können.

Kurz gesagt: Sie wollen aufhören, die KI zu verstehen, indem sie jedes einzelne Sandkorn zählen. Stattdessen wollen sie eine Karte erstellen, die uns genau sagt, welche Sandkörner wichtig sind und welche wir sicher ignorieren können, um uns die mathematische Garantie zu geben, dass die KI uns nicht mit einem versteckten Trick überraschen wird.

Technisches Resümee: Hin zu Worst-Case-Garantien mit Skalen-bewusster Interpretierbarkeit

Problemstellung

Aktuelle Methoden der KI-Interpretierbarkeit, wie etwa Sparse Autoencoder (SAEs), stützen sich stark auf technische Artefakte und theoretische Hypothesen, denen es an rigorösen Garantien hinsichtlich ihrer Treue gegenüber internen Modellmechanismen oder ihrer Robustheit gegenüber Verteilungsverschiebungen mangelt. Eine kritische Einschränkung ist die Unfähigkeit, den Einfluss feingranularer Details (die als Rauschen behandelt werden) auf makroskopische, sicherheitsrelevante Verhaltensweisen formal zu begrenzen. Bestehende Werkzeuge versagen oft dabei, die hierarchische, multiskalige Struktur abzubilden, die in natürlichen Daten und neuronalen Netz (NN)-Repräsentationen inhärent ist. Folglich haben sie Schwierigkeiten, „Worst-Case-Garantien“ zu liefern, dass feingranulare Fluktuationen die grobkörnigen Observablen nicht signifikant verändern können, was Systeme anfällig für Steganographie, Verteilungsverschiebungen und verborgene kausale Mechanismen macht.

Methodik und Framework

Die Arbeit schlägt Skalen-bewusste Interpretierbarkeit (Scale-Aware Interpretability) vor, eine Forschungsagenda, die das Framework der Renormierungsgruppe (RG) aus der statistischen Physik auf den Bereich der neuronalen Netze adaptiert. Anstatt zu behaupten, dass moderne NNs im feldtheoretischen Sinne strikt renormierbar sind, postulieren die Autoren, dass das RG-Framework eine notwendige Sprache und ein Satz von Design-Constraints bietet, um drei Schlüsselaspekte zu formalisieren, die derzeit unzureglich behandelt werden:

Skala (Scale): Die Granularität oder Auflösung, in der Merkmale beobachtet werden.
Relevanz (Relevance): Welche Freiheitsgrade (Features) auf einer bestimmten Skala von Bedeutung sind.
Feinkörnigkeit/Vergröberung (Coarse-graining): Das systematische Ignorieren irrelevanter Freiheitsgrade.

Die Methodik unterscheidet zwischen zwei Arten der Renormierung in NNs:

Implizite Renormierung: Der natürliche Prozess, durch den NNs Daten während des Trainings und der Inferenz vergröbern (z. B. Diffusion-Modelle, die Daten nach Rauschpegel organisieren, oder Sprachmodelle, die die Kontextstabilität verfolgen). Dies wird durch die Dynamik und Architektur des Modells selbst angetrieben.
Explizite Renormierung: Post-hoc Interpretierbarkeitswerkzeuge (wie SAEs oder spektrale Trunkierung), die Skalenparameter und Vergröberungsregeln auferlegen, um interpretierbare Strukturen zu extrahieren.

Der zentrale technische Vorschlag besteht darin, ein RG-ähnliches Schema für NNs zu konstruieren, das drei Bedingungen erfüllt:

Definition von Vergröberungen: Identifizierung von „modell-natürlichen“ Skalen (z. B. Kernel-Eigenmoden, Diffusionszeit, Kontextlänge) und Cutoffs, die die implizite Hierarchie des Modells respektieren.
Effektive Freiheitsgrade: Reduktion des hochdimensionalen Modells auf einen kleineren Satz effektiver Features, deren Verhalten die makroskopischen Observablen innerhalb eines spezifizierten Fehlermargins vorhersagt. Dies beinhaltet die Etablierung einer Relevanzordnung, bei der Features nach ihrem Beitrag zu weitreichenden (long-range) Observablen geordnet werden.
Skalentrennung (Separation of Scales): Etablierung einer Eigenschaft, bei der mikroskopische Details (irrelevanter Subraum) innerhalb eines beschränkten Bereichs variieren können, ohne das grobkörnige Verhalten des Systems materiell zu verändern. Dies wird als hierarchische bedingte Unabhängigkeit formalisiert, wobei grobkörnige Variablen als hinreichende Statistiken für feinere Variablen fungieren.

Kernbeiträge

Die Arbeit präsentiert keine neuen experimentellen Ergebnisse, sondern synthetisiert verstreute Forschungsstränge zu einer einheitlichen theoretischen Agenda. Ihre primären Beiträge sind:

Formalisierung der Renormierungs-Analogie: Die Autoren bilden RG-Konzepte (UV/IR-Cutoffs, relevante/irrelevante Operatoren, Fixpunkte, Universalitätsklassen) auf die NN-Interpretierbarkeit ab. Sie argumentieren, dass „Features“ als effektive Freiheitsgrade betrachtet werden sollten, die bei spezifischen Skalen entstehen, anstatt als statische atomare Einheiten.
Identifizierung von Ausfallmodi aktueller Werkzeuge: Die Arbeit kritisiert bestehende Methoden (wie SAEs) für den Mangel an Kanözität (unterschiedliche Durchläufe führen zu unterschiedlichen Dekompositionen), Vollständigkeit (fehlende verschränkte Features) und Treue (Optimierung auf Rekonstruktion statt auf kausale Struktur). Sie argumentiert, dass ohne eine Skalentrennung diese Werkzeuge nicht garantieren können, dass ignorierte Features keine sicherheitskritischen Ausgaben beeinflussen.
Vorschlag von Forschungsartefakten: Um die Lücke zwischen Theorie und Praxis zu schließen, schlagen die Autoren zwei spezifische Artefakte vor, die analog zu „Toy Models of Superposition“ (TMS) und SAEs sind:
- Toy Model of Renormalisation (TMR): Ein synthetischer Modellorganismus (z. B. unter Verwendung hierarchischer Datenverteilungen), um Hypothesen darüber zu generieren, wie Features zusammensetzen und vergröbern, was die Erstellung beweisbarer Grenzen für den Einfluss feingranularer Details ermöglicht.
- General Renormalisation Tool (GRT): Ein skalierbares Post-hoc-Werkzeug (analog zu SAEs), das multiskalige, interpretierbare Strukturen aus realen Modellen extrahiert, potenziell unter Verwendung von Techniken wie Real-Space Mutual Information (RSMI) oder Lattice-RG auf Aktivierungs-Graphen.
Survey bestehender Arbeiten: Die Arbeit rezensiert die Literatur zu Kernel-Renormierung (NNGP, NTK, Spektrallücken) und Datenraum-Renormierung (hierarchische Datenmodelle, fraktale Strukturen, informationstheoretische Vergröberung) und zeigt auf, dass die theoretischen Grundlagen für diese Agenda bereits in der Physik und im maschinellen Lernen existieren, aber noch nicht für die KI-Sicherheit synthetisiert wurden.

Ergebnisse und Behauptungen

Die Arbeit berichtet keine empirischen Ergebnisse eines neuen Werkzeugs oder Modells. Ihre „Ergebnisse“ sind vielmehr theoretische Argumente und eine Synthese bestehender Evidenz:

Theoretische Machbarkeit: Die Autoren argumentieren, dass das Renormierungs-Framework in der Physik ausgereift genug ist, um auf NNs adaptiert zu werden, und führen erfolgreiche Anwendungen in Diffusionsmodellen, der Kernel-Theorie und der informationstheoretischen Kompression an.
Notwendigkeit der Skalenbewusstheit: Sie zeigen auf, dass aktuelle Interpretierbarkeitswerkzeuge oft scheitern, weil sie die impliziten Skalen des Modells nicht respektieren. Beispielsweise ignoriert die Behandlung aller Neuronen als gleichwertig die Tatsache, dass einige Richtungen im Aktivierungsraum „relevant“ (große Eigenwerte) sind, während andere „irrelevant“ (Spektralschwänze) sind.
Potenzial für Garantien: Die Arbeit behauptet, dass ein erfolgreiches RG-basiertes Framework Worst-Case-Garantien liefern könnte. Konkret zielt sie darauf ab, Aussagen der Form zu beweisen: „Bedingt auf einer effektiven grobkörnigen Beschreibung können Störungen, die auf den irrelevanten Subraum beschränkt sind, die Observable X nicht um mehr als $\epsilon$ verändern.“

Bedeutung und Ansprüche

Die Arbeit positioniert sich als Aufruf zur interdisziplinären Koordination zwischen Physik, Neurowissenschaften, Informatik und KI-Sicherheit. Ihre Bedeutung liegt in:

Verschiebung der Zielsetzung: Die Interpretierbarkeit weg von der „Suche nach menschenverständlichen Features“ hin zur „Bereitstellung robuster, Theorie-gestützter Garantien“ darüber, was ein Modell tut und was nicht, zu bewegen.
Adressierung der Sicherheit: Durch die Formalisierung der Skalentrennung zielt das Framework darauf ab, gefährliche Verhaltensweisen (z. B. Täuschung, Steganographie) zu verhindern, die sich in den „irrelevanten“ feingranularen Details verbergen könnten, die aktuelle Werkzeuge verwerfen.
Vereinigung disparater Felder: Es versucht, die Lücke zwischen theoretischer Physik (Renormierung, Universalität) und praktischer KI-Sicherheit zu schließen, indem es nahelegt, dass die „unordentliche“ Natur von NNs tatsächlich mit denselben statistischen Werkzeugen erfassbar sein könnte, die zur Untersuchung komplexer physikalischer Systeme verwendet werden.

Die Autoren bleiben bescheiden in ihren Ansprüchen und räumen ein, dass NNs in allen Regimen möglicherweise keine strikte Universalität oder Kritikalität aufweisen. Sie betonen, dass die vorgeschlagene Agenda ein Weg zu Werkzeugen ist, die „treu“ und „robust“ sind, anstatt zu behaupten, dass aktuelle Methoden bereits ausreichend sind oder dass die Physik-Analogie eine perfekte Eins-zu-eins-Abbildung darstellt. Das ultimative Ziel ist der Aufbau eines Frameworks, in dem Interpretierbarkeit nicht nur eine ingenieurtechnische Heuristik ist, sondern eine Disziplin, die in der statistischen Physik verwurzelt ist und in der Lage ist, den Einfluss verworfener Informationen zu begrenzen.