⚛️ high-energy theory

Towards Worst-Case Guarantees with Scale-Aware Interpretability

Dit artikel stelt een onderzoeksagenda voor voor "schaalbewuste interpreteerbaarheid" die het renormalisatiekader uit de statistische fysica aanpast om formele instrumenten te ontwikkelen die in staat zijn om garanties voor het slechtste scenario te bieden op het gedrag van neurale netwerken door expliciet bij te houden hoe kenmerken componeren over verschillende resoluties.

Oorspronkelijke auteurs: Lauren Greenspan, David Berman, Aryeh Brill, Ro Jefferson, Artemy Kolchinsky, Jennifer Lin, Andrew Mack, Anindita Maiti, Fernando E. Rosas, Alexander Stapleton, Lucas Teixeira, Dmitry Vaintrob

Gepubliceerd 2026-02-06

📖 5 min leestijd🧠 Diepgaand

CC BY 4.0

Oorspronkelijke auteurs: Lauren Greenspan, David Berman, Aryeh Brill, Ro Jefferson, Artemy Kolchinsky, Jennifer Lin, Andrew Mack, Anindita Maiti, Fernando E. Rosas, Alexander Stapleton, Lucas Teixeira, Dmitry Vaintrob

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je probeert te begrijpen hoe een enorme, complexe machine werkt—zoals een gigantische, zelf-assemblerende robot gemaakt van miljoens kleine tandwielen. Momenteel proberen AI-onderzoekers uit te vogelen wat deze robot denkt door naar de individuele tandwielen te kijken. Maar er is een probleem: er zijn te veel tandwielen en het is onmogelijk om elk afzonderlijk onderdeel te bekijken. Bovendien, als je te ver inzoomt, begin je stofjes en krasjes te zien die er eigenlijk niet toe doen voor hoe de robot beweegt. Je raakt verdwaald in de ruis.

Dit artikel stelt een nieuwe manier voor om naar deze AI-"robots" (neurale netwerken) te kijken door een krachtig idee uit de natuurkunde te lenen: Renormalisatie.

Hier is de uitleg van hun idee met behulp van eenvoudige analogieën:

1. Het Probleem: Verdwalen in de Details

Beschouw een AI-model als een foto met een hoge resolutie. Als je helemaal inzoomt op één enkele pixel, zie je alleen een gekleurd stipje. Dat vertelt je niet of de foto een kat of een hond is. Maar als je uitzoomt, zie je vormen, dan objecten, en dan de hele scène.

Huidige instrumenten om AI te begrijpen proberen vaak naar de "pixels" (individuele getallen in de computer) of de "vormen" (kenmerken) te kijken, zonder een duidelijke regel voor hoeveel men moet uitzoomen. Ze kunnen het grote plaatje missen omdat ze te gefocust zijn op minuscule details, of ze kunnen gevaarlijke kleine details missen omdat ze te gefocust zijn op het grote plaatje. Ze missen een "schaal".

2. De Oplossing: De "Zoomlens" uit de Natuurkunde

De auteurs stellen voor om Renormalisatie te gebruiken, een concept dat natuurkundigen gebruiken om te begrijpen hoe dingen werken op verschillende groottes.

De Analogie: Stel je voor dat je naar een bos kijkt.
- Microscopisch niveau: Je ziet individuele bladeren, takjes en insecten.
- Macroscopisch niveau: Je ziet de vorm van het bos, de wind die door de bomen beweegt, en het algehele ecosysteem.
- Renormalisatie is de wiskundige regelset die je vertelt: "Als je uitzoomt naar dit niveau, kun je de individuele bladeren veilig negeren omdat ze de vorm van het bos niet veranderen. Maar als je te ver uitzoomt, kun je misschien een brand in een specifiek deel van het bos missen."

Het artikel betoogt dat AI-modellen informatie van nature organiseert in lagen, net zoals een bos lagen van bladeren, takken en de hele boom heeft. We hebben een instrument nodig dat dit natuurlijke "inzoomproces" respecteert.

3. Het Doel: "Schaalbewust" Begrip

De auteurs willen een nieuw soort "microscoop" voor AI bouwen die een draaiknop heeft.

De draaiknop draaien (Coarse-Graining/Grovere granulatie): Dit is het proces van het samenvoegen van kleine details tot grotere, simpelere concepten.
De "Scheiding van Schalen"-garantie: Dit is het belangrijkste deel. Ze willen wiskundig bewijzen dat als je uitzoomt naar een bepaald niveau, de kleine, rommelige details (de "ruis") de grote situatie niet plotseling kunnen veranderen.

Waarom is dit belangrijk voor veiligheid?
Stel je voor dat je in een auto rijdt. Je geeft om de weg voor je (het grote plaatje). Je hoeft je geen zorgen te maken over elk stofje op het asfalt (de kleine details).

Huidige zorg: Wat als een minuscuul, onzichtbaar stofje (een verborgen truc in de AI) plotseling ervoor zorgt dat de auto crasht?
De Belofte van Renormalisatie: Als we dit nieuwe kader gebruiken, kunnen we zeggen: "We zijn ver genoeg uitgezoomd om de weg te zien. We hebben wiskundig bewezen dat enig stofje dat kleiner is dan deze grootte, het pad van de auto onmogelijk kan veranderen. Daarom zijn we veilig."

4. Twee Manieren Om Het Te Doen

Het artikel suggereert twee manieren om dit toe te passen:

Impliciete Renormalisatie (De Natuurlijke Manier): AI-modellen doen dit al automatisch wanneer ze leren. Bijvoorbeeld, bij het genereren van afbeeldingen leert de AI eerst de algemene vorm van een gezicht, dan de ogen, en dan de wimpers. De auteurs willen bestuderen hoe de AI op zichzelf al "uitzoomt".
Expliciete Renormalisatie (De Instrumentele Manier): Dit gaat over het bouwen van nieuwe softwaretools (zoals een betere versie van huidige "feature finders") die de AI dwingen om zijn werk op verschillende zoomniveaus aan ons te tonen. In plaats van alleen één "kenmerk" te vinden, laat de tool je de "bos", de "boom" en de "tak" zien, en vertelt je welk niveau veilig genegeerd kan worden.

5. De Oproep tot Actie

De auteurs roepen natuurkundigen, computerwetenschappers en AI-veiligheidsexperts op om samen te werken. Zij geloven dat we, door de wiskunde van de natuurkunde te combineren met de tools van AI, eindelijk AI-systemen kunnen bouwen die we kunnen vertrouwen.

Kortom: Ze willen stoppen met proberen de AI te begrijpen door elk korreltje zand te tellen. In plaats daarvan willen ze een kaart maken die ons precies vertelt welke zandkorrels er toe doen en welke we veilig kunnen negeren, wat ons een wiskundige garantie geeft dat de AI ons niet zal verrassen met een verborgen truc.

Technische Samenvatting: Naar Worst-Case Garanties met Schaalbewuste Interpreteerbaarheid

Probleemstelling

Huidige methoden voor AI-interpreteerbaarheid, zoals Sparse Autoencoders (SAE's), leunen zwaar op technische artefacten en theoretische hypothesen die een gebrek hebben aan rigoureuze garanties met betrekking tot hun getrouwheid aan modelinterne mechanismen of hun robuustheid tegen distributieve verschuivingen. Een kritieke beperking is het onvermogen om de invloed van fijnmazige details (behandeld als ruis) op macroscopische, veiligheidsrelevante gedragingen formeel te begrenzen. Bestaande instrumenten falen vaak omdat ze geen rekening houden met de hiërarchische, multi-schaalstructuur die inherent is aan natuurlijke data en neurale netwerk (NN) representaties. Bijgevolg worstelen ze met het bieden van "worst-case garanties" dat fijnmazige fluctuaties de grofmazige observeerbare grootheden niet significant kunnen veranderen, wat systemen kwetsbaar laat voor steganografie, distributieve verschuivingen en verborgen causale mechanismen.

Methodologie en Raamwerk

Het artikel stelt Schaalbewuste Interpreteerbaarheid voor, een onderzoeksagenda die het renormalisatiegroep (RG)-raamwerk uit de statistische fysica aanpast aan het domein van neurale netwerken. In plaats van te beweren dat moderne NNs strikt renormaliseerbaar zijn in een veldentheoretische zin, stellen de auteurs dat het RG-raamwerk een noodzakelijke taal en een set ontwerpbeperkingen biedt om drie kernaspecten te formaliseren die momenteel gebrekkig worden afgehandeld:

Schaal: De granulariteit of resolutie waarop kenmerken worden waargenomen.
Relevantie: Welke vrijheidsgraden (kenmerken) ertoe doen op een specifieke schaal.
Coarse-graining (Vergroving): Het systematisch negeren van irrelevante vrijheidsgraden.

De methodologie maakt onderscheid tussen twee soorten renormalisatie in NNs:

Impliciete Renormalisatie: Het natuurlijke proces waarbij NNs data grover maken tijdens training en inferentie (bijv. diffusiemodellen die data organiseren op basis van ruisniveaus, of taalmodellen die de stabiliteit van context volgen). Dit wordt gedreven door de eigen dynamiek en architectuur van het model.
Expliciete Renormalisatie: Post-hoc interpreteerbaarheidsinstrumenten (zoals SAE's of spectrale truncatie) die schaalparameters en vergrovingsregels opleggen om interpreteerbare structuren te extraheren.

Het kernvoorstel betreft het construeren van een RG-achtig schema voor NNs dat aan drie voorwaarden voldoet:

Definiëren van Coarse-grainings: Het identificeren van "model-natuurlijke" schalen (bijv. kernel eigenmodes, diffusietijd, contextlengte) en cut-offs die de impliciete hiërarchie van het model respecteren.
Effectieve Vrijheidsgraden: Het reduceren van het hoogdimensionale model tot een kleinere set effectieve kenmerken waarvan gedrag de macroscopische observeerbare grootheden voorspelt binnen een gespecificeerd foutenbudget. Dit omvat het vaststellen van een relevantie-ordening waarbij kenmerken worden gerangschikt op basis van hun bijdrage aan langetermijnobserveerbare grootheden.
Scheiding van Schalen: Het vaststellen van een eigenschap waarbij microscopische details (de irrelevante subspace) binnen een begrensde range kunnen variëren zonder het grove gedrag van het systeem materieel te veranderen. Dit wordt geformaliseerd als hiërarchische conditionele onafhankelijkheid, waarbij grove variabelen fungeren als voldoende statistieken voor fijnere variabelen.

Belangrijkste Bijdragen

Het artikel presenteert geen nieuwe experimentele resultaten, maar synthetiseert verspreide onderzoekslijnen tot een verenigde theoretische agenda. De primaire bijdragen zijn:

Formalisering van de Renormalisatie-analogie: De auteurs mappen RG-concepten (UV/IR cut-offs, relevante/irrelevante operatoren, vaste punten, universaliteitsklassen) naar NN-interpreteerbaarheid. Ze stellen dat "kenmerken" moeten worden beschouwd als effectieve vrijheidsgraden die op specifieke schalen ontstaan, in plaats van statische atomaire eenheden.
Identificatie van Faalmodi van Huidige Instrumenten: Het artikel bekritiseert bestaande methoden (zoals SAE's) vanwege het gebrek aan canoniciteit (verschillende runs leveren verschillende decomposities op), volledigheid (ontbrekende verstrengelde kenmerken) en getrouwheid (optimaliseren voor reconstructie in plaats van causale structuur). Ze argumenteren dat zonder een scheiding van schalen, deze instrumenten niet kunnen garanderen dat genegeerde kenmerken de veiligheidskritische outputs niet beïnvloeden.
Voorstel voor Onderzoeksobjecten: Om de kloof tussen theorie en praktijk te overbruggen, stellen de auteurs twee specifieke artefacten voor die analoog zijn aan "Toy Models of Superposition" (TMS) en SAE's:
- Toy Model of Renormalisation (TMR): Een synthetisch modelorganisme (bijv. gebruikmakend van hiërarchische datadistributies) om hypothesen te genereren over hoe kenmerken componeren en vergroven, waardoor bewijsbare grenzen op de invloed van fijnmazige details mogelijk worden.
- General Renormalisation Tool (GRT): Een schaalbare, post-hoc tool (analoog aan SAE's) die multi-schaal, interpreteerbare structuren extraheert uit echte modellen, potentieel gebruikmakend van technieken zoals real-space mutual information (RSMI) of lattice RG op activatiegrafen.
Survey van Bestaand Werk: Het artikel beoordeelt de literatuur over kernel-renormalisatie (NNGP, NTK, spectrale gaten) en data-ruimte-renormalisatie (hiërarchische datamodellen, fractale structuren), en demonstreert dat de theoretische fundamenten voor deze agenda al aanwezig zijn in de fysica en machine learning, maar nog niet zijn gesynthetiseerd voor AI-veiligheid.

Resultaten en Claims

Het artikel rapporteert geen empirische resultaten van een nieuwe tool of model. In plaats daarvan zijn de "resultaten" theoretische argumenten en een synthese van bestaande bewijsvoering:

Theoretische Haalbaarheid: De auteurs beargumenteren dat het renormalisatiekader volwassen genoeg is in de fysica om te worden aangepast aan NNs, waarbij ze verwijzen naar succesvolle toepassingen in diffusiemodellen, kerneltheorie en informatie-theoretische compressie.
Noodzaak van Schaalbewustzijn: Ze demonstreren dat huidige interpreteerbaarheidsinstrumenten vaak falen omdat ze de impliciete schalen van het model niet respecteren. Bijvoorbeeld: het behandelen van alle neuronen als gelijkwaardig negeert het feit dat sommige richtingen in de activatieruimte "relevant" zijn (grote eigenwaarden) terwijl andere "irrelevant" zijn (spectrale staarten).
Potentieel voor Garanties: Het artikel claimt dat een succesvol RG-gebaseerd raamwerk worst-case garanties kan bieden. Specifiek streeft het ernaar om stellingen te bewijzen van de vorm: "Gegeven een effectieve grove beschrijving, kunnen perturbaties beperkt tot de irrelevante subspace de observeerbare X niet met meer dan $\epsilon$ veranderen."

Betekenis en Claims

Het artikel positioneert zich als een oproep tot interdisciplinaire coördinatie tussen natuurkunde, neurowetenschappen, informatica en AI-veiligheid. De betekenis ligt in:

Verschuiving van de Doelstelling: Het verplaatsen van interpreteerbaarheid van "het vinden van menselijk begrijpelijke kenmerken" naar "het bieden van robuuste, theoretisch onderbouwde garanties" over wat een model wel en niet doet.
Adresseren van Veiligheid: Door de scheiding van schalen te formaliseren, beoogt het raamwerk te voorkomen dat gevaarlijke gedragingen (bijv. bedrog, steganografie) zich kunnen verbergen in de "irrelevante" fijnmazige details die huidige instrumenten weggooien.
Vereniging van Disparate Velden: Het streeft ernaar de kloof te overbruggen tussen theoretische fysica (renormalisatie, universaliteit) en praktische AI-veiligheid, door te suggereren dat de "rommelige" aard van NNs juist vatbaar kan zijn voor dezelfde statistische instrumenten die worden gebruikt om complexe fysieke systemen te begrijpen.

De auteurs blijven bescheiden over hun claims en erkennen dat NNs niet in alle regimes strikte universaliteit of kritikaliteit vertonen. Ze benadrukken dat het voorgestelde programma een weg is naar het ontwikkelen van instrumenten die "getrouw" en "robuust" zijn, in plaats van te beweren dat huidige methoden al voldoende zijn of dat de fysica-analogie een perfecte één-op-één mapping is. Het uiteindelijke doel is het bouwen van een raamwerk waar interpreteerbaarheid niet slechts een engineering-heuristiek is, maar een discipline geworteld in de statistische fysica die in staat is de invloed van weggefilterde informatie te begrenzen.