Lecture Notes on Statistical Physics and Neural Networks

Het Grote Plaatje: Fysiek ontmoet AI

Stel je twee heel verschillende werelden voor: Statistische Fysica (de studie van hoe biljoenen atomen samen gedragen, zoals in een magneet of een gas) en Neurale Netwerken (de computerhersenen achter moderne AI).

Dit artikel stelt dat deze twee werelden eigenlijk dezelfde taal spreken. De auteur, een natuurkundige, schreef deze notities om aan te tonen dat de wiskunde die beschrijft hoe atomen patronen aannemen, bijna identiek is aan de wiskunde die wordt gebruikt om AI te trainen om katten te herkennen of gedichten te schrijven. Hij wil laten zien dat je geen natuurkundige hoeft te zijn om te begrijpen hoe AI werkt, omdat de kernconcepten—zoals "temperatuur", "energie" en "faseovergangen"—slechts verschillende namen zijn voor dezelfde statistische ideeën.

Deel 1: De Regels van het Spel (Basis van Statistische Fysica)

Het Energielandschap
Stel je een gigantisch, heuvelachtig landschap voor. Elke mogelijke configuratie van een systeem (zoals een magneet of een netwerk van neuronen) is een specifieke plek op deze kaart.

Energie: Sommige plekken zijn diepe dalen (lage energie) en sommige zijn hoge pieken (hoge energie). De natuur houdt van dalen; systemen willen van nature naar het laagste punt rollen.
Temperatuur: Denk aan temperatuur als "trillen".
- Koud (Lage Temp): Het systeem is kalm. Het rolt rechtstreeks naar het diepste dal en blijft daar. Het geeft alleen om de absolute beste oplossing.
- Heet (Hoge Temp): Het systeem is onrustig. Het springt wild rond, zowel hoge pieken als diepe dalen verkennend. Het geeft niet veel om de "beste" plek; het dwaalt gewoon willekeurig.

De Boltzmann-verdeling
Dit is het regelboek dat zegt: "Bij een bepaalde temperatuur, hoe waarschijnlijk is het dat het systeem zich op een specifieke plek bevindt?"

Als het koud is, bevindt het systeem zich bijna zeker in het diepste dal.
Als het heet is, is het systeem overal verspreid, maar het geeft nog steeds iets de voorkeur aan dalen boven pieken.

Faseovergangen
Dit is als water dat bevriest tot ijs.

Stel je een menigte mensen voor. Als ze allemaal willekeurig bewegen (heet), zijn ze een "gas". Als ze plotseling besluiten om allemaal in een perfect raster te gaan staan en hand in hand te houden (koud), hebben ze een faseovergang ondergaan.
In de fysica gebeurt dit bij een specifieke "kritieke temperatuur". Het artikel legt uit dat deze plotselinge veranderingen wiskundig lastig te voorspellen zijn, tenzij je je het systeem oneindig groot voorstelt.

Deel 2: De Renormalisatiegroep (De "Uitzoomen"-lens)

Dit is het beroemdste natuurkundige concept uit het artikel, gebruikt om die plotselinge faseveranderingen te begrijpen.

De Analogie: De Menigtefoto
Stel je een foto voor van een stadion vol mensen.

Microscopisch Gezicht: Je kijkt naar elke individuele persoon. Je ziet wie een rood shirt draagt, wie blauw, wie zwaait. Dit is te veel detail.
Het "Uitzoomen" (RG): Je doet een stap terug. In plaats van individuen te zien, zie je blokken van 4 mensen. Je vraagt: "Wat is de gemiddelde kleur van dit blok?"
Het Resultaat: Je hebt nu een nieuwe, kleinere foto met minder "pixels" (blokken), maar het ziet er nog steeds uit als een stadion. De regels voor hoe deze blokken met elkaar interageren, zijn iets anders dan de regels voor individuele mensen, maar het type afbeelding blijft hetzelfde.

Waarom het belangrijk is:
Als je blijft uitzoomen (dit proces herhalen), zie je uiteindelijk het "grote plaatje".

Als het systeem zich in een normale toestand bevindt, ziet de uitgezoomde afbeelding er uiteindelijk uit als een saaie, uniforme grijze vlek.
Als het systeem zich op een kritiek punt bevindt (zoals het exacte moment waarop water bevriest), ziet de uitgezoomde afbeelding er precies hetzelfde uit, ongeacht hoe ver je uitzoomt. Het is "schaalinvariant". Dit vertelt natuurkundigen dat er een grote verandering (faseovergang) plaatsvindt.

Deel 3: Neurale Netwerken als Draaiende Magneten

Het artikel verbindt deze fysica met Hopfield-netwerken en Boltzmann-machines.

De Neuron als Magneet

In een magneet kan een atoom "Omhoog" (+1) of "Omlaag" (-1) draaien.
In een Hopfield-netwerk kan een "neuron" "Aan" (+1) of "Uit" (-1) zijn.
De Connectie: Net zoals magneten hun buren beïnvloeden (als één omhoog draait, wil het dat zijn buur ook omhoog draait), beïnvloeden neuronen elkaar met "gewichten".
Geheugen: Een Hopfield-netwerk is als een landschap met veel dalen. Elk dal staat voor een herinnering (zoals een foto van een gezicht). Als je het netwerk een wazige, ruisende versie van dat gezicht geeft, "rolt het naar beneden" de energieheuvel tot het zich vestigt in het juiste dal, waardoor het effectief het schone beeld "onthoudt".

Boltzmann-machines (De Probabilistische Versie)

Een standaard Hopfield-netwerk is deterministisch: het rolt altijd naar de bodem.
Een Boltzmann-machine voegt "temperatuur" toe. Het staat het netwerk toe om af en toe uit een dal te springen. Dit helpt het om het landschap beter te verkennen en niet vast te komen zitten in een "lokaal minimum" (een kleine dip die niet het diepste dal is).
Leren: Het doel is om de "gewichten" (de verbindingen) aan te passen zodat de natuurlijke "dalen" van het netwerk overeenkomen met de data die het moet leren (zoals een dataset met handgeschreven cijfers).

Beperkte Boltzmann-machines (RBM) & de "Verborgen" Laag

Stel je een zichtbare laag voor (data die je kunt zien) en een verborgen laag (neuronen die je niet kunt zien).
Het artikel legt uit dat het "wegintegreren" van de verborgen neuronen precies hetzelfde is als het "uitzoomen" van de Renormalisatiegroep.
Door de verborgen neuronen wiskundig te verwijderen, krijg je een nieuwe, eenvoudigere set regels voor de zichtbare neuronen. Dit stelt de machine in staat om complexe patronen te leren zonder dat elke enkele verborgen detail expliciet hoeft te worden berekend.

Deel 4: Moderne Deep Learning en Grote Taalmodellen (LLM's)

Het artikel gaat over van deze oudere "Boltzmann"-ideeën naar moderne AI.

Deep Learning

In plaats van slechts één verborgen laag, hebben moderne netwerken vele lagen die op elkaar gestapeld zijn.
Backpropagation: Dit is het "leer"-algoritme. Stel je voor dat je een bal op een doel gooit en mist. Je berekent precies hoeveel je mist, traceert de fout terug door elke laag van het netwerk en past de gewichten iets aan om de volgende keer beter te mikken. Zo leert het netwerk katten te herkennen of talen te vertalen.

Grote Taalmodellen (LLM's)

De Taak: Het voorspellen van het volgende woord in een zin.
Het Mechanisme: Het artikel beschrijft de Transformer-architectuur.
- Embedding: Elk woord wordt omgezet in een vector (een lijst met getallen) die de betekenis ervan vertegenwoordigt.
- Attention: Dit is de magische saus. Wanneer het model een zin leest, kijkt het niet alleen naar het vorige woord; het "let op" alle vorige woorden om te bepalen welke het meest relevant zijn voor het huidige woord. (Bijvoorbeeld: in "De oever van de rivier" weet het dat "oever" over water gaat, niet over geld, vanwege "rivier").
De Fysieke Connectie: Hoewel LLM's complexe wiskunde gebruiken, is de laatste stap van het voorspellen van het volgende woord in essentie een Boltzmann-verdeling. Het model wijst een "energie" toe aan elk mogelijk volgend woord. Het woord met de laagste energie (hoogste waarschijnlijkheid) is de meest waarschijnlijke keuze.
Temperatuur in AI: Net als in de fysica kun je de "temperatuur" van een LLM aanpassen.
- Lage Temp: Het model kiest elke keer het meest waarschijnlijke woord (zeer veilig, maar saai).
- Hoge Temp: Het model neemt meer risico's, kiest minder waarschijnlijke woorden, waardoor de tekst creatiever wordt (en soms onzin).

Deel 5: De Toekomst (Schalingswetten)

Het artikel eindigt met een kijkje in een vreemd fenomeen in moderne AI genaamd Schalingswetten.

De Observatie: Als je een AI-model groter maakt (meer neuronen) en het meer data voert, wordt de prestatie niet gewoon een beetje beter; het verbetert op een voorspelbare, wiskundige manier (een "power law").
De Fysieke Link: Dit ziet er precies uit als de Schalingswetten in de statistische fysica nabij een faseovergang. In de fysica gedragen verschillende materialen (water, magneten, ijzer) zich op dezelfde manier nabij hun kritieke punten, ongeacht hun microscopische details.
De Speculatie: De auteur suggereert dat Deep Learning misschien zijn eigen "thermodynamica" heeft. Er zouden universele regels kunnen zijn die regeren hoe AI verbetert, net zoals er universele regels zijn voor hoe atomen zich gedragen, ongeacht waaruit de atomen zijn gemaakt.

Samenvatting

Dit artikel is een brug. Het vertelt ons dat de "magie" van moderne AI helemaal geen magie is; het is statistiek. Door neuronen als atomen te behandelen en leren als het afkoelen van een heet systeem, kunnen we de krachtige tools van de fysica gebruiken om te begrijpen hoe kunstmatige intelligentie leert, onthoudt en evolueert.

Technische Samenvatting: Collegeaantekeningen over Statistische Fysica en Neuronale Netwerken

Probleemstelling
Deze collegeaantekeningen adresseren de noodzaak om klassieke statistische fysica te verbinden met de theoretische fundamenten van moderne neuronale netwerken en deep learning. De auteur identificeert een lacune in standaard natuurkunde-curricula, waar concepten zoals faseovergangen, de renormalisatiegroep (RG) en Boltzmann-verdelingen zelden worden verbonden met kunstmatige intelligentie (KI), ondanks de gedeelde woordenschat (temperatuur, entropie, energie) en wiskundige structuren. Het doel is om statistische fysica te presenteren als een tak van de kansrekening om deze concepten toegankelijk te maken voor lezers zonder eerdere fysica-opleiding, terwijl tegelijkertijd een technische introductie wordt geboden in de werking van neuronale netwerken, van Hopfield-netwerken tot Large Language Models (LLMs).

Methodologie
De aantekeningen hanteren een pedagogische aanpak die statistische mechanica behandelt als een raamwerk voor kansverdelingen over eindige configuratieruimten, waarbij uiteindelijk de thermodynamische limiet wordt genomen ( $N \to \infty$ ). De methodologie verloopt via vier hoofdfasen:

Fundamenten van Statistische Fysica: De tekst definieert de Boltzmann-Gibbs-verdeling $P_\beta(x) \propto e^{-\beta E(x)}$ op eindige configuratieruimten. Het introduceert thermodynamische potentialen (vrije energie, entropie) en definieert faseovergangen als singulariteiten die ontstaan in de thermodynamische limiet. Het Ising-model (1D en 2D) en het Curie-Weiss-model worden gebruikt als primaire voorbeelden om exacte oplossingen en het ontstaan van faseovergangen te demonstreren.
Renormalisatiegroep (RG): De RG wordt geïntroduceerd als een methode om faseovergangen te identificeren door vrijheidsgraden "weg te integreren". Dit wordt expliciet gedemonstreerd voor 1D- en 2D-Ising-modellen, waarbij het sommeren over subsets van spins leidt tot een transformatie van koppelingsconstanten. De aantekeningen analyseren RG-stromen, vaste punten en stabiliteit (relevante versus irrelevante perturbaties) om schaal-invariantie en kritieke exponenten te verklaren.
Neuronale Netwerkmodellen: De aantekeningen koppelen spin-glasmodellen aan neuronale netwerken.
- Hopfield-netwerken: Gedefinieerd als deterministische dynamische systemen waarbij neuronstoestanden ( $\sigma_i = \pm 1$ ) evolueren om een energiefunctie te minimaliseren die identiek is aan de spin-glas Hamiltoniaan.
- Boltzmann-machines: Geïntroduceerd als stochastische versies van Hopfield-netwerken die worden bestuurd door een temperatuurparameter. Het leeralgoritme wordt gepresenteerd als een invers probleem: het minimaliseren van de Kullback-Leibler-divergentie tussen een data-verdeling en de Boltzmann-verdeling door gewichten aan te passen.
- Restricted Boltzmann Machines (RBMs): Een specifieke architectuur waarbij zichtbare en verborgen neuronen met elkaar verbonden zijn, maar neuronen binnen dezelfde laag niet. De aantekeningen beschrijven het "wegintegreren" van verborgen neuronen om een effectieve energiefunctie voor zichtbare neuronen af te leiden, waarbij expliciet een parallel wordt getrokken met RG-transformaties.
Deep Learning en LLMs: De aantekeningen maken de overgang naar modern deep learning, waarbij feedforward-netwerken en het backpropagatie-algoritme voor het minimaliseren van verliesfuncties via gradient descent worden beschreven. Tot slot wordt de architectuur van Large Language Models (Transformers) beschreven, met focus op token-embeddings, positionele encoding en het attention-mechanisme (single-head en multi-head). Het generatieproces wordt teruggekoppeld naar de Boltzmann-verdeling via een temperatuurparameter die wordt toegepast op de output-logits.

Belangrijkste Bijdragen en Resultaten

Unificatie van Concepten: De tekst demonstreert succesvol dat de energiefuncties die spin-glasmodellen (Ising, Edwards-Anderson) besturen, wiskundig identiek zijn aan de energiefuncties van Hopfield-netwerken en Boltzmann-machines, en slechts verschillen in de interpretatie van variabelen (spins versus neuronen) en parameters (koppelingen versus gewichten).
RG en RBMs: Een specifieke technische bijdrage is de expliciete afleiding die aantoont dat het wegintegreren van verborgen neuronen in een RBM een effectieve energiefunctie voor zichtbare neuronen induceert. De aantekeningen tonen aan dat dit in leidende orde resulteert in een spin-glas type model met effectieve koppelingen die zijn afgeleid van de oorspronkelijke zichtbaar-verborgen gewichten, waardoor een concrete statistisch-fysische interpretatie van het concept "verborgen laag" wordt geboden.
Faseovergangen in Modellen: De aantekeningen bieden exacte oplossingen voor het 1D-Ising-model (waarbij geen faseovergang wordt aangetoond) en benaderende RG-analyses voor het 2D-Ising-model (waarbij een niet-triviaal vast punt en een faseovergang van de tweede orde worden geïdentificeerd). Het Curie-Weiss-model wordt gebruikt om een mean-field faseovergang te demonstreren via de bifurcatie van magnetisatie.
Schaalwetten: In het vooruitzicht worden empirische "schaalwetten" benadrukt die bij LLMs worden waargenomen, waarbij het trainingsverlies machtswet-afhankelijkheden volgt van het aantal parameters, de datasetgrootte en de rekenkracht. Deze worden vergeleken met kritieke exponenten in statistische fysica, wat een mogelijke universaliteit in deep learning-prestaties suggereert.
Algoritmische Details: De aantekeningen bieden stap-voor-stap afleidingen voor:
- De transfer-matrixmethode voor het 1D-Ising-model.
- De linearisatie van RG-stromen om stabiliteitseigenwaarden te bepalen.
- De gradient descent update-regel voor Boltzmann-machines die de verschillen tussen data- en modelcorrelaties omvat.
- Het backpropagatie-algoritme met gebruik van de kettingregel en Hadamard-producten.
- De wiskundige formulering van het Transformer attention-mechanisme en de softmax-uitvoer.

Betekenis en Claims
De auteur stelt dat deze aantekeningen dienen als een zelfstandige introductie voor natuurkundestudenten om de statistische mechanica achter KI te begrijpen, en omgekeerd, om een statistisch-fysisch perspectief op neuronale netwerken te bieden.

Toegankelijkheid: De aantekeningen beogen geavanceerde concepten zoals de renormalisatiegroep toegankelijk te maken door ze te verankeren in de eenvoudigere context van het Ising-model voordat ze worden toegepast op neuronale netwerken.
Motivatie voor Deep Learning: De tekst merkt op dat hoewel modern deep learning (bijvoorbeeld Transformers) niet strikt Boltzmann-machine trainingsalgoritmen gebruikt, de kernidee van het coderen van verborgen regulariteiten in lagen van verborgen neuronen centraal blijft. De aantekeningen suggereren dat het "wegintegreren" van verborgen variabelen in RBMs een conceptueel voorloper biedt voor de hiërarchische feature-extractie in deep learning.
Theoretisch Raamwerk: De auteur stelt dat het succes van deep learning, met name het fenomeen van "double descent" in generalisatiecurves en de machtswet-schaalwetten van LLMs, uiteindelijk een theoretisch raamwerk kan vereisen dat analoog is aan thermodynamica of statistische mechanica. De aantekeningen claimen niet deze problemen opgelost te hebben, maar identificeren ze als kwantitatieve empirische waarnemingen die een toekomstige theorie van deep learning moet verklaren.
Pedagogisch Experiment: De auteur stelt expliciet dat deze aantekeningen het resultaat zijn van een experiment om de technische details van KI te leren met behulp van KI-assistenten, terwijl er tegelijkertijd strenge handmatige verificatie van alle berekeningen en bewijzen plaatsvond.

Het artikel concludeert met de nadruk dat hoewel de connectie tussen statistische fysica en moderne LLMs momenteel minder voor de hand ligt dan bij Boltzmann-machines, de gedeelde wiskundige structuren (schaalwetten, energielandschappen) suggereren dat concepten uit de statistische fysica waardevolle inzichten kunnen bieden in het gedrag van grootschalige neuronale netwerken.