A new Uncertainty Principle in Machine Learning

Each language version is independently generated for its own context, not a direct translation.

De Kernboodschap: Een Nieuw "Onzekerheidsprincipe" voor AI

Stel je voor dat je een machine learning-model (een slimme computer) wilt leren om een heel specifiek wiskundig antwoord te vinden. In de wetenschap is er vaak maar één juist antwoord (bijvoorbeeld: de formule voor de zwaartekracht). Maar in de normale wereld van AI (zoals het herkennen van katten op foto's) is er vaak geen enkel "perfect" antwoord, maar wel een "goed genoeg" antwoord.

De auteurs van dit paper zeggen: "Wanneer we AI gebruiken voor exacte wetenschap, lopen we tegen een muur op die we een Nieuw Onzekerheidsprincipe noemen."

De Analogie: De Diepe Kloof (De "Canyon")

Om dit uit te leggen, gebruiken we een analogie met een landschap en een blinde wandelaar.

1. Het Doel: De Diepste Vallei vinden
Stel je voor dat je een computerprogramma hebt dat een bal over een berglandschap moet rollen om de laagste punt (de "waarde 0" of het perfecte antwoord) te vinden. Dit noemen we stijgende afstijging (steepest descent). De computer kijkt naar de helling en rolt de bal altijd de steilste kant af.

2. Het Probleem: De "Canyons"
In de gewone wereld (bijvoorbeeld bij het herkennen van gezichten) is het landschap ruw, met veel kleine kuilen. De bal rolt snel naar beneden en stopt ergens redelijk goed.

Maar in de wetenschap, waar we proberen wiskundige formules (polynomen) te leren, is het landschap anders. Het ziet eruit als een diepe, smalle kloof (een canyon).

De wanden van de kloof zijn heel steil. Als de bal een beetje opzij rolt, valt hij direct terug naar de bodem.
Maar de bodem van de kloof is extreem vlak.

3. De Valstrik
Hier komt het probleem:

De computer rolt heel snel naar de bodem van de kloof (dat gaat makkelijk).
Maar zodra hij op de bodem is, is het zo vlak dat de computer niet meer weet welke kant op te gaan. Het lijkt alsof de helling nul is.
De computer blijft dan eeuwig rondlopen op de bodem van de kloof, heel langzaam, en komt nooit bij het echte einddoel (het diepste punt van de kloof) aan.

Dit is wat de auteurs een "degeneratie" noemen. Er zijn te veel manieren om een "bijna goed" antwoord te geven, en de computer raakt hierin verstrikt.

De Analogie: De Scherpere de Scherpte, de Vlakker de Weg

De titel van het paper verwijst naar een "Onzekerheidsprincipe", net zoals in de quantummechanica (waar je niet tegelijkertijd de snelheid en positie van een deeltje perfect kunt weten).

In dit AI-probleem geldt:

Hoe scherper en preciezer je het echte antwoord wilt hebben (hoe "mooier" het minimum is),
Des te vlakker en langer de weg (de canyon) is die je moet afleggen om daar te komen.

Het is een paradox: om een heel precies antwoord te vinden, moet je een heel precieze route volgen, maar de computer kan die route niet vinden omdat de weg eruitziet als een oneindig vlakke vlakte.

De "Heaviside" en "Sigmoïde" (De Schakelaar en de Dimmer)

De auteurs gebruiken een wiskundig trucje om formules te maken.

Heaviside: Denk aan een lichtschakelaar. Of het licht is aan (1) of uit (0). Dit is scherp en duidelijk.
Sigmoïde: Computers kunnen niet goed met schakelaars werken. Ze gebruiken daarom een "dimmer". Het licht gaat langzaam van uit naar aan (0 naar 1).

Het probleem is dat deze "dimmer" (sigmoïde) de canyon nog vlakker maakt. De computer denkt dat hij al bijna op de top is, terwijl hij eigenlijk nog kilometers van het echte doel verwijderd is.

Wat betekent dit voor de toekomst?

Wetenschap is anders dan "Big Data": AI werkt geweldig als je veel data hebt en een "goed genoeg" antwoord wilt (zoals bij Netflix of Google). Maar voor exacte wetenschap (wiskunde, natuurkunde), waar het antwoord uniek en perfect moet zijn, werkt de standaard-AI vaak vast.
Het is geen softwarefout, maar natuurkunde: De auteurs zeggen dat dit geen bug is in de software (zoals TensorFlow), maar een fundamenteel probleem, net als de wetten van de fysica. Je kunt het niet "fixen" door de computer sneller te maken.
De oplossing? Je moet de computer slim helpen. Je kunt niet zomaar "willekeurig" beginnen met zoeken. Je moet de computer een goede startpositie geven (een "ansatz"), zodat hij niet in de verkeerde canyon terechtkomt.

Samenvattend in één zin:

Wanneer je AI gebruikt om de geheimen van het universum te ontrafelen, loop je vast in een oneindig lange, vlakke tunnel; hoe preciezer je het antwoord wilt, hoe moeilijker het is om die tunnel uit te komen, en dat is een nieuw soort "onzekerheidsprincipe" dat we nog moeten leren begrijpen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Een nieuw Onzekerheidsprincipe in Machine Learning

Auteurs: V. Dolotin en A. Morozov
Instituten: MIPT, Kurchatov Institute, IITP, ITEP (Rusland)

1. Het Probleem

Het artikel adresseert de fundamentele uitdaging bij het toepassen van Machine Learning (ML) op exacte wetenschappelijke problemen (zoals het oplossen van polynomen of het vinden van determinanten).

Het kernprobleem: In standaard ML-zoeken naar correlaties in data zonder een unieke "ware" oplossing. In de wetenschap bestaat er echter een unieke, exacte oplossing (een natuurwet), en het doel is om deze exact te vinden en niet in een lokaal minimum (een "valse" oplossing) vast te lopen.
De valkuil: ML-algoritmen gebruiken vaak "steepest descent" (gradiëntafdaal) methoden om een verliesfunctie (loss functional) te minimaliseren. De auteurs stellen dat deze methoden vaak vastlopen in diepe, smalle dalen ("canyons") in het landschap van de verliesfunctie. Deze canyons liggen dicht bij het startpunt maar ver verwijderd van het werkelijke globale minimum.
Oorzaak: Dit fenomeen wordt veroorzaakt door de degeneratie (ontaarding) van de expansie van polynomen in termen van Heaviside-stapfuncties (of hun gladde versie, sigmoids).

2. Methodologie

De auteurs analyseren het probleem door ML te benaderen als een theoretisch-fysisch probleem in plaats van een puur computationeel een.

Heavisidization van Polynomen:
- Het artikel toont aan dat elke polynoom (van willekeurige graad en aantal variabelen) exact kan worden weergegeven door een twee-laags netwerk dat is opgebouwd uit Heaviside-stapfuncties ( $\theta(x)$ ).
- De formule luidt:
  $Pol(\vec{x}) = \int_I w^I_2 \cdot \theta\left( \int_J w^{IJ}_1 \cdot \theta(\vec{w}^J_0 \vec{x} + b^J_0) + b^I_1 \right)$
- Dit betekent dat de algebraïsche geometrie van polynomen theoretisch volledig kan worden gereduceerd tot het werken met dergelijke netwerken.
Van Heaviside naar Sigmoid:
- In de praktijk worden Heaviside-functies vervangen door gladde sigmoids ( $\sigma$ ) om differentiatie mogelijk te maken voor ML-training.
- De auteurs analyseren de overgang van de discrete Heaviside-landschappen naar de continue sigmoid-landschappen.
Analyse van Degeneratie:
- Er wordt onderzocht hoe de parameters (gewichten $w$ en biases $b$ ) zich gedragen tijdens de training. Het artikel toont aan dat er vaak een continuüm van oplossingen bestaat (een "vallei") waar de verliesfunctie minimaal is, maar waar de gradiënt zeer klein is in de richting van het echte minimum.

3. Kernbijdrage: Het Nieuwe Onzekerheidsprincipe

De belangrijkste theoretische bijdrage is de formulering van een nieuw Onzekerheidsprincipe specifiek voor ML en Heaviside/Sigmoid-expansies.

De stelling: "Hoe scherper het minimum van de functionaal is, hoe gladder de canyons zijn die er naartoe leiden."
Vergelijking met Fourier: Dit is een direct analogon van het Heisenberg-onzekerheidsprincipe in de kwantummechanica (en de eigenschappen van Fourier-transformaties). Bij Fourier geldt: hoe scherper een functie in de tijdruimte, hoe breder het spectrum in de frequentieruimte.
In ML-context:
- Om een zeer nauwkeurige (scherpe) representatie van een functie te bereiken (een goed gedefinieerd minimum), moet het netwerk een groot aantal parameters (coëfficiënten) gebruiken.
- Dit leidt tot een enorme degeneratie in de parameterruimte: er ontstaan talloze "canyons" (richtingen met een zeer lage gradiënt).
- Gevolg: Hoe preciezer de oplossing moet zijn, hoe moeilijker en langzamer het trainingsproces wordt, omdat de algoritmen vastlopen in deze canyons en slechts zeer traag bewegen naar het werkelijke minimum.

4. Resultaten en Numerieke Voorbeelden

De auteurs ondersteunen hun theorie met numerieke experimenten, vaak uitgevoerd met TensorFlow, op eenvoudige wiskundige problemen:

Identiteitsfunctie ( $y=x$ ):
- Bij het trainen van een netwerk om $y=x$ te leren, ontdekt men dat er een hele "vallei" van correcte parameters bestaat ( $W \cdot w = 1$ ).
- Zodra een bias-term ( $b$ ) wordt toegevoegd, wordt deze degeneratie opgeheven, maar ontstaat er een extreem diepe en smalle canyon. De gradiëntafdaal beweegt snel naar de bodem van de canyon, maar beweegt extreem traag langs de bodem naar het echte minimum.
Determinanten en Polynomen:
- Experimenten met $1\times1$ en $3\times3$ determinanten tonen aan dat willekeurige initialisatie van gewichten vaak leidt tot slechte convergentie of vastlopen in lokale minima.
- Als men echter start met een ansatz (startconfiguratie) die gebaseerd is op de analytische Heaviside-formule (de "ware" oplossing), convergeert het netwerk veel sneller en nauwkeuriger. Dit bevestigt dat de analytische structuur cruciaal is om de canyons te vermijden.
TensorFlow vs. Analytische Aanpak:
- Standaard ML-software (zoals TensorFlow) gebruikt "batches" en willekeurige startpunten om te proberen uit canyons te ontsnappen. De auteurs tonen aan dat dit een empirische omweg is die de onderliggende fysica van het probleem (de degeneratie) niet oplost, maar slechts probeert eromheen te werken.

5. Betekenis en Conclusie

Wetenschappelijke Implicatie: De problemen die ML tegenkomt in de exacte wetenschappen zijn fundamenteel natuurkundige problemen, geen computertechnische beperkingen. Ze vereisen een nieuwe theoretische benadering.
Uitbreiding van het Onzekerheidsprincipe: Het artikel breidt het concept van het onzekerheidsprincipe uit van Fourier- en golflet-analyse naar een nieuwe klasse van bijna-singuliere sigmoid-functies.
Praktische Conclusie:
- Er is een optimale grootte voor een netwerk. Het toevoegen van meer neuronen dan nodig voor de "regulariteit" van de doelfunctie creëert overbodige dimensies in de parameterruimte, wat leidt tot canyons en een drastische vertraging van de training zonder verbetering van de nauwkeurigheid.
- Voor wetenschappelijke problemen is het essentieel om de trainingsdata en de netwerkarchitectuur te baseren op de onderliggende analytische structuur (de "ansatz") in plaats van te vertrouwen op pure data-driven benaderingen met willekeurige initialisatie.

Samenvattend waarschuwt het artikel dat het blindelings toepassen van standaard ML-methoden op exacte wiskundige problemen gedoemd is te falen door dit nieuwe onzekerheidsprincipe, en pleit het voor een synthese van wiskundige analyse en machine learning.

A new Uncertainty Principle in Machine Learning

De Kernboodschap: Een Nieuw "Onzekerheidsprincipe" voor AI

De Analogie: De Diepe Kloof (De "Canyon")

De Analogie: De Scherpere de Scherpte, de Vlakker de Weg

De "Heaviside" en "Sigmoïde" (De Schakelaar en de Dimmer)

Wat betekent dit voor de toekomst?

Samenvattend in één zin:

Titel: Een nieuw Onzekerheidsprincipe in Machine Learning

1. Het Probleem

2. Methodologie

3. Kernbijdrage: Het Nieuwe Onzekerheidsprincipe

4. Resultaten en Numerieke Voorbeelden

5. Betekenis en Conclusie

Meer zoals dit

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions