An Approximation Theory Perspective on Machine Learning

Each language version is independently generated for its own context, not a direct translation.

De Kunst van het Voorspellen: Waarom Machine Learning Meer is dan Alleen "Gokken"

Stel je voor dat je een enorme bibliotheek binnenloopt. Deze bibliotheek bevat miljoenen boeken, maar niemand weet de titels of de inhoud. Je hebt een lijstje met een paar voorbeelden: "Dit boek gaat over katten," "Dit boek gaat over ruimtevaart." Je taak is om voor elk nieuw boek dat je tegenkomt, de juiste titel te voorspellen. Dit is in feite wat Machine Learning doet.

De auteurs van dit paper, Hrushikesh Mhaskar, Efstratios Tsoukanis en Ameya Jagtap, kijken naar dit probleem door de bril van een oude, zeer strenge wiskundige discipline: Aanpassingstheorie (Approximation Theory).

Hier is een eenvoudige uitleg van hun boodschap, met behulp van alledaagse vergelijkingen.

1. Het Grote Misverstand: Gokken vs. Bouwen

In de huidige wereld van AI (zoals ChatGPT of zelfrijdende auto's), laten we vaak een computer een model "leren" door het duizenden keren te laten proberen en te straffen als het fout gaat. Dit noemen ze empirisch risico minimaliseren. Het is alsof je een kind duizenden keren laat raden welk dier op een foto staat, en je hoopt dat het op een dag het patroon snapt.

De auteurs zeggen: "Wacht even. Waarom gokken we als we de blauwdruk kunnen gebruiken?"
Aanpassingstheorie is de blauwdruk. Het is de wiskunde die precies vertelt hoe goed je een functie (een regel) kunt benaderen met een bepaalde hoeveelheid bouwstenen. Het probleem is dat machine learning vaak deze blauwdruk negeert. Hierdoor weten we niet altijd zeker of een model echt slim is, of dat het gewoon de antwoorden uit zijn hoofd heeft geleerd (wat we memoriseren noemen).

2. De Vloek van de Dimensie: De Ontzettende Labyrinten

Stel je voor dat je een schatkaart moet maken.

Als de kaart 2D is (lengte en breedte), is het makkelijk.
Maar stel je voor dat je kaart 1000 dimensies heeft (lengte, breedte, hoogte, temperatuur, windkracht, kleur, geluid, etc.).

In de wiskunde heet dit de "Vloek van de Dimensie". Het betekent dat als je meer variabelen toevoegt, het aantal punten dat je nodig hebt om de kaart te tekenen, exponentieel explodeert. Het is alsof je probeert een heel land te verkennen door alleen maar één steen per seconde te leggen; je zou de hele eeuw nodig hebben.

De auteurs zeggen: "De meeste AI-modellen proberen dit labyrint te doorlopen alsof het een vlakke vlakte is." Maar in werkelijkheid zit onze data vaak op een manifold.

De Analogie: Denk aan een vel papier dat in een 3D-ruimte is gekreukt. Het papier zelf is 2D (je hebt alleen lengte en breedte nodig om erop te lopen), maar het zit in een 3D-ruimte. Als je probeert het papier te bestuderen alsof het een hele kubus is, mislukt het. Maar als je weet dat het een gekreukt vel papier is, kun je het veel sneller begrijpen. Machine learning moet leren dat de data op zo'n "gekreukt vel" zit, zonder eerst de hele vorm van het vel te hoeven meten.

3. Diepe Netwerken: De Lego-blokken

Waarom zijn "diepe" neurale netwerken (met veel lagen) zo populair?

De Vergelijking: Stel je voor dat je een ingewikkeld beeld moet tekenen.
- Een flauw netwerk (één laag) moet elke lijn en elk detail in één keer proberen te tekenen. Dat is als proberen een hele stad in één tekening te maken zonder schetsen.
- Een diep netwerk bouwt het stap voor stap. Eerst tekent het lijnen, dan vormen, dan objecten, en tenslotte de hele stad.
- De auteurs laten zien dat als de wereld (de data) een bepaalde hiërarchische structuur heeft, diepe netwerken dit veel efficiënter kunnen benaderen dan flauwe netwerken. Ze kunnen de "composities" van de wereld snappen.

4. Een Nieuwe Manier: Kijken zonder te Meten

Een van de coolste ideeën in dit paper is hoe we data kunnen benaderen zonder eerst de "kaart" van de wereld te tekenen.

De Oude Manier: Om een berg te bestuderen, maak je eerst een gedetailleerde topografische kaart (eigenwaarden, Laplace-Beltrami operator, etc.). Dit is duur, tijdrovend en als je een foutje maakt in de kaart, is je hele analyse fout.
De Nieuwe Manier (van de auteurs): Je kunt de berg bestuderen door gewoon over het terrein te lopen en metingen te doen op de plekken waar je bent, zonder de kaart te kennen. Ze gebruiken een wiskundig trucje (gebaseerd op "geconcentreerde ongelijkheden") om direct een goed voorspellend model te bouwen, zelfs als je niet weet hoe de onderliggende vorm eruitziet. Het is alsof je een foto maakt van een object in het donker met een flits, en je ziet het direct, zonder eerst een 3D-scanner te gebruiken.

5. Classificatie als "Signaalafscheiding"

Hoe onderscheid je katten van honden?

Traditioneel: Je leert het model de kenmerken van een kat en een hond, en het zoekt de grens tussen hen.
De Nieuwe Visie: Stel je voor dat je een radio hebt die twee zenders tegelijk uitzendt. Je wilt weten waar de ene zender eindigt en de andere begint. Dit heet signaalscheiding.
- De auteurs zeggen: "Behandel classificatie niet als het vinden van een grens, maar als het scheiden van de bronnen."
- Dit werkt zelfs als de "grens" erg wazig is of als de data overlapt. Het is alsof je twee verschillende muziekgenres door elkaar hoort spelen en je probeert te zeggen: "Hier is de jazz, daar is de rock," zonder dat je eerst de partituren hoeft te kennen.

6. Transformers en Aandacht: De Magische Zoektocht

Je hebt vast wel gehoord van Transformers (de technologie achter moderne AI). Ze gebruiken een mechanisme genaamd "Attention" (aandacht).

De Vergelijking: Stel je voor dat je een lange tekst leest. Een gewone lezer leest woord voor woord. Een Transformer kijkt naar het hele verhaal en vraagt zich af: "Welk woord in deze zin is het belangrijkst voor het woord dat ik nu moet voorspellen?"
De auteurs laten zien dat dit "aandacht"-mechanisme eigenlijk een heel slimme manier is om te kijken naar de "sfeer" van de data. Het is wiskundig bijna hetzelfde als een bestaande, oude techniek genaamd "Sferische Basisfuncties". Ze zeggen: "We hoeven niet te denken dat dit iets compleet nieuws en onbegrijpelijks is; het is gewoon een geavanceerde versie van iets wat we al wiskundig begrijpen."

Conclusie: Waarom dit belangrijk is

De kernboodschap van dit paper is: Stop met blind vertrouwen op "trial and error".

Machine learning werkt vaak wonderbaarlijk goed, maar we begrijpen niet altijd waarom. Door de oude, strenge wiskunde van de aanpassingstheorie weer in de basis te leggen, kunnen we:

Betere modellen bouwen die minder data nodig hebben.
Begrijpen waarom sommige modellen falen.
Modellen maken die niet alleen "leren", maar echt "begrijpen" hoe de wereld is opgebouwd.

Het is alsof we stoppen met het raden van de regels van een spel door duizenden keren te spelen, en in plaats daarvan de regels van tevoren analyseren om de perfecte strategie te vinden.

Each language version is independently generated for its own context, not a direct translation.

Titel: Een Benaderingstheoretisch Perspectief op Machine Learning

Auteurs: Hrushikesh N. Mhaskar, Efstratios Tsoukanis en Ameya D. Jagtap.

1. Het Kernprobleem

Het centrale probleem in machine learning (ML) wordt vaak geformuleerd als het construeren van een functioneel model $f$ dat een dataset $\{(x_j, y_j)\}_{j=1}^M$ (getrokken uit een onbekende verdeling $\tau$ ) generaliseert naar nieuwe, ongezette data. Hoewel neurale netwerken en kernel-methoden veel worden gebruikt vanwege hun rekenkracht, speelt de klassieke benaderingstheorie (approximation theory) geen centrale rol in de theoretische fundamenten van ML.

De auteurs identificeren een fundamentele kloof:

Generalisatie: Het is vaak onduidelijk hoe goed getrainde modellen zullen generaliseren naar ongezette data.
Bias-Variance Trade-off: Traditionele benaderingen focussen op het minimaliseren van empirisch risico (overfitting/memorization), maar missen een diepgaand theoretisch kader voor de benaderingsfout in relatie tot de complexiteit van het model.
Vervloeking van de Dimensie (Curse of Dimensionality): Klassieke theorieën gaan uit van data die een hoogdimensionale ruimte vult, terwijl ML-data vaak op een laagdimensionale variëteit (manifold) ligt.

2. Methodologie en Theoretisch Kader

De paper biedt een uitgebreid overzicht van de snijvlakken tussen benaderingstheorie en ML, met een sterke focus op constructieve methoden en de analyse van data op manifolds.

A. Fundamenten van Benaderingstheorie

Gladdheidsklassen en K-functionals: De auteurs introduceren de $K$ -functional als een regularisatiecriterium om de relatie tussen de benaderingsfout en de gladheid van de functie te karakteriseren. Ze onderscheiden tussen directe stellingen (gladheid impliceert snelle convergentie) en inverse stellingen (snelheid van convergentie impliceert gladheid).
De Vervloeking van de Dimensie: De paper benadrukt dat de "curse of dimensionality" inherent is aan het parameterselectieproces voor gladheidsklassen in Euclidische ruimtes. Om dit te omzeilen, moeten extra structurele aannames worden gedaan, zoals dat de data op een manifold ligt of een compositional structuur heeft.

B. Neurale Netwerken: Shallow vs. Deep

Universele Benaderingseigenschap: Er wordt bewezen dat zowel shallow als deep netwerken universele benaderers zijn, maar de efficiëntie verschilt.
Compositional Structuur: Deep netwerken zijn superieur wanneer de doelfunctie een compositional structuur heeft (beschreven door een Directed Acyclic Graph - DAG). Ze kunnen deze structuur benutten om de benodigde steekproefgrootte drastisch te verkleinen vergeleken met shallow netwerken, die de compositionaliteit niet kunnen exploiteren.
ReLU Netwerken: Er wordt diep ingegaan op ReLU en ReLU $\gamma$ netwerken. De auteurs tonen aan dat constructieve benaderingen (via kwadratuurformules) vaak betere, dimensie-afhankelijke foutgrenzen geven dan puur existentiële stellingen gebaseerd op waarschijnlijkheidstheorie.

C. Benadering op Data Spaces en Manifolds

Data Spaces: In plaats van te vertrouwen op de volledige differentieerbare structuur van een manifold, definiëren de auteurs een abstracte "data space" $(X, \rho, \mu^*, \{\lambda_k\}, \{\phi_k\})$ . Dit maakt het mogelijk om benaderingstheorie toe te passen zonder de variëteit expliciet te hoeven leren (bijv. zonder eigenontbinding van de Laplace-Beltrami operator).
Lokale Benadering: Een belangrijk concept is lokale benadering. In plaats van een globale fout te minimaliseren (wat kan leiden tot slechte prestaties in specifieke gebieden), gebruiken de auteurs gelokaliseerde kernels en wavelet-achtige expansies. Dit zorgt ervoor dat de benaderingskracht automatisch aanpast aan de lokale gladheid van de functie.
Marcinkiewicz-Zygmund (MZ) Maatregelen: Om integrals over onbekende verdelingen te discretiseren, worden MZ-maatregelen gebruikt. Dit stelt de auteurs in staat om constructieve benaderingen te maken op basis van willekeurig gesamplede data, zonder optimisatieproblemen.

D. Nieuwe Paradigma's

Leren op Manifolds zonder Manifold Learning: De paper presenteert een doorbraak waarbij functies op een onbekende manifold kunnen worden benaderd zonder eerst de atlas of de eigenfuncties van de manifold te leren. De methode is universeel en vereist geen optimisatie.
Classificatie als Signaalgescheidenheid (Signal Separation): Classificatie wordt herformuleerd als het scheiden van de supports van onderliggende kansverdelingen. In plaats van labels te voorspellen, worden de clusters van de data geïdentificeerd. Dit leidt tot "cautious active learning", waarbij slechts één label per cluster nodig is voor perfecte classificatie.
Transformers en Attention: De auteurs analyseren de attention-mechanismen in Transformers en tonen aan dat deze wiskundig equivalent zijn aan sferische basisfunctie-netwerken (SBF-netwerken). Dit suggereert dat attention geen fundamenteel nieuw mechanisme is, maar een specifieke implementatie van bestaande benaderingstheorie.

3. Belangrijkste Resultaten en Bijdragen

Constructieve Benadering zonder Optimisatie: De paper demonstreert dat voor veel problemen (zoals functies op een manifold) het mogelijk is om een model te construeren dat de doelfunctie benadert door simpelweg een gewogen som van data-punten te nemen (gebaseerd op geconstrueerde kernels), zonder het oplossen van complexe optimalisatieproblemen (zoals backpropagation).
Lokale vs. Globale Fouten: Numerieke experimenten (o.a. op de eenheidssfeer) tonen aan dat gelokaliseerde benaderingstechnieken (zoals $\sigma_n$ ) veel beter presteren dan klassieke least-squares methoden, vooral bij het bereiken van zeer kleine fouten in specifieke gebieden. Terwijl least-squares slechts op 3.47% van de punten een fout $< 10^{-5}$ haalde, haalde de gelokaliseerde methode dit op 54.31% van de punten.
Omzeilen van de Curse of Dimensionality: Door aan te nemen dat data op een manifold ligt en gebruik te maken van compositional structuren, kunnen diepe netwerken de curse of dimensionality omzeilen. De paper biedt constructieve bewijzen hiervoor.
Classificatie via Clustering: De methode om classificatie te behandelen als signaalscheiding (MASC-algoritme) resulteert in 100% nauwkeurigheid met slechts $k$ label-vragen (waarbij $k$ het aantal klassen is), zelfs bij overlappende supports, zolang de supports gescheiden zijn op een bepaalde schaal.
Physics-Informed Neural Surrogates (PINS): Er wordt een theoretisch kader geboden voor PINNs, inclusief foutgrenzen die de relatie tussen trainingsfout, generalisatiefout en totale fout kwantificeren.

4. Significantie en Implicaties

De paper is van groot belang omdat het de theoretische basis van machine learning probeert te versterken met strikte wiskundige principes uit de benaderingstheorie.

Brug tussen Theorie en Praktijk: Het overbrugt de kloof tussen de abstracte wereld van benaderingstheorie (vaak beperkt tot bekende domeinen zoals kubussen of bollen) en de realiteit van ML (scattered data, onbekende manifolds, ruis).
Alternatief voor "Black Box" Optimisatie: Door constructieve methoden te presenteren die geen optimisatie vereisen, biedt de paper een alternatief voor de huidige "trial-and-error" benadering van deep learning, wat leidt tot meer voorspelbare en interpreteerbare modellen.
Efficiëntie: De inzichten in lokale benadering en signaalscheiding suggereren dat veel ML-taken (zoals classificatie) veel efficiënter kunnen worden opgelost met minder data en minder rekenkracht dan huidige methoden suggereren.
Toekomstige Richtingen: De paper identificeert open vragen, zoals het vinden van de "juiste features" met theoretische garanties, het ontwikkelen van omgekeerde stellingen (converse theorems) voor neurale netwerken, en het creëren van efficiënte algoritmen voor kwadratuurformules in hoge dimensies.

Samenvattend biedt deze paper een rigoureuze herformulering van machine learning-problemen als benaderingsproblemen, waarbij de nadruk ligt op constructieve oplossingen, lokale eigenschappen van data en het omzeilen van de beperkingen van klassieke theorieën door gebruik te maken van de inherente structuur van de data.