The minimal width of universal pp-adic ReLU neural networks

Dit artikel bepaalt de minimale breedte van universele pp-adische ReLU-neuronale netwerken die continue Qp\mathbb{Q}_p-waardige functies op compacte open deelverzamelingen kunnen benaderen volgens de LqL_q- en C1C_1-normen.

Sándor Z. Kiss, Ambrus Pál

Gepubliceerd 2026-03-03
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die een schilderij moet nabootsen. In de wereld van kunstmatige intelligentie (AI) noemen we dit "functies benaderen". Meestal werken we met gewone getallen (reële getallen), alsof je op een canvas met oneindig veel verfkleuren werkt. Maar in dit artikel kijken de auteurs naar een heel andere wereld: de p-adische getallen.

Dat klinkt misschien als wiskundige magie, maar het is eigenlijk een heel logisch alternatief. Denk aan p-adische getallen als een wereld waar de "afstand" anders werkt. In onze wereld is 100 verder van 0 dan 1. In de p-adische wereld is 100 (dat is p2p^2) juist heel dicht bij 0, omdat het een veelvoud is van het basisgetal pp. Het is alsof je in een stad woont waar straten die een veelvoud zijn van een bepaald getal, allemaal in dezelfde buurt liggen, ongeacht hoe groot het getal is.

Hier is wat de auteurs in dit paper hebben ontdekt, vertaald naar alledaags taal:

1. Het Probleem: Hoe breed moet je netwerk zijn?

Stel je een neuraal netwerk voor als een fabriek met veel lagen machines.

  • Input: De grondstof (bijvoorbeeld een foto van een kat).
  • Output: Het eindproduct (bijvoorbeeld "ja, dit is een kat").
  • De breedte: Dit is het aantal machines die naast elkaar in één laag werken.

De vraag die de auteurs beantwoorden is: Hoe breed moet deze fabriek minimaal zijn om elk mogelijk patroon te kunnen leren?

In de gewone wereld (reële getallen) is dit lastig. Je hebt vaak heel brede netwerken nodig om complexe vormen te maken, en er zijn "topologische obstakels" (zoals gaten in een deegbal) die het moeilijk maken om alles perfect na te bootsen.

2. De Oplossing: De "p-ReLu" Machine

De auteurs gebruiken een speciale machine genaamd p-ReLu.

  • In de echte wereld is de ReLu-machine simpel: "Als het getal positief is, laat het door. Als het negatief is, stop het."
  • In de p-adische wereld werkt hun p-ReLu als een poortwachter: "Als het getal past in onze 'normale' club (de getallen in Zp\mathbb{Z}_p), laat het door. Anders, gooi het weg (maak het 0)."

3. Het Grote Geheim: De Minimale Breedte

Het belangrijkste resultaat van het paper is een simpele formule voor de minimale breedte (ww) die nodig is om alles te kunnen leren:

wmax(ingangen+1,uitgangen)w \ge \max(\text{ingangen} + 1, \text{uitgangen})

Laten we dit vertalen:

  • Ingangen (dxd_x): Hoeveel informatie komt er binnen? (Bijvoorbeeld: 100 pixels).
  • Uitgangen (dyd_y): Hoeveel informatie moet er uit? (Bijvoorbeeld: 10 klassen).
  • De +1: Dit is het verrassende deel. Je hebt altijd één extra machine nodig bovenop het aantal ingangen.

Waarom is dit zo?
In de p-adische wereld is de ruimte "volledig losgekoppeld" (totale discontinue). Er zijn geen gaten of verborgen paden die je moet omzeilen zoals in de echte wereld. Het is alsof je een legpuzzel maakt waarbij elk stukje los staat van de rest.

  • Als je te smal bent (minder dan dx+1d_x + 1), kun je niet genoeg verschillende paden maken om elke mogelijke situatie te onderscheiden. Het is alsof je probeert een ingewikkeld labyrint te navigeren met te weinig wegen.
  • Als je breed genoeg bent (dx+1d_x + 1), kun je een code maken. Je kunt elke mogelijke combinatie van ingangswaarden omzetten in een uniek getal, en dat getal vervolgens weer omzetten naar het juiste antwoord.

4. De Analogie: De Telefooncel en de Boodschapper

Stel je voor dat je een boodschapper hebt die berichten moet doorgeven in een stad met oneindig veel huizen (de p-adische getallen).

  • Te smal (Te weinig machines): De boodschapper kan maar één route nemen. Als twee verschillende huizen op dezelfde route liggen, kan hij ze niet van elkaar onderscheiden. Hij maakt een fout.
  • Genoeg breed (De +1): De boodschapper heeft nu een "telefooncel" extra. Hij kan eerst alle huizen in een unieke code omzetten (zoals een postnummer) en die code vervolgens gebruiken om het juiste huis te vinden. Omdat de stad zo is opgebouwd (p-adisch), werkt deze code perfect. Er zijn geen "gaten" in de logica die de code kunnen breken.

5. Waarom is dit belangrijk?

De auteurs tonen aan dat je in deze p-adische wereld geen ingewikkelde trucs nodig hebt.

  • In de echte wereld moet je soms heel diepe netwerken gebruiken om complexe vormen te maken.
  • In de p-adische wereld is het veel simpeler: als je net breed genoeg bent, kun je elk patroon perfect nabootsen, zelfs als je alleen maar lokale, stapsgewijze veranderingen maakt.

Conclusie voor de leek:
Dit paper zegt eigenlijk: "Als je wilt bouwen met p-adische getallen (wat misschien beter is voor bepaalde soorten data zoals classificatie), hoef je niet bang te zijn dat je netwerken te complex worden. Je hebt gewoon net iets meer ruimte nodig dan het aantal ingangen, en dan kun je alles doen wat je wilt."

Het is een soort "wiskundige garantie" dat je systeem, als je het maar breed genoeg bouwt, nooit faalt in het leren van patronen in deze vreemde, maar logische, getallenwereld.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →