The minimal width of universal pp-adic ReLU neural networks

Diese Arbeit bestimmt die minimale Breite von pp-adischen neuronalen Netzen mit der universellen Approximationseigenschaft für stetige Qp\mathbb Q_p-wertige Funktionen auf kompakten offenen Mengen unter Verwendung einer natürlichen pp-adischen Analogie der ReLU-Aktivierungsfunktion.

Sándor Z. Kiss, Ambrus Pál

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, einen sehr komplizierten Weg durch eine Stadt zu beschreiben. Normalerweise tun wir das mit einer Landkarte, die auf reellen Zahlen basiert (wie unsere normale Welt). Aber in diesem Papier erforschen die Autoren eine ganz andere Art von Stadt: die Welt der p-adischen Zahlen.

Das klingt zunächst sehr mathematisch und abstrakt, aber lassen Sie es uns mit einfachen Bildern erklären.

1. Die Stadt der p-adischen Zahlen (Qp)

Stellen Sie sich unsere normale Welt als einen flachen, zusammenhängenden Boden vor. Wenn Sie von Punkt A nach Punkt B gehen, können Sie jeden Schritt dazwischen machen.

Die Welt der p-adischen Zahlen ist hingegen wie ein riesiges, unendliches Fraktal oder ein französisches Dorf, das aus unzähligen kleinen, getrennten Inseln besteht.

  • In dieser Welt gibt es keine "glatten" Übergänge. Alles ist in winzige, isolierte Blöcke unterteilt.
  • Wenn Sie sich in einem dieser Blöcke bewegen, fühlen Sie sich sicher und stabil. Sobald Sie den Block verlassen, sind Sie plötzlich in einer ganz anderen, weit entfernten Welt.
  • Diese Eigenschaft nennt man "total unzusammenhängend". Das ist der Schlüssel zum Verständnis dieses Papiers.

2. Der KI-Neuronale Netzwerker (Das ReLU)

Neuronale Netze sind wie Teams von Arbeitern, die eine Aufgabe lösen sollen: Sie sollen eine Funktion (eine Regel oder einen Weg) nachahmen.

  • Die Aktivierungsfunktion (pReLU): In normalen Netzen nutzen wir Funktionen wie "ReLU", die wie ein Schalter funktionieren: "Wenn der Wert positiv ist, lass ihn durch, sonst mach ihn null".
  • In dieser p-adischen Welt nutzen die Autoren eine p-adische Version dieses Schalters. Sie funktioniert so: "Wenn der Wert in einem bestimmten, sicheren Bereich (den ganzen Zahlen) liegt, lass ihn durch. Wenn er 'zu weit draußen' ist, mach ihn null."

3. Das Problem: Wie breit muss das Team sein?

Die große Frage, die die Autoren beantworten, lautet: Wie viele Arbeiter (Breite des Netzes) brauchen wir mindestens, um jede beliebige Aufgabe in dieser Stadt zu lösen?

In der normalen Welt (reelle Zahlen) ist das kompliziert. Es gibt topologische Hindernisse (wie Löcher in der Stadt), die verhindern, dass ein kleines Team alles schafft. Man muss oft sehr tiefe oder breite Netze bauen.

Aber in der p-adischen Welt ist es einfacher!
Da die Stadt aus getrennten Inseln besteht, gibt es keine "glatten" Hindernisse. Man kann jede Aufgabe lösen, indem man einfach für jede Insel eine eigene kleine Regel aufstellt.

4. Die Entdeckung: Die perfekte Teamgröße

Die Autoren haben herausgefunden, dass die minimale Breite des Teams (die Anzahl der Arbeiter pro Ebene) genau dann ausreicht, wenn sie eine bestimmte Formel erfüllt:

Minimale Breite = Max(Inspirationen + 1, Ziel-Komplexität)

  • Inspirationen (dx): Wie viele Eingabedaten haben wir? (Wie viele Koordinaten beschreiben wir?)
  • Ziel-Komplexität (dy): Wie viele Ausgabedaten wollen wir produzieren?

Die Regel lautet also:
Sie brauchen mindestens so viele Arbeiter, wie es Eingabedaten gibt, plus einen zusätzlichen "Manager", ODER so viele, wie es Ausgabedaten gibt – je nachdem, was größer ist.

Warum "+1"?
Stellen Sie sich vor, Sie haben einen Eingangskanal. Um die Daten in der p-adischen Welt so zu manipulieren, dass sie in die verschiedenen getrennten Inseln passen, brauchen Sie einen zusätzlichen "Trick" oder eine zusätzliche Dimension, um die Daten zu kodieren (wie einen Schlüssel, der alle Türen öffnet).

5. Warum ist das wichtig?

Die Autoren zeigen, dass man in dieser p-adischen Welt mit einem sehr einfachen, flachen Netz alles perfekt nachahmen kann.

  • Keine tiefen, komplizierten Strukturen nötig: Weil die Welt so "zerklüftet" ist, braucht man keine langen, verschachtelten Wege, um von A nach B zu kommen. Ein kurzer, breiter Weg reicht.
  • Perfekte Approximation: Egal wie kompliziert die Funktion ist, wenn das Netz breit genug ist, kann es sie exakt nachbilden. Es gibt keine "Lücken" oder Fehler, die durch die Topologie der Welt verursacht werden.

Zusammenfassung in einem Satz

Die Autoren haben bewiesen, dass man in der seltsamen, inselartigen Welt der p-adischen Zahlen mit einem neuronalen Netz, das nur so breit ist wie die Eingabe plus ein bisschen mehr, jede beliebige Aufgabe perfekt lösen kann, weil die Struktur dieser Welt es erlaubt, alles in kleine, handhabbare Blöcke zu zerlegen.

Es ist, als würde man sagen: "Wenn Sie eine Stadt aus getrennten Häusern haben, brauchen Sie nicht einen riesigen Tunnelbauer, um sie zu verbinden. Sie brauchen nur einen Schlüsselmeister, der für jedes Haus den richtigen Schlüssel hat."

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →