IntSeqBERT: Learning Arithmetic Structure in OEIS via Modulo-Spectrum Embeddings

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du versuchst, das Geheimnis einer unendlichen Zahlenreihe zu knacken, wie sie in der berühmten „Enzyklopädie der ganzen Zahlen" (OEIS) gespeichert ist. Diese Reihen reichen von winzigen Zahlen wie „3" bis zu astronomisch großen Zahlen, die so groß sind, dass sie mehr Nullen haben, als es Atome im Universum gibt.

Das Problem: Herkömmliche KI-Modelle sind wie Schüler, die nur auswendig gelernt haben. Wenn sie eine Zahl sehen, die sie nicht in ihrem Wörterbuch haben (weil sie zu groß ist), geraten sie in Panik oder raten einfach blind. Sie verstehen die Regeln, wie Zahlen wachsen, aber sie sehen nur die Zahlen selbst als einzelne, isolierte Symbole.

IntSeqBERT ist ein neuer, schlauerer Ansatz, der diese Grenzen überwindet. Hier ist die Erklärung, wie es funktioniert, ohne komplizierte Mathematik:

1. Der Trick: Zwei Augen statt einem

Stell dir vor, du musst eine Person beschreiben. Ein normales Modell würde nur sagen: „Sie ist 1,70 Meter groß." Das ist gut für die Größe, aber es sagt nichts über ihre Kleidung oder ihre Art zu gehen.

IntSeqBERT schaut sich jede Zahl mit zwei verschiedenen Brillen an:

Brille 1: Der Maßstab (Magnitude)
Diese Brille schaut auf die Größe der Zahl. Aber statt die genaue Zahl zu zählen (was bei riesigen Zahlen unmöglich ist), schaut sie auf den Logarithmus.
- Analogie: Stell dir vor, du misst nicht die exakte Höhe eines Berges in Metern, sondern nur, ob er ein Hügel, ein kleiner Berg oder ein riesiger Gipfel ist. Das hilft dem Modell, das „Wachstum" der Zahlenreihe zu verstehen, egal wie groß die Zahlen werden.
Brille 2: Der Rest-Checker (Modulo)
Das ist der geniale Teil. Diese Brille ignoriert die Größe und fragt stattdessen: „Wie verhält sich diese Zahl, wenn man sie durch kleine Zahlen teilt und den Rest betrachtet?"
- Analogie: Stell dir vor, du hast einen riesigen Haufen Sand. Du weißt nicht, wie viel Sand es genau ist. Aber du weißt: Wenn du den Sand in Haufen zu 3 Körnern teilst, bleibt immer 1 übrig. Wenn du ihn in Haufen zu 5 Körnern teilst, bleiben 2 übrig.
- Das Modell prüft diese „Reste" für 100 verschiedene Teiler (von 2 bis 101). Das ist wie ein Fingerabdruck der Zahl. Selbst wenn die Zahl unvorstellbar groß ist, bleibt ihr Fingerabdruck (die Reste) klein und überschaubar. Viele mathematische Gesetze (wie bei Primzahlen oder periodischen Mustern) zeigen sich genau in diesen Resten.

2. Die Zusammenarbeit: Der Dirigent (FiLM)

Das Modell hat zwei separate „Gehirnstränge" für diese beiden Brillen. Aber wie bringt man sie zusammen?
Hier kommt FiLM (Feature-wise Linear Modulation) ins Spiel. Stell dir FiLM als einen Orchesterdirigenten vor.

Der „Rest-Checker" (Brille 2) flüstert dem „Maßstab" (Brille 1) zu: „Achtung! Die Zahl ist durch 3 teilbar, also kann sie nicht irgendeine beliebige Größe haben."
Der Dirigent passt die Aufmerksamkeit des Maβstabs an, basierend auf den Hinweisen des Rest-Checkers. So verstehen die beiden Teile gemeinsam, was die Zahl wirklich ist.

3. Das Ergebnis: Der Detektiv am Ende

Am Ende des Prozesses hat das Modell keine fertige Zahl ausgegeben, sondern eine Menge von Hinweisen:

„Die Zahl ist wahrscheinlich riesig (Logarithmus)."
„Sie ist positiv."
„Wenn man sie durch 7 teilt, bleibt 3 übrig."
„Wenn man sie durch 13 teilt, bleibt 5 übrig."

Ein spezieller Solver (ein mathematischer Detektiv) nimmt all diese Hinweise und nutzt eine alte mathematische Regel (den Chinesischen Restsatz), um die eine Zahl zu finden, die zu allen Hinweisen passt.

Warum ist das so erfolgreich?

Die Forscher haben das Modell an fast 300.000 Zahlenreihen trainiert. Die Ergebnisse waren beeindruckend:

Bei kleinen Zahlen: Es ist gut.
Bei riesigen Zahlen: Herkömmliche Modelle scheiterten fast komplett (sie sahen nur „Unbekannt"). IntSeqBERT hingegen konnte die Muster erkennen, weil es die „Reste" (den Fingerabdruck) nutzte.
Der Gewinn: IntSeqBERT war bei der Vorhersage der nächsten Zahl in einer Reihe 7,4-mal besser als das alte Standard-Modell.

Zusammenfassung in einem Satz

IntSeqBERT ist wie ein Mathematik-Genie, das nicht versucht, jede riesige Zahl auswendig zu lernen, sondern stattdessen lernt, wie Zahlen „tanzen" (ihre periodischen Muster und Reste), um selbst die größten und seltsamsten Zahlenreihen zu verstehen und vorherzusagen.

Es beweist, dass man, um die Zukunft großer Zahlen zu erraten, nicht immer die ganze Zahl sehen muss – manchmal reicht es, ihren Schatten (den Rest) zu betrachten.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Vorhersage ganzzahliger Sequenzen aus der On-Line Encyclopedia of Integer Sequences (OEIS) stellt eine erhebliche Herausforderung für Standard-Transformer-Modelle dar. Die Hauptprobleme sind:

Extreme Heterogenität der Werte: Die Sequenzen reichen von einstelligen Konstanten bis zu astronomisch großen Fakultäten und Exponentialfunktionen. Herkömmliche Tokenisierungsmethoden scheitern an Werten außerhalb des festen Vokabulars (Out-of-Vocabulary), was zu einem Verlust an Information führt.
Verlust arithmetischer Struktur: Standard-Token-IDs kodieren keine mathematischen Beziehungen (wie Periodizität oder Multiplikation). Modelle müssen diese Gesetze erst aus den Token-Sequenzen „entdecken", was bei stark wachsenden Sequenzen (z. B. $n!$ ) ineffizient ist.
Begrenzte Fähigkeiten von Baselines: Bestehende Benchmarks wie FACT zeigen, dass reine Transformer-Architekturen Schwierigkeiten haben, multiplikative Strukturen zu lernen und große Zahlen korrekt zu verarbeiten.

2. Methodik: IntSeqBERT

Das Paper stellt IntSeqBERT vor, einen dual-stream Transformer-Encoder, der speziell für das Masked Sequence Modelling auf OEIS-Daten entwickelt wurde. Anstatt ganze Zahlen zu tokenisieren, kodiert das Modell jedes Element entlang zweier komplementärer Achsen:

Magnitude-Stream (Betrag):
- Kodiert den absoluten Wert auf einer kontinuierlichen Logarithmus-Skala ( $v_i = 1 + \log_{10}|x_i|$ ).
- Erfasst Wachstumsverhalten und Skalierung.
- Für extrem große Zahlen wird die Dezimalstellenanzahl verwendet, um Überläufe zu vermeiden.
Modulo-Stream (Restklassen):
- Kodiert die Periodizität und zahlentheoretische Struktur.
- Es werden Sinus/Cosinus-Embeddings für 100 verschiedene Moduli ( $m \in \{2, \dots, 101\}$ ) verwendet.
- Jeder Rest $r = x_i \mod m$ wird als Punkt auf dem Einheitskreis eingebettet ( $\sin(2\pi r/m), \cos(2\pi r/m)$ ). Dies ist äquivariant zur Gruppenstruktur von $\mathbb{Z}/m\mathbb{Z}$ und vermeidet Diskontinuitäten.
Fusion via FiLM:
- Die beiden Streams werden durch FiLM (Feature-wise Linear Modulation) fusioniert. Der Modulo-Stream generiert Skalierungs- ( $\gamma$ ) und Verschiebungsparameter ( $\beta$ ), die den Magnitude-Stream modulieren. Dies erlaubt dem Modell, die Größenordnung basierend auf der arithmetischen Struktur zu verfeinern.
Trainingsziel (Multi-Task Learning):
- Drei Vorhersageköpfe werden gemeinsam optimiert:
  1. Magnitude-Regression: Vorhersage des Log-Werts (mittels Huber-Loss).
  2. Sign-Klassifikation: Vorhersage des Vorzeichens (+, -, 0).
  3. Modulo-Vorhersage: 100 unabhängige Klassifikationsaufgaben für die Restklassen.
Solver-Komponente:
- Um konkrete ganze Zahlen aus den Vorhersagen (Magnitude, Vorzeichen, Restverteilungen) zu rekonstruieren, wird ein probabilistischer Chinese Remainder Theorem (CRT)-basierte Solver verwendet. Dieser nutzt die Vorhersagen der 100 Moduli, um den Bereich möglicher ganzer Zahlen einzugrenzen und den wahrscheinlichsten Kandidaten zu finden.

3. Wichtige Beiträge

Architektur-Design: Die Einführung einer dual-stream Architektur mit FiLM-Fusion, die kontinuierliche Magnituden-Embeddings mit diskreten Modulo-Strukturen kombiniert.
Zahlentheoretische Erkenntnis: Eine Analyse des „Modulo-Spektrums" zeigt eine starke negative Korrelation ( $r = -0.851$ ) zwischen der Normalised Information Gain (NIG) und dem Eulerschen Totientenverhältnis $\phi(m)/m$ . Dies beweist empirisch, dass zusammengesetzte Moduli (mit vielen kleinen Primfaktoren) die arithmetische Struktur effizienter über CRT-Aggregation erfassen als Primzahlen.
Skalierungsverhalten: Die Ergebnisse zeigen, dass die Genauigkeit bei arithmetischen Aufgaben (Modulo-Vorhersage) mit der Modellgröße stärker ansteigt als bei der reinen Magnitudenvorhersage, was darauf hindeutet, dass arithmetisches reasoning von größerer Kapazität überproportional profitiert.

4. Ergebnisse

Das Modell wurde auf 274.705 OEIS-Sequenzen trainiert und auf drei Größenordnungen (Small, Middle, Large) evaluiert.

Vergleich mit Baselines:
- Auf der Large-Skala (91,5M Parameter) erreicht IntSeqBERT eine Magnitude-Accuracy von 95,85 % (vs. 86,97 % bei der Vanilla-Baseline) und eine Mean Modulo Accuracy (MMA) von 50,38 % (vs. 45,85 %).
- Ein Ablationsstudie (nur Magnitude-Stream) zeigt, dass der Modulo-Stream allein für einen Anstieg der MMA um +15,2 Prozentpunkte und der Magnitude-Accuracy um +6,2 Prozentpunkte verantwortlich ist.
Next-Term Prediction (Solver):
- Der entscheidende Durchbruch liegt in der Vorhersage des nächsten Terms. IntSeqBERT erreicht eine Top-1-Genauigkeit von 19,09 %, was eine 7,4-fache Verbesserung gegenüber der Token-basierten Baseline (2,59 %) darstellt.
- Die Baseline scheitert bei großen Zahlen (Bucket „Medium" und höher) fast vollständig (0 % Genauigkeit), da diese als UNK-Token behandelt werden. IntSeqBERT behält auch bei größeren Zahlen eine sinnvolle Genauigkeit bei.
Skalierung:
- Die MMA verbessert sich von Small zu Large um fast 10 Prozentpunkte, während die Magnitude-Accuracy nur marginal (+1,1 %) steigt.

5. Bedeutung und Fazit

IntSeqBERT demonstriert, dass die explizite Einbettung von zahlentheoretischen Eigenschaften (Modulo-Arithmetik) in neuronale Netze entscheidend ist, um die inhärente Struktur ganzzahliger Sequenzen zu lernen.

Überwindung von OOV-Problemen: Durch die Vermeidung von Tokenisierung für große Zahlen wird das Problem des Out-of-Vocabulary effektiv gelöst.
Effizienz: Die Nutzung des Modulo-Spektrums reduziert die Tiefe des Netzwerks, das benötigt wird, um multiplikative Strukturen zu „wiederentdecken".
Anwendungspotenzial: Die Arbeit legt den Grundstein für KI-gestützte mathematische Entdeckungen, insbesondere für die Generierung von Vermutungen und das Verständnis arithmetischer Gesetze in großen Korpora wie der OEIS.

Zukünftige Arbeiten sollen die Genauigkeit bei extrem großen Zahlen durch approximative CRT-Methoden verbessern und die Architektur auf weitere Benchmark-Aufgaben der OEIS erweitern.

IntSeqBERT: Learning Arithmetic Structure in OEIS via Modulo-Spectrum Embeddings

1. Der Trick: Zwei Augen statt einem

2. Die Zusammenarbeit: Der Dirigent (FiLM)

3. Das Ergebnis: Der Detektiv am Ende

Warum ist das so erfolgreich?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: IntSeqBERT

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions