IntSeqBERT: Learning Arithmetic Structure in OEIS via Modulo-Spectrum Embeddings

Die Arbeit stellt IntSeqBERT vor, ein dual-stream Transformer-Modell, das durch die Kombination von logarithmischen Magnituden- und Sinus/Kosinus-Modulo-Einbettungen für 100 Restklassen die Vorhersage ganzzahliger Folgen aus der OEIS signifikant verbessert und dabei eine 7,4-fache Steigerung der Genauigkeit bei der nächsten-Term-Vorhersage im Vergleich zu herkömmlichen token-basierten Modellen erreicht.

Kazuhisa Nakasho

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du versuchst, das Geheimnis einer unendlichen Zahlenreihe zu knacken, wie sie in der berühmten „Enzyklopädie der ganzen Zahlen" (OEIS) gespeichert ist. Diese Reihen reichen von winzigen Zahlen wie „3" bis zu astronomisch großen Zahlen, die so groß sind, dass sie mehr Nullen haben, als es Atome im Universum gibt.

Das Problem: Herkömmliche KI-Modelle sind wie Schüler, die nur auswendig gelernt haben. Wenn sie eine Zahl sehen, die sie nicht in ihrem Wörterbuch haben (weil sie zu groß ist), geraten sie in Panik oder raten einfach blind. Sie verstehen die Regeln, wie Zahlen wachsen, aber sie sehen nur die Zahlen selbst als einzelne, isolierte Symbole.

IntSeqBERT ist ein neuer, schlauerer Ansatz, der diese Grenzen überwindet. Hier ist die Erklärung, wie es funktioniert, ohne komplizierte Mathematik:

1. Der Trick: Zwei Augen statt einem

Stell dir vor, du musst eine Person beschreiben. Ein normales Modell würde nur sagen: „Sie ist 1,70 Meter groß." Das ist gut für die Größe, aber es sagt nichts über ihre Kleidung oder ihre Art zu gehen.

IntSeqBERT schaut sich jede Zahl mit zwei verschiedenen Brillen an:

  • Brille 1: Der Maßstab (Magnitude)
    Diese Brille schaut auf die Größe der Zahl. Aber statt die genaue Zahl zu zählen (was bei riesigen Zahlen unmöglich ist), schaut sie auf den Logarithmus.

    • Analogie: Stell dir vor, du misst nicht die exakte Höhe eines Berges in Metern, sondern nur, ob er ein Hügel, ein kleiner Berg oder ein riesiger Gipfel ist. Das hilft dem Modell, das „Wachstum" der Zahlenreihe zu verstehen, egal wie groß die Zahlen werden.
  • Brille 2: Der Rest-Checker (Modulo)
    Das ist der geniale Teil. Diese Brille ignoriert die Größe und fragt stattdessen: „Wie verhält sich diese Zahl, wenn man sie durch kleine Zahlen teilt und den Rest betrachtet?"

    • Analogie: Stell dir vor, du hast einen riesigen Haufen Sand. Du weißt nicht, wie viel Sand es genau ist. Aber du weißt: Wenn du den Sand in Haufen zu 3 Körnern teilst, bleibt immer 1 übrig. Wenn du ihn in Haufen zu 5 Körnern teilst, bleiben 2 übrig.
    • Das Modell prüft diese „Reste" für 100 verschiedene Teiler (von 2 bis 101). Das ist wie ein Fingerabdruck der Zahl. Selbst wenn die Zahl unvorstellbar groß ist, bleibt ihr Fingerabdruck (die Reste) klein und überschaubar. Viele mathematische Gesetze (wie bei Primzahlen oder periodischen Mustern) zeigen sich genau in diesen Resten.

2. Die Zusammenarbeit: Der Dirigent (FiLM)

Das Modell hat zwei separate „Gehirnstränge" für diese beiden Brillen. Aber wie bringt man sie zusammen?
Hier kommt FiLM (Feature-wise Linear Modulation) ins Spiel. Stell dir FiLM als einen Orchesterdirigenten vor.

  • Der „Rest-Checker" (Brille 2) flüstert dem „Maßstab" (Brille 1) zu: „Achtung! Die Zahl ist durch 3 teilbar, also kann sie nicht irgendeine beliebige Größe haben."
  • Der Dirigent passt die Aufmerksamkeit des Maβstabs an, basierend auf den Hinweisen des Rest-Checkers. So verstehen die beiden Teile gemeinsam, was die Zahl wirklich ist.

3. Das Ergebnis: Der Detektiv am Ende

Am Ende des Prozesses hat das Modell keine fertige Zahl ausgegeben, sondern eine Menge von Hinweisen:

  • „Die Zahl ist wahrscheinlich riesig (Logarithmus)."
  • „Sie ist positiv."
  • „Wenn man sie durch 7 teilt, bleibt 3 übrig."
  • „Wenn man sie durch 13 teilt, bleibt 5 übrig."

Ein spezieller Solver (ein mathematischer Detektiv) nimmt all diese Hinweise und nutzt eine alte mathematische Regel (den Chinesischen Restsatz), um die eine Zahl zu finden, die zu allen Hinweisen passt.

Warum ist das so erfolgreich?

Die Forscher haben das Modell an fast 300.000 Zahlenreihen trainiert. Die Ergebnisse waren beeindruckend:

  • Bei kleinen Zahlen: Es ist gut.
  • Bei riesigen Zahlen: Herkömmliche Modelle scheiterten fast komplett (sie sahen nur „Unbekannt"). IntSeqBERT hingegen konnte die Muster erkennen, weil es die „Reste" (den Fingerabdruck) nutzte.
  • Der Gewinn: IntSeqBERT war bei der Vorhersage der nächsten Zahl in einer Reihe 7,4-mal besser als das alte Standard-Modell.

Zusammenfassung in einem Satz

IntSeqBERT ist wie ein Mathematik-Genie, das nicht versucht, jede riesige Zahl auswendig zu lernen, sondern stattdessen lernt, wie Zahlen „tanzen" (ihre periodischen Muster und Reste), um selbst die größten und seltsamsten Zahlenreihen zu verstehen und vorherzusagen.

Es beweist, dass man, um die Zukunft großer Zahlen zu erraten, nicht immer die ganze Zahl sehen muss – manchmal reicht es, ihren Schatten (den Rest) zu betrachten.