IntSeqBERT: Learning Arithmetic Structure in OEIS via Modulo-Spectrum Embeddings

Each language version is independently generated for its own context, not a direct translation.

🧩 Le Défi : Deviner la suite d'une chanson de nombres

Imaginez que vous avez un livre de recettes mathématiques géant, appelé OEIS (l'Encyclopédie en ligne des suites d'entiers). Ce livre contient des centaines de milliers de suites de nombres :

Des suites simples : 1, 2, 3, 4...
Des suites complexes : 1, 1, 2, 3, 5, 8... (les nombres de Fibonacci)
Des suites astronomiques : des nombres si grands qu'ils dépassent l'entendement humain (comme des factorielles ou des puissances énormes).

Le but du jeu est simple : on cache un nombre dans une suite, et on demande à une intelligence artificielle (IA) de le deviner en regardant les autres nombres autour.

Le problème ? Les IA classiques (comme les grands modèles de langage) sont comme des enfants qui apprennent à lire. Ils connaissent un certain nombre de "mots" (des nombres). Si vous leur donnez un nombre qu'ils n'ont jamais vu dans leur dictionnaire (par exemple, un nombre avec 100 chiffres), ils paniquent et disent "Je ne sais pas". De plus, ils ont du mal à comprendre la musique cachée derrière les nombres (les règles de division, de parité, etc.).

🚀 La Solution : IntSeqBERT, le détective à double vision

Les chercheurs ont créé une nouvelle IA appelée IntSeqBERT. Au lieu de traiter les nombres comme de simples mots, ils les regardent sous deux angles différents, comme un détective qui utiliserait deux types de jumelles :

1. La jumelle "Taille" (Magnitude)

Imaginez que vous devez décrire un objet. La première jumelle vous dit : "C'est grand, très grand, ou gigantesque".

L'IA ne regarde pas le nombre exact (ex: 123 456), mais sa taille (combien de chiffres il a, ou son ordre de grandeur). C'est comme estimer si un éléphant est un bébé ou un adulte sans avoir besoin de le peser exactement.

2. La jumelle "Rythme" (Modulo)

C'est ici que la magie opère. La deuxième jumelle regarde les nombres non pas pour leur taille, mais pour leur rythme ou leur cycle.

En mathématiques, si vous divisez un nombre par 2, le reste est soit 0 (pair), soit 1 (impair). C'est un cycle simple.
Si vous divisez par 3, le reste suit un cycle de 3 valeurs.
IntSeqBERT regarde 100 cycles différents en même temps (diviser par 2, par 3, par 4... jusqu'à 101).
L'analogie : Imaginez que les nombres sont des musiciens. La première jumelle entend le volume (fort/faible). La deuxième jumelle entend la mélodie (le rythme). Même si le volume change, la mélodie (le reste de la division) reste fidèle à la règle mathématique.

🤝 La Fusion : Le chef d'orchestre (FiLM)

Ces deux jumelles envoient leurs informations à un chef d'orchestre (une technique appelée FiLM).

Le chef d'orchestre dit à la partie "Taille" : "Attends, le rythme dit que ce nombre doit être pair et divisible par 3, donc ajuste ta taille !"
Cela permet à l'IA de comprendre que même si un nombre est énorme, il doit respecter certaines règles de division. C'est comme si l'IA apprenait que "tous les multiples de 12 finissent par être pairs", peu importe la taille du nombre.

🧪 Les Résultats : Qui gagne la course ?

Les chercheurs ont mis IntSeqBERT en compétition contre une IA classique (appelée "Vanilla") et une version simplifiée (sans la jumelle "Rythme").

La précision : IntSeqBERT devine la taille des nombres avec une précision de 95,8 %, contre 87 % pour l'IA classique.
La compréhension des règles : Pour deviner les cycles (les restes de division), IntSeqBERT réussit 50 % du temps, alors que l'IA classique est bien en dessous.
Le grand vainqueur (Le Solveur) : Le vrai test est de reconstruire le nombre exact caché.
- L'IA classique a raison 2,6 % du temps (elle perd souvent avec les gros nombres).
- IntSeqBERT a raison 19 % du temps.
- C'est 7,4 fois mieux ! C'est comme si l'IA classique trouvait une aiguille dans une botte de foin une fois sur 40, tandis qu'IntSeqBERT la trouve une fois sur 5.

💡 La Découverte Surprise : Les nombres composés sont des super-héros

En analysant comment l'IA apprenait, les chercheurs ont fait une découverte fascinante.

Ils ont remarqué que l'IA apprenait beaucoup mieux avec des nombres "composés" (comme 60, 96) que avec des nombres premiers (comme 7, 11).
Pourquoi ? Imaginez que vous essayez de deviner l'heure qu'il est. Si on vous dit "Il est 12h00" (un cycle simple), c'est bien. Mais si on vous dit "Il est 12h00, 12h15 et 12h30" (plusieurs cycles combinés), vous pouvez déduire l'heure exacte beaucoup plus facilement.
Les nombres composés agissent comme des "super-résumés" qui combinent plusieurs règles de division à la fois, rendant la tâche de l'IA beaucoup plus facile.

🏁 Conclusion

IntSeqBERT est une avancée majeure car il ne se contente pas de mémoriser des nombres. Il apprend la structure mathématique cachée derrière eux.

Il comprend que les nombres ont une taille (magnitude).
Il comprend qu'ils ont un rythme (modulo).
En combinant les deux, il peut deviner des nombres gigantesques que les autres IA ne peuvent même pas voir.

C'est comme passer d'un enfant qui apprend à compter sur ses doigts, à un mathématicien qui comprend la symphonie des nombres. Cela ouvre la porte à de nouvelles découvertes mathématiques et à une meilleure compréhension de la logique de l'univers par les machines.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Le papier aborde la modélisation de séquences d'entiers issues de l'OEIS (On-Line Encyclopedia of Integer Sequences). Ce corpus contient des séquences aux propriétés mathématiques extrêmement hétérogènes, allant de constantes à un chiffre jusqu'à des factorielles et exponentielles astronomiques.

Les défis principaux pour les modèles d'apprentissage automatique standards (basés sur des Transformers tokenisés) sont :

Gestion du vocabulaire : Les modèles standards ne peuvent pas représenter des entiers hors de leur vocabulaire fixe (problème de out-of-vocabulary), ce qui est critique pour les grands nombres.
Structure arithmétique : Les modèles tokenisés peinent à capturer les lois arithmétiques sous-jacentes (comme la périodicité des restes modulo $m$ ) car elles sont encodées de manière opaque dans les IDs de tokens.
Hétérogénéité des échelles : La différence de magnitude entre les termes d'une même séquence peut atteindre plusieurs ordres de grandeur, rendant l'apprentissage de la croissance difficile.

L'objectif est de prédire les valeurs masquées d'une séquence (modélisation masquée) et, en particulier, de prédire le terme suivant avec une précision arithmétique.

2. Méthodologie : IntSeqBERT

Les auteurs proposent IntSeqBERT, un encodeur Transformer à double flux (dual-stream) conçu pour capturer simultanément la magnitude et la structure arithmétique modulo.

Représentation d'entrée (Dual-Stream)

Au lieu de tokeniser les entiers, chaque élément $x_i$ est encodé selon deux axes complémentaires :

Flux de Magnitude : Un embedding continu à l'échelle logarithmique ( $v_i = 1 + \log_{10}|x_i|$ ) qui capture la croissance et l'échelle. Il inclut également une représentation one-hot du signe.
Flux Modulo (Spectre) : Pour 100 modules ( $m \in \{2, \dots, 101\}$ ), les restes $x_i \mod m$ sont encodés via des embeddings sinusoïdaux ( $\sin(2\pi r/m), \cos(2\pi r/m)$ ). Cela capture la périodicité et la structure théorique des nombres (théorème des restes chinois, lois de réciprocité, etc.).

Fusion et Architecture

Fusion FiLM : Les deux flux sont fusionnés via FiLM (Feature-wise Linear Modulation). Le flux modulo génère des paramètres d'échelle ( $\gamma$ ) et de décalage ( $\beta$ ) qui modulent le flux de magnitude. Cela permet au modèle d'utiliser les contraintes arithmétiques (modulo) pour affiner l'estimation de la magnitude.
Objectif d'apprentissage multi-tâches : Le modèle est entraîné conjointement sur trois têtes de prédiction :
1. Régression de la magnitude (perte Huber).
2. Classification du signe (positif, négatif, zéro).
3. Prédiction de 100 classes de modulo indépendantes.

Le Solveur (CRT-Based Solver)

Pour obtenir un entier concret à partir des prédictions probabilistes (magnitude, signe, distributions de restes), un solveur basé sur le Théorème des Restes Chinois (CRT) est utilisé. Il explore l'espace des entiers possibles en pondérant les candidats selon la cohérence avec les prédictions de magnitude et de modulo.

3. Contributions Clés

Architecture IntSeqBERT : Une nouvelle approche de représentation qui fusionne des embeddings continus de magnitude et des embeddings spectraux modulo via FiLM.
Découverte Théorique : Une analyse du spectre modulo révèle une forte corrélation négative ( $r = -0.851$ ) entre le Normalized Information Gain (NIG) et le rapport $\phi(m)/m$ (fonction indicatrice d'Euler). Cela prouve empiriquement que les modules composites (ayant de nombreux facteurs premiers) capturent plus efficacement la structure arithmétique via l'agrégation CRT que les modules premiers.
Comportement d'échelle (Scaling) : L'analyse montre que la précision modulo et la précision du solveur s'améliorent de manière plus significative avec la taille du modèle que la précision de la magnitude, suggérant que le raisonnement arithmétique bénéficie disproportionnellement de la capacité du modèle.

4. Résultats Expérimentaux

Les expériences ont été menées sur 274 705 séquences OEIS avec trois tailles de modèles (Small, Middle, Large).

Performance Globale : À l'échelle Large (91,5M paramètres), IntSeqBERT atteint 95,85 % de précision sur la magnitude et 50,38 % de précision moyenne modulo (MMA).
Comparaison avec la base (Vanilla Transformer) :
- Gain de +8,9 points en précision de magnitude.
- Gain de +4,5 points en précision modulo.
- L'ablation (modèle sans flux modulo) perd 15,2 points en MMA, confirmant l'importance cruciale du flux arithmétique.
Prédiction du terme suivant (Solver) :
- IntSeqBERT atteint une précision Top-1 de 19,09 %, soit une amélioration de 7,4 fois par rapport à la base tokenisée (2,59 %).
- Pour les petits nombres, la précision atteint 68 %, tandis que la base tombe à 14 %.
Analyse des échelles : Le modèle tokenisé échoue catastrophiquement sur les grands nombres (bucket "Large" et au-delà) en raison des tokens UNK, tandis qu'IntSeqBERT maintient une précision significative grâce à l'encodage continu et modulo.

5. Signification et Impact

Ce travail démontre que l'intégration explicite de la structure arithmétique (via les restes modulo) dans les représentations neuronales est supérieure à l'approche purement tokenisée pour les séquences d'entiers.

Avancée pour l'IA mathématique : IntSeqBERT établit une base représentationnelle pour l'apprentissage des lois arithmétiques à grande échelle, dépassant les limites des modèles de langage standards face aux grands entiers.
Efficacité des modules composites : La découverte sur la corrélation entre le NIG et les modules composites offre une nouvelle perspective sur la manière dont les réseaux de neurones peuvent exploiter le théorème des restes chinois pour compresser et apprendre des structures mathématiques complexes.
Limites et Perspectives : La précision chute pour les nombres extrêmement grands ( $|x| \ge 10^{20}$ ) en raison des erreurs cumulées dans le solveur CRT. Les travaux futurs visent à intégrer des estimations d'incertitude et des méthodes de CRT approximatives pour surmonter ce seuil.

En résumé, IntSeqBERT représente un pas significatif vers des modèles capables de "comprendre" et de prédire la structure profonde des mathématiques discrètes au-delà de la simple mémorisation de tokens.