IntSeqBERT: Learning Arithmetic Structure in OEIS via Modulo-Spectrum Embeddings

L'article présente IntSeqBERT, un modèle Transformer dual-stream qui encode les séquences d'entiers de l'OEIS via des embeddings de magnitude et de modulo, surpassant les approches par tokenisation grâce à une prédiction de termes suivante améliorée de sept fois et à une analyse prouvant que les moduli composites capturent plus efficacement la structure arithmétique.

Kazuhisa Nakasho

Publié 2026-03-09
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🧩 Le Défi : Deviner la suite d'une chanson de nombres

Imaginez que vous avez un livre de recettes mathématiques géant, appelé OEIS (l'Encyclopédie en ligne des suites d'entiers). Ce livre contient des centaines de milliers de suites de nombres :

  • Des suites simples : 1, 2, 3, 4...
  • Des suites complexes : 1, 1, 2, 3, 5, 8... (les nombres de Fibonacci)
  • Des suites astronomiques : des nombres si grands qu'ils dépassent l'entendement humain (comme des factorielles ou des puissances énormes).

Le but du jeu est simple : on cache un nombre dans une suite, et on demande à une intelligence artificielle (IA) de le deviner en regardant les autres nombres autour.

Le problème ? Les IA classiques (comme les grands modèles de langage) sont comme des enfants qui apprennent à lire. Ils connaissent un certain nombre de "mots" (des nombres). Si vous leur donnez un nombre qu'ils n'ont jamais vu dans leur dictionnaire (par exemple, un nombre avec 100 chiffres), ils paniquent et disent "Je ne sais pas". De plus, ils ont du mal à comprendre la musique cachée derrière les nombres (les règles de division, de parité, etc.).

🚀 La Solution : IntSeqBERT, le détective à double vision

Les chercheurs ont créé une nouvelle IA appelée IntSeqBERT. Au lieu de traiter les nombres comme de simples mots, ils les regardent sous deux angles différents, comme un détective qui utiliserait deux types de jumelles :

1. La jumelle "Taille" (Magnitude)

Imaginez que vous devez décrire un objet. La première jumelle vous dit : "C'est grand, très grand, ou gigantesque".

  • L'IA ne regarde pas le nombre exact (ex: 123 456), mais sa taille (combien de chiffres il a, ou son ordre de grandeur). C'est comme estimer si un éléphant est un bébé ou un adulte sans avoir besoin de le peser exactement.

2. La jumelle "Rythme" (Modulo)

C'est ici que la magie opère. La deuxième jumelle regarde les nombres non pas pour leur taille, mais pour leur rythme ou leur cycle.

  • En mathématiques, si vous divisez un nombre par 2, le reste est soit 0 (pair), soit 1 (impair). C'est un cycle simple.
  • Si vous divisez par 3, le reste suit un cycle de 3 valeurs.
  • IntSeqBERT regarde 100 cycles différents en même temps (diviser par 2, par 3, par 4... jusqu'à 101).
  • L'analogie : Imaginez que les nombres sont des musiciens. La première jumelle entend le volume (fort/faible). La deuxième jumelle entend la mélodie (le rythme). Même si le volume change, la mélodie (le reste de la division) reste fidèle à la règle mathématique.

🤝 La Fusion : Le chef d'orchestre (FiLM)

Ces deux jumelles envoient leurs informations à un chef d'orchestre (une technique appelée FiLM).

  • Le chef d'orchestre dit à la partie "Taille" : "Attends, le rythme dit que ce nombre doit être pair et divisible par 3, donc ajuste ta taille !"
  • Cela permet à l'IA de comprendre que même si un nombre est énorme, il doit respecter certaines règles de division. C'est comme si l'IA apprenait que "tous les multiples de 12 finissent par être pairs", peu importe la taille du nombre.

🧪 Les Résultats : Qui gagne la course ?

Les chercheurs ont mis IntSeqBERT en compétition contre une IA classique (appelée "Vanilla") et une version simplifiée (sans la jumelle "Rythme").

  1. La précision : IntSeqBERT devine la taille des nombres avec une précision de 95,8 %, contre 87 % pour l'IA classique.
  2. La compréhension des règles : Pour deviner les cycles (les restes de division), IntSeqBERT réussit 50 % du temps, alors que l'IA classique est bien en dessous.
  3. Le grand vainqueur (Le Solveur) : Le vrai test est de reconstruire le nombre exact caché.
    • L'IA classique a raison 2,6 % du temps (elle perd souvent avec les gros nombres).
    • IntSeqBERT a raison 19 % du temps.
    • C'est 7,4 fois mieux ! C'est comme si l'IA classique trouvait une aiguille dans une botte de foin une fois sur 40, tandis qu'IntSeqBERT la trouve une fois sur 5.

💡 La Découverte Surprise : Les nombres composés sont des super-héros

En analysant comment l'IA apprenait, les chercheurs ont fait une découverte fascinante.

  • Ils ont remarqué que l'IA apprenait beaucoup mieux avec des nombres "composés" (comme 60, 96) que avec des nombres premiers (comme 7, 11).
  • Pourquoi ? Imaginez que vous essayez de deviner l'heure qu'il est. Si on vous dit "Il est 12h00" (un cycle simple), c'est bien. Mais si on vous dit "Il est 12h00, 12h15 et 12h30" (plusieurs cycles combinés), vous pouvez déduire l'heure exacte beaucoup plus facilement.
  • Les nombres composés agissent comme des "super-résumés" qui combinent plusieurs règles de division à la fois, rendant la tâche de l'IA beaucoup plus facile.

🏁 Conclusion

IntSeqBERT est une avancée majeure car il ne se contente pas de mémoriser des nombres. Il apprend la structure mathématique cachée derrière eux.

  • Il comprend que les nombres ont une taille (magnitude).
  • Il comprend qu'ils ont un rythme (modulo).
  • En combinant les deux, il peut deviner des nombres gigantesques que les autres IA ne peuvent même pas voir.

C'est comme passer d'un enfant qui apprend à compter sur ses doigts, à un mathématicien qui comprend la symphonie des nombres. Cela ouvre la porte à de nouvelles découvertes mathématiques et à une meilleure compréhension de la logique de l'univers par les machines.