An Open-Source Training Dataset for Foundation Models for… — Explication vulgarisée

Auteurs originaux : Aaron Klein, Herilalaina Rakotoarison, Luca Thale-Bombien, David Salinas

Publié 2026-05-25✓ Author reviewed ⓘ

📖 5 min de lecture🧠 Analyse approfondie

Auteurs originaux : Aaron Klein, Herilalaina Rakotoarison, Luca Thale-Bombien, David Salinas

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Le Grand Problème : Le Mystère de la « Boîte Noire »

Imaginez que vous essayez de préparer le gâteau parfait, mais que vous disposez d'un four magique entièrement scellé. Vous ne pouvez pas voir à l'intérieur, vous ne connaissez pas la recette et vous ne pouvez pas mesurer la température. La seule façon d'apprendre est de mettre un gâteau à cuire, d'attendre qu'il soit cuit, de le sortir et de le goûter.

Le Gâteau : C'est la « fonction objectif » (le problème que vous voulez résoudre).
Les Ingrédients : Ce sont les « hyperparamètres » (réglages comme le taux d'apprentissage, le nombre de couches, etc.).
Le Goût : C'est le « score » (la qualité du résultat).

Ceci s'appelle l'Optimisation de Boîte Noire. Cela se produit partout : réglage des modèles d'IA, conception de nouveaux médicaments ou configuration de robots. Le problème est que trouver le « gâteau » parfait nécessite généralement qu'un expert humain devine, ajuste et goûte des milliers de fois. C'est lent, coûteux, et les astuces de l'expert fonctionnent souvent mal si vous passez de la cuisson d'un gâteau à celle d'un pain.

L'Ancienne Méthode vs La Nouvelle Idée

L'Ancienne Méthode : Les scientifiques ont construit de nombreux « experts du goût » (algorithmes) différents au fil des ans. Un expert est excellent pour trouver des recettes de gâteaux, mais terrible pour trouver des recettes de pain. Ce sont des outils spécialisés.

La Nouvelle Idée (Modèles de Fondation) : Et si nous pouvions entraîner une seule IA super-intelligente à apprendre les principes généraux de la pâtisserie ? Au lieu d'être un expert en gâteaux ou un expert en pains, ce serait un « Maître Pâtissier » qui comprend comment optimiser n'importe quelle recette simplement en examinant des milliers de tentatives de pâtisserie passées.

L'Ingrédient Manquant : Un Livre de Recettes Géant

Pour entraîner ce « Maître Pâtissier », vous avez besoin d'une immense bibliothèque de tentatives de pâtisserie passées (données).

Le Problème : Les tentatives précédentes pour faire cela reposaient sur des données secrètes (que personne d'autre ne pouvait voir) ou sur des données fabriquées (qui ne reflétaient pas la réalité). C'était comme essayer d'enseigner à un chef en utilisant un livre de recettes écrit dans une langue que personne ne parle, ou en utilisant de faux ingrédients.
La Solution (BBO-Pile) : Les auteurs ont créé BBO-Pile, le premier « Livre de Recettes » open-source pour cette tâche.
- Il contient 557 100 tentatives de pâtisserie différentes (trajectoires).
- Ces tentatives couvrent 3 095 types de problèmes différents (du réglage de modèles d'IA à la conception chimique).
- Il inclut des données provenant de 6 « experts du goût » différents (algorithmes) afin que l'IA puisse apprendre différentes stratégies.
- Il est massif : environ 2,5 milliards de mots (tokens) de données.

Comment Ils Ont Entraîné le « Maître Pâtissier »

Les auteurs n'ont pas simplement donné le livre de recettes à l'IA ; ils ont entraîné une famille de modèles d'IA (comme des chefs de différentes tailles) à le lire.

Les Modèles : Ils ont construit des modèles allant de petits (2 millions de paramètres) à grands (80 millions de paramètres).
L'Entraînement : Ils ont nourri les modèles avec les données et leur ont demandé de prédire l'étape suivante dans un processus de pâtisserie.
- Entrée : « Voici la recette jusqu'ici, et voici comment le dernier gâteau a goûté. »
- Sortie : « Voici le prochain mélange d'ingrédients que vous devriez essayer. »
Le Résultat : L'IA a appris à imiter le comportement des experts humains originaux. Si vous disiez à l'IA d'agir comme « Expert A », elle agissait comme l'Expert A. Si vous lui disiez d'agir comme l'Expert B, elle changeait de stratégie.

Ce Qu'ils Ont Découvert

Plus c'est grand, mieux c'est (mais avec des limites) : À mesure qu'ils rendaient les modèles d'IA plus grands et leur donnaient plus de données, les modèles devenaient meilleurs pour imiter les experts. Cependant, l'amélioration n'était pas aussi explosive que pour les chatbots (LLM) ; c'était une progression régulière et prévisible.
Généralisation : L'IA n'a pas seulement mémorisé les recettes du livre. Lorsqu'ils l'ont testée sur un nouveau type de problème qu'elle n'avait jamais vu auparavant (comme un tout nouveau type de pain), elle a encore performé de manière surprenante. Elle avait appris la logique de l'optimisation, pas seulement les réponses spécifiques.
Vitesse : Une fois entraînée, l'IA peut suggérer l'étape suivante presque instantanément, beaucoup plus vite que l'exécution de simulations mathématiques complexes à partir de zéro.

L'Essentiel

Ce document est comparable à la construction de la première bibliothèque publique d'« histoires d'optimisation ». En partageant cet immense jeu de données (BBO-Pile), les auteurs ont permis à d'autres chercheurs d'entraîner leur propre IA de « Maître Pâtissier ».

Ils ont prouvé que l'on peut entraîner une IA à usage général à comprendre comment résoudre des problèmes complexes et inconnus en lui montrant simplement comment d'autres méthodes ont résolu des problèmes similaires dans le passé. C'est un pas vers une IA qui ne résout pas seulement une énigme, mais qui sait comment résoudre n'importe quelle énigme.

Note Importante : Le document se concentre entièrement sur la création de ce jeu de données et l'entraînement de ces modèles pour imiter les méthodes d'optimisation existantes. Il ne prétend pas avoir résolu de problèmes réels spécifiques (comme guérir une maladie ou concevoir une fusée particulière) pour l'instant, ni ne discute des applications cliniques futures. L'objectif était simplement de prouver que cette approche de « Modèle de Fondation » fonctionne et de fournir les données afin que d'autres puissent l'essayer.

Résumé Technique : BBO-Pile et Modèles de Fondation pour l'Optimisation Boîte-Noire

Énoncé du Problème
L'optimisation boîte-noire (BBO) constitue un défi fondamental dans de nombreux domaines scientifiques et techniques, notamment la robotique, la conception chimique et le réglage des hyperparamètres en apprentissage automatique. La difficulté centrale réside dans l'optimisation d'une fonction objectif $f(x)$ sans accès à ses informations structurelles ni à ses gradients, en se fiant uniquement aux résultats des requêtes. Les méthodes BBO existantes, telles que l'optimisation bayésienne (BO) et les algorithmes évolutionnaires, sont souvent spécialisées, performantes uniquement au sein de classes de problèmes étroites. Elles nécessitent généralement un réglage manuel extensif et échouent à se généraliser à travers des domaines diversifiés. Bien que les modèles de fondation aient réussi dans la vision par ordinateur et le traitement du langage naturel, leur application à la BBO a été entravée par l'absence de données de pré-entraînement à grande échelle, publiques et réelles. Les tentatives antérieures, telles qu'OptFormer, reposaient sur des jeux de données non publics ou purement synthétiques, limitant la reproductibilité et la capacité à apprendre des principes d'optimisation généralisables.

Méthodologie
Les auteurs présentent BBO-Pile, le premier jeu de données open source conçu pour entraîner des modèles de fondation pour l'optimisation boîte-noire. La méthodologie englobe la construction du jeu de données, la tokenisation et l'entraînement du modèle :

Construction du Jeu de Données (BBO-Pile) : Le jeu de données agrège 557 100 trajectoires d'optimisation à travers 3 095 tâches boîte-noire distinctes couvrant 102 espaces de recherche. Ces tâches sont tirées de sept familles de benchmarks, incluant l'optimisation d'hyperparamètres (HPO-B, LC-Bench, PD1, TabRepo), la recherche d'architecture neuronale (FC-Net, NAS-Bench-201) et des problèmes d'optimisation globale synthétiques. Les données ont été générées en exécutant six optimiseurs différents (incluant BORE, CQR, HEBO, TPE, Regularized Evolution et Random Search) avec un budget de 100 évaluations par tâche, répété 30 fois avec des graines différentes.
Augmentation des Données : Pour augmenter le nombre de tokens et atténuer le surapprentissage, les auteurs emploient la permutation de l'ordre des hyperparamètres (en préservant les conventions numériques avant catégoriels) et échantillonnent des trajectoires de longueurs variables ( $T \in \{5, 10, 20, 50, 100\}$ ) avant la quantification. Cela aboutit à un jeu de données final d'environ 2,5 milliards de tokens.
Encodage et Tokenisation : Les trajectoires d'optimisation sont encodées sous forme de séquences de tokens. Les métadonnées (nom de l'optimiseur, espace de recherche) sont encodées en premier. Les configurations numériques et les valeurs objectives sont mises à l'échelle min-max à $[0, 1]$ , discrétisées en $Q=1000$ intervalles, et converties en chaînes de caractères. Les paramètres catégoriels sont encodés par index. Des caractères spéciaux délimitent la fin des configurations et des métriques observées. Un tokeniseur Byte-Pair Encoding (BPE) est entraîné sur ces chaînes.
Architecture du Modèle et Entraînement : Les auteurs entraînent des modèles transformateurs uniquement décodeurs basés sur l'architecture Qwen3, utilisant des embeddings de position rotatifs, une attention par requêtes groupées et une normalisation de la racine carrée de la moyenne quadratique (RMSNorm). Les modèles sont entraînés avec un objectif standard de modélisation du langage causal ( $L(\theta) = -\sum \log p_\theta(s_i | s_{<i})$ ).
Inférence : Lors de l'inférence, le modèle échantillonne une chaîne de complétion basée sur l'espace de recherche encodé et les observations historiques. Un décodage contraint garantit que toutes les valeurs générées sont valides et décodables.

Contributions Clés

Jeu de Données BBO-Pile : La publication du plus grand jeu de données public pour l'optimisation boîte-noire, comprenant plus de 500 000 trajectoires issues de 3 095 tâches et de 6 optimiseurs, totalisant environ 2,5 milliards de tokens.
Entraînement de Modèles de Fondation : L'entraînement d'une famille de modèles de fondation allant de 2M à 80M de paramètres et de 200M à 2 milliards de tokens d'entraînement.
Analyse de l'Échelle : Une analyse systématique de la manière dont les transformateurs basés sur décodeur imitent les méthodes BBO de l'état de l'art à mesure que le nombre de paramètres et le budget de tokens augmentent.
Publication Open Source : La disponibilité complète du jeu de données, des points de contrôle de modèles et du code pour l'entraînement, la génération et l'évaluation sur GitHub et HuggingFace.

Résultats

Comportement d'Échelle : Les modèles présentent un comportement d'échelle prévisible similaire aux grands modèles de langage (LLM). La perte de validation suit une loi de puissance par rapport au calcul ( $L \propto C^{-0.0157}$ ), bien que l'exposant soit plus faible que pour le pré-entraînement typique des LLM, suggérant des améliorations modestes grâce à une augmentation du calcul.
Imitation des Optimiseurs : Les modèles entraînés imitent avec succès les trajectoires d'optimisation des optimiseurs originaux (par exemple, CQR et Random Search).
- Mise à l'échelle des Paramètres : Les modèles plus grands (par exemple, 80M de paramètres) correspondent plus étroitement aux performances et à la distribution d'échantillonnage des optimiseurs originaux que les modèles plus petits (par exemple, 2M de paramètres), en particulier lors des premières itérations.
- Mise à l'échelle des Tokens : Les modèles entraînés sur des budgets de tokens dépassant 1 milliard de tokens correspondent étroitement aux performances originales, tandis que des budgets inférieurs à 800 millions de tokens sont insuffisants pour capturer pleinement des distributions d'échantillonnage complexes.
Généralisation : Les modèles démontrent des capacités de généralisation :
- Ils performent bien sur des tâches non vues au sein d'espaces de recherche vus.
- Ils affichent des performances compétitives sur des tâches issues d'espaces de recherche non vus (par exemple, les tâches TabRepo CatBoost), bien que les écarts de performance s'élargissent sur les problèmes d'optimisation globale présentant des paysages de perte hautement variables.
- Les modèles peuvent distinguer entre différentes stratégies d'optimisation (par exemple, CQR vs Random Search) et reproduire leurs comportements spécifiques, y compris les densités marginales d'hyperparamètres.

Signification et Revendications
L'article revendique que le pré-entraînement à grande échelle sur BBO-Pile est une approche viable et efficace pour imiter les méthodes d'optimisation boîte-noire. Le travail établit que les modèles de fondation peuvent apprendre des principes d'optimisation à partir de données, potentiellement en surmontant la spécialisation et le manque de généralisation inhérents aux méthodes conçues manuellement. En fournissant le premier jeu de données open source à grande échelle et en démontrant des lois d'échelle, les auteurs ouvrent la voie à de futures recherches sur des agents d'optimisation plus puissants et généralisables. Les auteurs notent modestement que, bien que les modèles soient prometteurs, ils imitent actuellement des stratégies existantes plutôt qu'ils n'en inventent de nouvelles, et que des travaux futurs sont nécessaires pour aborder les limites de la généralisation à des domaines aux caractéristiques différentes (par exemple, la conception chimique) et pour explorer des approches basées sur le raisonnement ou l'augmentation de l'échelle au moment du test.

An Open-Source Training Dataset for Foundation Models for Black-box Optimization