An Open-Source Training Dataset for Foundation Models for… — Begrijpelijke uitleg

Oorspronkelijke auteurs: Aaron Klein, Herilalaina Rakotoarison, Luca Thale-Bombien, David Salinas

Gepubliceerd 2026-05-25✓ Author reviewed ⓘ

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Aaron Klein, Herilalaina Rakotoarison, Luca Thale-Bombien, David Salinas

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Het Grote Probleem: Het "Zwarte Doos"-Mysterie

Stel je voor dat je probeert de perfecte taart te bakken, maar je hebt een magische oven die volledig verzegeld is. Je kunt niet naar binnen kijken, je kent het recept niet en je kunt de temperatuur niet meten. De enige manier om te leren is door een taart in de oven te doen, wachten tot hij gebakken is, hem eruit te halen en te proeven.

De Taart: Dit is de "doelfunctie" (het probleem dat je wilt oplossen).
De Ingrediënten: Dit zijn de "hyperparameters" (instellingen zoals leersnelheid, aantal lagen, enzovoort).
De Smaak: Dit is de "score" (hoe goed het resultaat is).

Dit noemen we Black-Box-Optimalisatie. Het komt overal voor: het afstemmen van AI-modellen, het ontwerpen van nieuwe medicijnen of het configureren van robots. Het probleem is dat het vinden van de perfecte "taart" meestal vereist dat een menselijk expert duizenden keren gis, aanpast en proeft. Het is traag, duur, en de trucs van de expert werken vaak niet als je overstapt van het bakken van een taart naar het bakken van brood.

De Oude Manier versus Het Nieuwe Idee

De Oude Manier: Wetenschappers hebben over de jaren heen vele verschillende "proef-experts" (algoritmen) gebouwd. De ene expert is geweldig in het vinden van taartrecepten, maar vreselijk in het vinden van broodrecepten. Het zijn gespecialiseerde gereedschappen.

Het Nieuwe Idee (Fundatiemodellen): Wat als we één superslimme AI konden trainen om de algemene principes van bakken te leren? In plaats van een taartexpert of een broodexpert te zijn, zou het een "Meesterbakker" zijn die begrijpt hoe je elk recept optimaliseert, gewoon door duizenden eerdere bakpogingen te bekijken.

Het Ontbrekende Ingrediënt: Een Reuzegroot Kookboek

Om deze "Meesterbakker" te trainen, heb je een enorme bibliotheek van eerdere bakpogingen (data) nodig.

Het Probleem: Eerdere pogingen om dit te doen, maakten gebruik van geheime data (die niemand anders kon zien) of verzonnen data (die de realiteit niet weerspiegelde). Het was alsof je probeerde een chef-kok te onderwijzen met een kookboek geschreven in een taal die niemand spreekt, of met nep-ingrediënten.
De Oplossing (BBO-Pile): De auteurs hebben BBO-Pile gecreëerd, het eerste open-source "Kookboek" voor deze taak.
- Het bevat 557.100 verschillende bakpogingen (trajecten).
- Deze pogingen dekken 3.095 verschillende soorten problemen (van het afstemmen van AI-modellen tot chemisch ontwerp).
- Het bevat data van 6 verschillende "proef-experts" (algoritmen) zodat de AI verschillende strategieën kan leren.
- Het is enorm: ongeveer 2,5 miljard woorden (tokens) aan data.

Hoe Ze De "Meesterbakker" Trainden

De auteurs gaven de AI niet alleen het kookboek; ze trainden een familie van AI-modellen (zoals chefs van verschillende grootte) om het te lezen.

De Modellen: Ze bouwden modellen variërend van klein (2 miljoen parameters) tot groot (80 miljoen parameters).
De Training: Ze voerden de modellen de data aan en vroegen hen om de volgende stap in een bakproces te voorspellen.
- Invoer: "Hier is het recept tot nu toe, en hier is hoe de laatste taart smaakte."
- Uitvoer: "Hier is het volgende ingrediëntenmengsel dat je moet proberen."
Het Resultaat: De AI leerde het gedrag van de oorspronkelijke menselijke experts na te bootsen. Als je de AI vertelde om te handelen als "Expert A", deed hij dat. Als je hem vertelde om te handelen als "Expert B", schakelde hij van strategie.

Wat Ze Ontdekten

Groter is Beter (maar met grenzen): Naarmate ze de AI-modellen groter maakten en meer data voerden, werden de modellen beter in het nabootsen van de experts. Echter, de verbetering was niet zo explosief als bij chatbots (LLM's); het was een gestage, voorspelbare klim.
Generalisatie: De AI onthield niet alleen de recepten in het boek. Toen ze het testten op een nieuw type probleem dat het nog nooit had gezien (zoals een compleet nieuw type brood), presteerde het verrassend goed. Het had de logica van optimalisatie geleerd, niet alleen de specifieke antwoorden.
Snelheid: Eenmaal getraind, kan de AI bijna direct de volgende stap suggereren, veel sneller dan het uitvoeren van complexe wiskundige simulaties vanaf nul.

De Conclusie

Dit artikel is als het bouwen van de eerste openbare bibliotheek van "optimalisatieverhalen". Door deze enorme dataset (BBO-Pile) te delen, hebben de auteurs andere onderzoekers in staat gesteld hun eigen "Meesterbakker"-AI te trainen.

Ze bewezen dat je een algemene AI kunt trainen om te begrijpen hoe je complexe, onbekende problemen oplost, door het simpelweg te laten zien hoe andere methoden in het verleden vergelijkbare problemen hebben opgelost. Het is een stap naar een AI die niet slechts één puzzel oplost, maar weet hoe je elke puzzel oplost.

Belangrijke Opmerking: Het artikel richt zich uitsluitend op het creëren van deze dataset en het trainen van deze modellen om bestaande optimalisatiemethoden na te bootsen. Het claimt niet dat het specifieke real-world problemen heeft opgelost (zoals het genezen van een ziekte of het ontwerpen van een specifieke raket), noch bespreekt het toekomstige klinische toepassingen. Het doel was simpelweg om te bewijzen dat deze "Fundatiemodel"-aanpak werkt en om de data te verschaffen zodat anderen het kunnen proberen.

Technische Samenvatting: BBO-Pile en Fundamentele Modellen voor Black-Box Optimalisatie

Probleemstelling
Black-box optimalisatie (BBO) is een fundamentele uitdaging in wetenschappelijke en technische domeinen, waaronder robotica, chemisch ontwerp en het afstemmen van hyperparameters voor machine learning. De kernmoeilijkheid ligt in het optimaliseren van een doelfunctie $f(x)$ zonder toegang tot haar structurele informatie of gradiënten, waarbij uitsluitend wordt vertrouwd op query-uitvoer. Bestaande BBO-methoden, zoals Bayesiaanse Optimalisatie (BO) en evolutionaire algoritmen, zijn vaak gespecialiseerd en presteren goed alleen binnen smalle probleemklassen. Ze vereisen doorgaans uitgebreide handmatige afstemming en falen in het generaliseren over diverse domeinen. Hoewel fundamentele modellen succesvol zijn geweest in visie en natuurlijke taalverwerking, is hun toepassing op BBO gehinderd door een gebrek aan grote, publieke, real-world pre-trainingsdata. Eerdere pogingen, zoals OptFormer, maakten gebruik van niet-publieke datasets of puur synthetische data, wat de reproduceerbaarheid beperkte en het vermogen om generaliseerbare optimalisatieprincipes te leren.

Methodologie
De auteurs introduceren BBO-Pile, de eerste open-source dataset die is ontworpen om fundamentele modellen te trainen voor black-box optimalisatie. De methodologie omvat datasetconstructie, tokenisatie en modeltraining:

Datasetconstructie (BBO-Pile): De dataset aggregeert 557.100 optimalisatietrajecten over 3.095 verschillende black-box taken die zich uitstrekken over 102 zoekruimtes. Deze taken zijn afkomstig uit zeven benchmark-families, waaronder hyperparameteroptimalisatie (HPO-B, LC-Bench, PD1, TabRepo), zoektocht naar neurale architecturen (FC-Net, NAS-Bench-201) en synthetische globale optimalisatieproblemen. De data is gegenereerd door zes verschillende optimalisatoren (waaronder BORE, CQR, HEBO, TPE, Regularized Evolution en Random Search) uit te voeren met een budget van 100 evaluaties per taak, 30 keer herhaald met verschillende zaden.
Data-augmentatie: Om het aantal tokens uit te breiden en overfitting te mitigeren, passen de auteurs permutatie toe op de volgorde van hyperparameters (waarbij conventies voor numeriek vóór categorisch worden behouden) en bemonsteren ze trajecten van variërende lengtes ( $T \in \{5, 10, 20, 50, 100\}$ ) vóór kwantisatie. Dit resulteert in een definitieve dataset van ongeveer 2,5 miljard tokens.
Codering en Tokenisatie: Optimalisatietrajecten worden gecodeerd als sequenties van tokens. Metadata (naam optimalisator, zoekruimte) wordt eerst gecodeerd. Numerieke configuraties en doelfunctiewaarden worden min-max geschaald naar $[0, 1]$ , gediscretiseerd in $Q=1000$ bakken, en omgezet naar strings. Categorieke parameters worden gecodeerd via index. Speciale tekens geven het einde van configuraties en waargenomen metrieken aan. Een Byte-Pair Encoding (BPE) tokenizer wordt getraind op deze strings.
Modelarchitectuur en Training: De auteurs trainen decoder-only transformer-modellen gebaseerd op de Qwen3-architectuur, met gebruik van Rotary Position Embeddings, Grouped Query Attention en Root Mean Square Normalization. De modellen worden getraind met een standaard causale taalkundige modeleringsdoelstelling ( $L(\theta) = -\sum \log p_\theta(s_i | s_{<i})$ ).
Inferentie: Tijdens inferentie samplet het model een voltooiingsstring op basis van de gecodeerde zoekruimte en historische waarnemingen. Beperkte decoding zorgt ervoor dat alle gegenereerde waarden geldig en decodeerbaar zijn.

Belangrijkste Bijdragen

BBO-Pile Dataset: De release van de grootste publieke dataset voor black-box optimalisatie, bestaande uit meer dan 500K trajecten van 3.095 taken en 6 optimalisatoren, met in totaal ~2,5 miljard tokens.
Training van Fundamentele Modellen: De training van een familie fundamentele modellen variërend van 2M tot 80M parameters en 200M tot 2B trainings-tokens.
Schaalanalyse: Een systematische analyse van hoe decoder-gebaseerde transformers state-of-the-art BBO-methoden nabootsen naarmate het aantal parameters en het tokenbudget toeneemt.
Open-source Release: Volledige beschikbaarheid van de dataset, modelcheckpoints en code voor training, generatie en evaluatie op GitHub en HuggingFace.

Resultaten

Schaalgedrag: De modellen vertonen voorspelbaar schaalgedrag vergelijkbaar met Large Language Models (LLM's). De validatieverlies volgt een machtwet met betrekking tot rekenkracht ( $L \propto C^{-0,0157}$ ), hoewel de exponent minder steil is dan typische LLM-pre-training, wat wijst op bescheiden verbeteringen door verhoogde rekenkracht.
Nabootsing van Optimalisatoren: De getrainde modellen bootsten succesvol de optimalisatietrajecten van de oorspronkelijke optimalisatoren na (bijvoorbeeld CQR en Random Search).
- Parameterschaal: Grotere modellen (bijvoorbeeld 80M parameters) komen de prestaties en sampleverdeling van de oorspronkelijke optimalisatoren dichter bij dan kleinere modellen (bijvoorbeeld 2M parameters), met name in vroege iteraties.
- Tokenschaal: Modellen getraind op tokenbudgetten van meer dan 1 miljard tokens komen de oorspronkelijke prestaties nauwkeurig overeen, terwijl budgetten onder de 800 miljoen tokens onvoldoende zijn om complexe sampleverdelingen volledig te vangen.
Generalisatie: De modellen demonstreren generalisatievermogen:
- Ze presteren goed op ongezette taken binnen geziene zoekruimtes.
- Ze tonen concurrerende prestaties op taken uit ongezette zoekruimtes (bijvoorbeeld TabRepo CatBoost-taken), hoewel de prestatiekloof groter wordt bij globale optimalisatieproblemen met sterk variërende verlieslandschappen.
- De modellen kunnen onderscheid maken tussen verschillende optimalisatiestrategieën (bijvoorbeeld CQR versus Random Search) en hun specifieke gedrag reproduceren, inclusief marginale hyperparameterdichtheden.

Betekenis en Beweringen
Het artikel beweert dat grootschalige pre-training op BBO-Pile een haalbare en effectieve aanpak is om black-box optimalisatiemethoden na te bootsen. Het werk stelt vast dat fundamentele modellen optimalisatieprincipes uit data kunnen leren, wat potentieel de specialisatie en het gebrek aan generalisatie die inherent zijn aan handmatig ontworpen methoden kan overwinnen. Door de eerste grootschalige, open-source dataset te bieden en schaalwetten aan te tonen, banen de auteurs de weg voor toekomstig onderzoek naar krachtigere, generaliseerbare optimalisatie-agenten. De auteurs merken bescheiden op dat hoewel de modellen veelbelovend zijn, ze momenteel bestaande strategieën nabootsen in plaats van nieuwe uit te vinden, en dat toekomstig werk nodig is om beperkingen aan te pakken bij generalisatie naar domeinen met verschillende kenmerken (bijvoorbeeld chemisch ontwerp) en om redeneringsgebaseerde of schaalbenaderingen tijdens testtijd te verkennen.

An Open-Source Training Dataset for Foundation Models for Black-box Optimization