An Open-Source Training Dataset for Foundation Models for… — Spiegazione divulgativa

Autori originali: Aaron Klein, Herilalaina Rakotoarison, Luca Thale-Bombien, David Salinas

Pubblicato 2026-05-25✓ Author reviewed ⓘ

📖 5 min di lettura🧠 Approfondimento

Autori originali: Aaron Klein, Herilalaina Rakotoarison, Luca Thale-Bombien, David Salinas

Articolo originale sotto licenza CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Questa è una spiegazione generata dall'IA dell'articolo qui sotto. Non è stata scritta dagli autori. Per precisione tecnica, consulta l'articolo originale. Leggi il disclaimer completo

Il Grande Problema: Il Mistero della "Scatola Nera"

Immagina di cercare di preparare la torta perfetta, ma hai un forno magico completamente sigillato. Non puoi vedere all'interno, non conosci la ricetta e non puoi misurare la temperatura. L'unico modo per imparare è inserire una torta, aspettare che cuocia, estrarla e assaggiarla.

La Torta: Questa è la "funzione obiettivo" (il problema che vuoi risolvere).
Gli Ingredienti: Questi sono gli "iperparametri" (impostazioni come il tasso di apprendimento, il numero di livelli, ecc.).
Il Gusto: Questo è il "punteggio" (quanto buono è il risultato).

Questo si chiama Ottimizzazione a Scatola Nera. Accade ovunque: nell'ottimizzazione dei modelli di intelligenza artificiale, nella progettazione di nuovi farmaci o nella configurazione dei robot. Il problema è che trovare la "torta" perfetta richiede solitamente che un esperto umano indovini, modifichi e assaggi migliaia di volte. È lento, costoso e i trucchi dell'esperto spesso non funzionano se passi dalla cottura di una torta alla cottura di un pane.

Il Vecchio Metodo vs. La Nuova Idea

Il Vecchio Metodo: Nel corso degli anni, gli scienziati hanno costruito molti diversi "esperti assaggiatori" (algoritmi). Un esperto è eccellente nel trovare ricette per torte, ma terribile nel trovare ricette per il pane. Sono strumenti specializzati.

La Nuova Idea (Modelli Fondamentali): E se potessimo addestrare una singola intelligenza artificiale super-intelligente a imparare i principi generali della panificazione? Invece di essere un esperto di torte o un esperto di pane, sarebbe un "Maestro Pasticcere" che capisce come ottimizzare qualsiasi ricetta semplicemente osservando migliaia di tentativi di cottura passati.

L'Ingrediente Mancante: Un'enorme Libreria di Ricette

Per addestrare questo "Maestro Pasticcere", hai bisogno di una vasta libreria di tentativi di cottura passati (dati).

Il Problema: I tentativi precedenti di farlo si basavano su dati segreti (che nessuno poteva vedere) o su dati inventati (che non riflettevano la realtà). Era come cercare di insegnare a uno chef usando un libro di cucina scritto in una lingua che nessuno parla, o usando ingredienti finti.
La Soluzione (BBO-Pile): Gli autori hanno creato BBO-Pile, il primo "Libro di Cucina" open-source per questo compito.
- Contiene 557.100 tentativi di cottura diversi (traiettorie).
- Questi tentativi coprono 3.095 tipi diversi di problemi (dall'ottimizzazione dei modelli di intelligenza artificiale alla progettazione chimica).
- Include dati provenienti da 6 diversi "esperti assaggiatori" (algoritmi) affinché l'intelligenza artificiale possa imparare diverse strategie.
- È enorme: circa 2,5 miliardi di parole (token) di dati.

Come Hanno Addestrato il "Maestro Pasticcere"

Gli autori non hanno semplicemente dato all'intelligenza artificiale il libro di cucina; hanno addestrato una famiglia di modelli di intelligenza artificiale (come chef di diverse dimensioni) a leggerlo.

I Modelli: Hanno costruito modelli che vanno da piccoli (2 milioni di parametri) a grandi (80 milioni di parametri).
L'Addestramento: Hanno fornito i dati ai modelli chiedendo loro di prevedere il prossimo passo in un processo di cottura.
- Input: "Ecco la ricetta finora, ed ecco come ha avuto sapore l'ultima torta."
- Output: "Ecco la prossima miscela di ingredienti che dovresti provare."
Il Risultato: L'intelligenza artificiale ha imparato a imitare il comportamento degli esperti umani originali. Se si chiedeva all'intelligenza artificiale di comportarsi come "Esperto A", si comportava come l'Esperto A. Se si chiedeva di comportarsi come "Esperto B", cambiava strategia.

Cosa Hanno Scoperto

Più Grande è Meglio (ma con limiti): Mentre rendevano i modelli di intelligenza artificiale più grandi e fornivano loro più dati, i modelli miglioravano nell'imitare gli esperti. Tuttavia, il miglioramento non è stato esplosivo come nei chatbot (LLM); è stata una salita costante e prevedibile.
Generalizzazione: L'intelligenza artificiale non ha solo memorizzato le ricette nel libro. Quando l'hanno testata su un nuovo tipo di problema che non aveva mai visto prima (come un tipo completamente nuovo di pane), ha ancora ottenuto risultati sorprendentemente buoni. Aveva imparato la logica dell'ottimizzazione, non solo le risposte specifiche.
Velocità: Una volta addestrata, l'intelligenza artificiale può suggerire il prossimo passo quasi istantaneamente, molto più velocemente rispetto all'esecuzione di simulazioni matematiche complesse da zero.

La Conclusione

Questo documento è come la costruzione della prima biblioteca pubblica di "storie di ottimizzazione". Condividendo questo enorme set di dati (BBO-Pile), gli autori hanno permesso ad altri ricercatori di addestrare la propria intelligenza artificiale "Maestro Pasticcere".

Hanno dimostrato che è possibile addestrare un'intelligenza artificiale a scopo generale a capire come risolvere problemi complessi e sconosciuti mostrandole semplicemente come altri metodi hanno risolto problemi simili in passato. È un passo verso un'intelligenza artificiale che non risolve solo un puzzle, ma sa come risolvere qualsiasi puzzle.

Nota Importante: Il documento si concentra interamente sulla creazione di questo set di dati e sull'addestramento di questi modelli per imitare i metodi di ottimizzazione esistenti. Non afferma di aver risolto problemi reali specifici (come curare una malattia o progettare un razzo specifico) finora, né discute applicazioni cliniche future. L'obiettivo era semplicemente dimostrare che questo approccio di "Modello Fondamentale" funziona e fornire i dati affinché altri possano provarlo.

Riepilogo Tecnico: Modelli BBO-Pile e Foundation per l'Ottimizzazione a Scatola Nera

Enunciato del Problema
L'ottimizzazione a scatola nera (BBO) rappresenta una sfida fondamentale in numerosi ambiti scientifici e ingegneristici, tra cui la robotica, la progettazione chimica e la regolazione degli iperparametri nel machine learning. La difficoltà principale risiede nell'ottimizzare una funzione obiettivo $f(x)$ senza accesso alle sue informazioni strutturali o ai gradienti, affidandosi esclusivamente agli output delle query. I metodi BBO esistenti, come l'Ottimizzazione Bayesiana (BO) e gli algoritmi evolutivi, sono spesso specializzati, ottenendo buone prestazioni solo all'interno di classi di problemi ristrette. Richiedono tipicamente un'ampia regolazione manuale e falliscono nel generalizzare attraverso domini diversi. Sebbene i modelli foundation abbiano avuto successo nella visione artificiale e nell'elaborazione del linguaggio naturale, la loro applicazione alla BBO è stata ostacolata dalla mancanza di dati di pre-addestramento su larga scala, pubblici e reali. I tentativi precedenti, come OptFormer, si sono basati su dataset non pubblici o su dati puramente sintetici, limitando la riproducibilità e la capacità di apprendere principi di ottimizzazione generalizzabili.

Metodologia
Gli autori introducono BBO-Pile, il primo dataset open-source progettato per addestrare modelli foundation per l'ottimizzazione a scatola nera. La metodologia comprende la costruzione del dataset, la tokenizzazione e l'addestramento del modello:

Costruzione del Dataset (BBO-Pile): Il dataset aggrega 557.100 traiettorie di ottimizzazione attraverso 3.095 distinti task a scatola nera che coprono 102 spazi di ricerca. Questi task sono tratti da sette famiglie di benchmark, inclusa l'ottimizzazione degli iperparametri (HPO-B, LC-Bench, PD1, TabRepo), la ricerca di architetture neurali (FC-Net, NAS-Bench-201) e problemi di ottimizzazione globale sintetici. I dati sono stati generati eseguendo sei diversi ottimizzatori (inclusi BORE, CQR, HEBO, TPE, Regularized Evolution e Random Search) con un budget di 100 valutazioni per task, ripetuto 30 volte con semi diversi.
Aumento dei Dati: Per espandere il numero di token e mitigare l'overfitting, gli autori impiegano la permutazione dell'ordine degli iperparametri (preservando le convenzioni numerici-prima-dei-categorici) e campionano traiettorie di lunghezze variabili ( $T \in \{5, 10, 20, 50, 100\}$ ) prima della quantizzazione. Ciò risulta in un dataset finale di circa 2,5 miliardi di token.
Codifica e Tokenizzazione: Le traiettorie di ottimizzazione sono codificate come sequenze di token. I metadati (nome dell'ottimizzatore, spazio di ricerca) sono codificati per primi. Le configurazioni numeriche e i valori dell'obiettivo sono scalati min-max nell'intervallo $[0, 1]$ , discretizzati in $Q=1000$ bin e convertiti in stringhe. I parametri categorici sono codificati per indice. Caratteri speciali denotano la fine delle configurazioni e delle metriche osservate. Un tokenizzatore Byte-Pair Encoding (BPE) è addestrato su queste stringhe.
Architettura del Modello e Addestramento: Gli autori addestrano modelli transformer decoder-only basati sull'architettura Qwen3, utilizzando Rotary Position Embeddings, Grouped Query Attention e Root Mean Square Normalization. I modelli sono addestrati utilizzando un obiettivo standard di modellazione linguistica causale ( $L(\theta) = -\sum \log p_\theta(s_i | s_{<i})$ ).
Inferenza: Durante l'inferenza, il modello campiona una stringa di completamento basata sullo spazio di ricerca codificato e sulle osservazioni storiche. La decodifica vincolata garantisce che tutti i valori generati siano validi e decodificabili.

Contributi Chiave

Dataset BBO-Pile: Il rilascio del più grande dataset pubblico per l'ottimizzazione a scatola nera, comprendente oltre 500K traiettorie da 3.095 task e 6 ottimizzatori, per un totale di ~2,5 miliardi di token.
Addestramento di Modelli Foundation: L'addestramento di una famiglia di modelli foundation che va da 2M a 80M parametri e da 200M a 2B token di addestramento.
Analisi di Scaling: Un'analisi sistematica di come i transformer basati su decoder imitino i metodi BBO all'avanguardia all'aumentare del numero di parametri e del budget di token.
Rilascio Open-Source: Completa disponibilità del dataset, dei checkpoint del modello e del codice per addestramento, generazione e valutazione su GitHub e HuggingFace.

Risultati

Comportamento di Scaling: I modelli esibiscono un comportamento di scaling prevedibile simile ai Large Language Models (LLM). La perdita di validazione segue una legge di potenza rispetto al calcolo ( $L \propto C^{-0.0157}$ ), sebbene l'esponente sia più piatto rispetto al pre-addestramento tipico degli LLM, suggerendo miglioramenti modesti derivanti da un aumento del calcolo.
Imitazione degli Ottimizzatori: I modelli addestrati imitano con successo le traiettorie di ottimizzazione degli ottimizzatori originali (ad es. CQR e Random Search).
- Scaling dei Parametri: Modelli più grandi (ad es. 80M parametri) corrispondono più da vicino alle prestazioni e alla distribuzione di campionamento degli ottimizzatori originali rispetto a modelli più piccoli (ad es. 2M parametri), in particolare nelle prime iterazioni.
- Scaling dei Token: I modelli addestrati su budget di token superiori a 1 miliardo corrispondono strettamente alle prestazioni originali, mentre budget inferiori a 800 milioni di token sono insufficienti per catturare completamente distribuzioni di campionamento complesse.
Generalizzazione: I modelli dimostrano capacità di generalizzazione:
- Si comportano bene su task non visti all'interno di spazi di ricerca già osservati.
- Mostrano prestazioni competitive su task provenienti da spazi di ricerca non visti (ad es. task TabRepo CatBoost), sebbene i divari di prestazioni si amplino su problemi di ottimizzazione globale con paesaggi di perdita altamente variabili.
- I modelli possono distinguere tra diverse strategie di ottimizzazione (ad es. CQR vs Random Search) e riprodurre i loro comportamenti specifici, incluse le densità marginali degli iperparametri.

Significato e Affermazioni
Il paper afferma che il pre-addestramento su larga scala su BBO-Pile è un approccio fattibile ed efficace per imitare i metodi di ottimizzazione a scatola nera. Il lavoro stabilisce che i modelli foundation possono apprendere principi di ottimizzazione dai dati, potenzialmente superando la specializzazione e la mancanza di generalizzazione intrinseche nei metodi progettati manualmente. Fornendo il primo dataset open-source su larga scala e dimostrando leggi di scaling, gli autori aprono la strada a future ricerche su agenti di ottimizzazione più potenti e generalizzabili. Gli autori notano con modestia che, sebbene i modelli mostrino promesse, attualmente imitano strategie esistenti piuttosto che inventarne di nuove, e sono necessari lavori futuri per affrontare le limitazioni nella generalizzazione a domini con caratteristiche diverse (ad es. progettazione chimica) e per esplorare approcci basati sul ragionamento o di scaling al momento del test.

An Open-Source Training Dataset for Foundation Models for Black-box Optimization