An Open-Source Training Dataset for Foundation… — Allgemeinverständliche Erklärung

Ursprüngliche Autoren: Aaron Klein, Herilalaina Rakotoarison, Luca Thale-Bombien, David Salinas

Veröffentlicht 2026-05-25✓ Author reviewed ⓘ

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Aaron Klein, Herilalaina Rakotoarison, Luca Thale-Bombien, David Salinas

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Das große Problem: Das „Black-Box"-Mysterium

Stellen Sie sich vor, Sie versuchen, den perfekten Kuchen zu backen, aber Sie haben einen magischen Ofen, der vollständig versiegelt ist. Sie können nicht hineinsehen, kennen das Rezept nicht und können die Temperatur nicht messen. Der einzige Weg, etwas zu lernen, besteht darin, einen Kuchen hineinzulegen, warten, bis er gebacken ist, ihn herauszunehmen und zu probieren.

Der Kuchen: Dies ist die „Zielfunktion" (das Problem, das Sie lösen möchten).
Die Zutaten: Dies sind die „Hyperparameter" (Einstellungen wie Lernrate, Anzahl der Schichten usw.).
Der Geschmack: Dies ist die „Bewertung" (wie gut das Ergebnis ist).

Dies wird als Black-Box-Optimierung bezeichnet. Sie kommt überall vor: beim Feinabstimmen von KI-Modellen, bei der Entwicklung neuer Medikamente oder bei der Konfiguration von Robotern. Das Problem ist, dass das Finden des perfekten „Kuchens" normalerweise erfordert, dass ein menschlicher Experte tausende Male rät, justiert und probiert. Es ist langsam, teuer, und die Tricks des Experten funktionieren oft nicht, wenn Sie vom Backen eines Kuchens zum Backen von Brot wechseln.

Der alte Weg vs. die neue Idee

Der alte Weg: Wissenschaftler haben im Laufe der Jahre viele verschiedene „Probier-Experten" (Algorithmen) entwickelt. Ein Experte ist großartig darin, Kuchenrezepte zu finden, aber schrecklich darin, Brotrezepte zu finden. Es sind spezialisierte Werkzeuge.

Die neue Idee (Foundation Models): Was wäre, wenn wir eine einzelne, superschlue KI trainieren könnten, um die allgemeinen Prinzipien des Backens zu lernen? Anstatt ein Kuchen-Experte oder ein Brot-Experte zu sein, wäre es ein „Meisterbäcker", der versteht, wie man jedes Rezept optimiert, indem er nur Tausende vergangener Backversuche betrachtet.

Die fehlende Zutat: Ein riesiges Kochbuch

Um diesen „Meisterbäcker" zu trainieren, benötigen Sie eine massive Bibliothek vergangener Backversuche (Daten).

Das Problem: Frühere Versuche, dies zu tun, stützten sich auf geheime Daten (die niemand sonst sehen konnte) oder erfundene Daten (die nicht dem wirklichen Leben entsprachen). Es war, als würde man versuchen, einen Koch mit einem Kochbuch zu unterrichten, das in einer Sprache geschrieben ist, die niemand spricht, oder mit gefälschten Zutaten.
Die Lösung (BBO-Pile): Die Autoren schufen BBO-Pile, das erste Open-Source-„Kochbuch" für diese Aufgabe.
- Es enthält 557.100 verschiedene Backversuche (Trajektorien).
- Diese Versuche decken 3.095 verschiedene Problemtypen ab (vom Feinabstimmen von KI-Modellen bis hin zum chemischen Design).
- Es enthält Daten von 6 verschiedenen „Probier-Experten" (Algorithmen), damit die KI verschiedene Strategien lernen kann.
- Es ist riesig: etwa 2,5 Milliarden Wörter (Tokens) an Daten.

Wie sie den „Meisterbäcker" trainierten

Die Autoren gaben der KI nicht nur das Kochbuch; sie trainierten eine Familie von KI-Modellen (wie verschiedene Größen von Köchen), um es zu lesen.

Die Modelle: Sie bauten Modelle, die von klein (2 Millionen Parameter) bis groß (80 Millionen Parameter) reichten.
Das Training: Sie fütterten die Modelle mit den Daten und baten sie, den nächsten Schritt in einem Backprozess vorherzusagen.
- Eingabe: „Hier ist das Rezept bis jetzt, und hier ist, wie der letzte Kuchen geschmeckt hat."
- Ausgabe: „Hier ist die nächste Zutatenmischung, die Sie versuchen sollten."
Das Ergebnis: Die KI lernte, das Verhalten der ursprünglichen menschlichen Experten nachzuahmen. Wenn Sie der KI sagten, sie solle sich wie „Experte A" verhalten, verhielt sie sich wie Experte A. Wenn Sie ihr sagten, sie solle sich wie „Experte B" verhalten, wechselte sie die Strategie.

Was sie entdeckten

Größer ist besser (aber mit Grenzen): Als sie die KI-Modelle größer machten und sie mit mehr Daten fütterten, wurden die Modelle besser darin, die Experten nachzuahmen. Die Verbesserung war jedoch nicht so explosiv wie bei Chatbots (LLMs); es war ein stetiger, vorhersehbarer Anstieg.
Generalisierung: Die KI memorisierte nicht nur die Rezepte im Buch. Als sie es an einem neuen Problemtyp testeten, den es noch nie gesehen hatte (wie eine völlig neue Brotsorte), schnitt es immer noch überraschend gut ab. Es hatte die Logik der Optimierung gelernt, nicht nur die spezifischen Antworten.
Geschwindigkeit: Einmal trainiert, kann die KI fast augenblicklich den nächsten Schritt vorschlagen, viel schneller als das Durchführen komplexer mathematischer Simulationen von Grund auf neu.

Das Fazit

Dieses Papier ist wie der Aufbau der ersten öffentlichen Bibliothek von „Optimierungsgeschichten". Indem sie diesen massiven Datensatz (BBO-Pile) teilen, haben die Autoren anderen Forschern ermöglicht, ihre eigenen „Meisterbäcker"-KI-Modelle zu trainieren.

Sie bewiesen, dass man eine KI für allgemeine Zwecke trainieren kann, um zu verstehen, wie man komplexe, unbekannte Probleme löst, indem man ihr einfach zeigt, wie andere Methoden ähnliche Probleme in der Vergangenheit gelöst haben. Es ist ein Schritt hin zu einer KI, die nicht nur ein Rätsel löst, sondern weiß, wie man jedes Rätsel herausfindet.

Wichtiger Hinweis: Das Papier konzentriert sich ausschließlich auf die Erstellung dieses Datensatzes und das Training dieser Modelle, um bestehende Optimierungsmethoden nachzuahmen. Es behauptet nicht, spezifische reale Probleme gelöst zu haben (wie die Heilung einer Krankheit oder den Entwurf einer bestimmten Rakete), noch diskutiert es zukünftige klinische Anwendungen. Das Ziel war einfach zu beweisen, dass dieser „Foundation Model"-Ansatz funktioniert und die Daten bereitzustellen, damit andere es ausprobieren können.

Technische Zusammenfassung: BBO-Pile und Fundamentmodelle für Black-Box-Optimierung

Problemstellung
Black-Box-Optimierung (BBO) ist eine grundlegende Herausforderung in wissenschaftlichen und ingenieurtechnischen Domänen, einschließlich Robotik, chemischem Design und dem Tuning von Hyperparametern im maschinellen Lernen. Die Kernschwierigkeit besteht darin, eine Zielfunktion $f(x)$ zu optimieren, ohne Zugriff auf ihre strukturellen Informationen oder Gradienten zu haben, und sich ausschließlich auf Abfrageausgaben zu verlassen. Bestehende BBO-Methoden, wie Bayessche Optimierung (BO) und evolutionäre Algorithmen, sind oft spezialisiert und performen nur innerhalb enger Problemklassen gut. Sie erfordern typischerweise umfangreiche manuelle Anpassungen und versagen bei der Generalisierung über diverse Domänen hinweg. Während Fundamentmodelle in der Bildverarbeitung und der Verarbeitung natürlicher Sprache erfolgreich waren, wurde ihre Anwendung auf BBO durch das Fehlen großer, öffentlicher, realer Vorabtrainingsdaten behindert. Frühere Versuche, wie OptFormer, stützten sich auf nicht-öffentliche Datensätze oder rein synthetische Daten, was die Reproduzierbarkeit und die Fähigkeit einschränkte, generalisierbare Optimierungsprinzipien zu erlernen.

Methodik
Die Autoren stellen BBO-Pile vor, den ersten Open-Source-Datensatz, der zum Trainieren von Fundamentmodellen für Black-Box-Optimierung entwickelt wurde. Die Methodik umfasst den Aufbau des Datensatzes, die Tokenisierung und das Modelltraining:

Aufbau des Datensatzes (BBO-Pile): Der Datensatz aggregiert 557.100 Optimierungstrajektorien über 3.095 verschiedene Black-Box-Aufgaben hinweg, die 102 Suchräume abdecken. Diese Aufgaben stammen aus sieben Benchmark-Familien, einschließlich Hyperparameter-Optimierung (HPO-B, LC-Bench, PD1, TabRepo), neuronaler Architektursuche (FC-Net, NAS-Bench-201) und synthetischer globaler Optimierungsprobleme. Die Daten wurden durch das Ausführen von sechs verschiedenen Optimierern (einschließlich BORE, CQR, HEBO, TPE, Regularized Evolution und Random Search) mit einem Budget von 100 Evaluierungen pro Aufgabe generiert, wobei jede Aufgabe 30 Mal mit unterschiedlichen Seeds wiederholt wurde.
Daten-Augmentierung: Um die Tokenanzahl zu erweitern und Overfitting zu mindern, wenden die Autoren eine Permutation der Hyperparameter-Reihenfolge an (unter Beibehaltung der Konvention, dass numerische vor kategorischen Parametern stehen) und wählen Trajektionen variierender Längen ( $T \in \{5, 10, 20, 50, 100\}$ ) vor der Quantisierung aus. Dies führt zu einem finalen Datensatz von ungefähr 2,5 Milliarden Token.
Kodierung und Tokenisierung: Optimierungstrajektorien werden als Sequenzen von Token kodiert. Metadaten (Optimierername, Suchraum) werden zuerst kodiert. Numerische Konfigurationen und Zielfunktionswerte werden min-max-skaliert auf $[0, 1]$ , in $Q=1000$ Bins diskretisiert und in Strings umgewandelt. Kategorische Parameter werden durch Index kodiert. Sonderzeichen kennzeichnen das Ende von Konfigurationen und beobachtete Metriken. Ein Byte-Pair-Encoding (BPE)-Tokenizer wird auf diesen Strings trainiert.
Modellarchitektur und Training: Die Autoren trainieren Decoder-only-Transformer-Modelle basierend auf der Qwen3-Architektur unter Verwendung von Rotational Position Embeddings, Grouped Query Attention und Root Mean Square Normalization. Die Modelle werden mit einem standardmäßigen kausalen Sprachmodellierungsziel trainiert ( $L(\theta) = -\sum \log p_\theta(s_i | s_{<i})$ ).
Inferenz: Während der Inferenz sampelt das Modell eine Vervollständigungs-String basierend auf dem kodierten Suchraum und historischen Beobachtungen. Eingeschränktes Decodieren stellt sicher, dass alle generierten Werte gültig und dekodierbar sind.

Hauptbeiträge

BBO-Pile-Datensatz: Die Veröffentlichung des größten öffentlichen Datensatzes für Black-Box-Optimierung, bestehend aus über 500.000 Trajektorien von 3.095 Aufgaben und 6 Optimierern, insgesamt ~2,5 Mrd. Token.
Training von Fundamentmodellen: Das Training einer Familie von Fundamentmodellen mit 2M bis 80M Parametern und 200M bis 2B Trainings-Token.
Skalierungsanalyse: Eine systematische Analyse, wie Decoder-basierte Transformer State-of-the-Art-BBO-Methoden imitieren, wenn Parameteranzahl und Token-Budget skaliert werden.
Open-Source-Veröffentlichung: Vollständige Verfügbarkeit des Datensatzes, der Modell-Checkpoints und des Codes für Training, Generierung und Evaluation auf GitHub und HuggingFace.

Ergebnisse

Skalierungsverhalten: Die Modelle zeigen ein vorhersehbares Skalierungsverhalten, das Large Language Models (LLMs) ähnelt. Der Validierungsverlust folgt einem Potenzgesetz in Bezug auf die Rechenleistung ( $L \propto C^{-0.0157}$ ), wobei der Exponent flacher ist als bei typischem LLM-Vorabtraining, was auf moderate Verbesserungen durch erhöhte Rechenleistung hindeutet.
Imitation von Optimierern: Die trainierten Modelle imitieren erfolgreich die Optimierungstrajektorien der ursprünglichen Optimierer (z. B. CQR und Random Search).
- Parametrisches Skalieren: Größere Modelle (z. B. 80M Parameter) entsprechen der Leistung und der Sampling-Verteilung der ursprünglichen Optimierer genauer als kleinere Modelle (z. B. 2M Parameter), insbesondere in frühen Iterationen.
- Token-Skalierung: Modelle, die mit Token-Budgets von über 1 Mrd. Token trainiert wurden, stimmen eng mit der ursprünglichen Leistung überein, während Budgets unter 800 Mio. Token nicht ausreichen, um komplexe Sampling-Verteilungen vollständig zu erfassen.
Generalisierung: Die Modelle zeigen Generalisierungsfähigkeiten:
- Sie performen gut bei unsichtbaren Aufgaben innerhalb gesehener Suchräume.
- Sie zeigen eine wettbewerbsfähige Leistung bei Aufgaben aus unsichtbaren Suchräumen (z. B. TabRepo CatBoost-Aufgaben), obwohl sich die Leistungslücken bei globalen Optimierungsproblemen mit stark variierenden Verlustlandschaften vergrößern.
- Die Modelle können zwischen verschiedenen Optimierungsstrategien unterscheiden (z. B. CQR vs. Random Search) und ihre spezifischen Verhaltensweisen reproduzieren, einschließlich marginaler Hyperparameter-Dichten.

Bedeutung und Behauptungen
Die Arbeit behauptet, dass groß angelegtes Vorabtraining auf BBO-Pile ein machbarer und effektiver Ansatz ist, um Black-Box-Optimierungsmethoden zu imitieren. Die Arbeit stellt fest, dass Fundamentmodelle Optimierungsprinzipien aus Daten lernen können, was potenziell die Spezialisierung und den Mangel an Generalisierung überwindet, die in manuell entworfenen Methoden inhärent sind. Durch die Bereitstellung des ersten groß angelegten, Open-Source-Datensatzes und die Demonstration von Skalierungsgesetzen ebnen die Autoren den Weg für zukünftige Forschung zu leistungsfähigeren, generalisierbaren Optimierungsagenten. Die Autoren vermerken bescheiden, dass die Modelle, obwohl sie vielversprechend sind, derzeit bestehende Strategien imitieren, anstatt neue zu erfinden, und dass zukünftige Arbeiten erforderlich sind, um Einschränkungen bei der Generalisierung auf Domänen mit unterschiedlichen Merkmalen (z. B. chemisches Design) zu adressieren und reasoning-basierte oder Testzeit-Skalierungsansätze zu erforschen.

An Open-Source Training Dataset for Foundation Models for Black-box Optimization