An Open-Source Training Dataset for Foundation Models for Black-box… — 通俗解释

原作者： Aaron Klein, Herilalaina Rakotoarison, Luca Thale-Bombien, David Salinas

发布于 2026-05-25✓ Author reviewed ⓘ

📖 1 分钟阅读☕ 轻松阅读

查看于 arXiv ↗PDF ↗

CC BY 4.0

原作者： Aaron Klein, Herilalaina Rakotoarison, Luca Thale-Bombien, David Salinas

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性，请参阅原始论文。阅读完整免责声明

以下是用通俗语言和日常类比对该论文的解读。

核心难题：“黑盒”之谜

想象你试图烤出完美的蛋糕，但你拥有一个完全密封的魔法烤箱。你看不见里面，不知道配方，也无法测量温度。你唯一的学习方式是：放入蛋糕，等待烘烤，取出并品尝。

蛋糕：这就是“目标函数”（你想要解决的问题）。
配料：这些是“超参数”（如学习率、层数等设置）。
味道：这就是“得分”（结果的好坏程度）。

这被称为黑盒优化。它无处不在：调整 AI 模型、设计新药或配置机器人。问题在于，找到完美的“蛋糕”通常需要人类专家猜测、微调并品尝数千次。这既缓慢又昂贵，而且专家的诀窍往往在从烤蛋糕切换到烤面包时就会失效。

旧方法 vs. 新构想

旧方法：多年来，科学家们构建了许多不同的“品尝专家”（算法）。一位专家擅长寻找蛋糕配方，却极不擅长寻找面包配方。它们是专用工具。

新构想（基础模型）：如果我们能训练一个超级聪明的 AI，让它学习烘焙的通用原理呢？它不再是蛋糕专家或面包专家，而是一位“烘焙大师”，只需查看过去成千上万次烘焙尝试，就能理解如何优化任何配方。

缺失的原料：一本巨型食谱

要训练这位“烘焙大师”，你需要一个包含过去烘焙尝试（数据）的巨大图书馆。

问题：之前的尝试依赖于秘密数据（无人可见）或虚构数据（无法反映现实）。这就像试图用无人能懂的语言写的食谱教厨师，或者使用假食材。
解决方案（BBO-Pile）：作者创建了BBO-Pile，这是该任务首个开源的“食谱”。
- 它包含557,100次不同的烘焙尝试（轨迹）。
- 这些尝试涵盖了3,095种不同类型的问题（从调整 AI 模型到化学设计）。
- 它包含了来自6 位不同“品尝专家”（算法）的数据，以便 AI 能学习不同的策略。
- 它规模巨大：约25 亿个词（token）的数据量。

他们如何训练“烘焙大师”

作者不仅将食谱交给 AI，还训练了一个 AI 模型家族（如同不同体型的厨师）来阅读它。

模型：他们构建了从小型（200 万参数）到大型（8000 万参数）的模型。
训练：他们将数据喂给模型，要求模型预测烘焙过程中的下一步。
- 输入：“这是目前的配方，以及上一块蛋糕的味道。”
- 输出：“这是你接下来应该尝试的配料混合方案。”
结果：AI 学会了模仿原始人类专家的行为。如果你让 AI 扮演“专家 A"，它就表现得像专家 A；如果你让它扮演“专家 B"，它就会切换策略。

他们的发现

越大越好（但有极限）：随着 AI 模型变大并输入更多数据，模型在模仿专家方面变得更好。然而，这种提升不像聊天机器人（LLM）那样具有爆炸性，而是呈现出一种稳定、可预测的上升。
泛化能力：AI 并没有死记硬背书中的食谱。当他们在从未见过的新类型问题（如一种全新的面包）上测试它时，它表现依然惊人地好。它学到的不是具体的答案，而是优化的逻辑。
速度：一旦训练完成，AI 几乎可以瞬间建议下一步，这比从头运行复杂的数学模拟要快得多。

核心结论

这篇论文就像建立了第一座公开的“优化故事”图书馆。通过共享这个庞大的数据集（BBO-Pile），作者允许其他研究人员训练他们自己的“烘焙大师”AI。

他们证明了，只需向通用 AI 展示其他方法过去如何解决类似问题，就能训练出它去理解如何解决复杂、未知的问题。这是迈向一种 AI 的一步，这种 AI 不仅能解决一个谜题，还知道如何破解任何谜题。

重要说明：该论文完全专注于创建此数据集并训练这些模型以模仿现有的优化方法。它并未声称已解决特定的现实世界问题（如治愈某种疾病或设计特定火箭），也未讨论未来的临床应用。其目标仅仅是证明这种“基础模型”方法有效，并提供数据供他人尝试。

技术摘要：面向黑盒优化的 BBO-Pile 与基础模型

问题陈述
黑盒优化（BBO）是科学和工程领域（包括机器人、化学设计和机器学习超参数调优）的一项基本挑战。其核心难点在于，在无法获取目标函数 $f(x)$ 的结构信息或梯度的情况下，仅依靠查询输出对其进行优化。现有的 BBO 方法，如贝叶斯优化（BO）和进化算法，往往具有专用性，仅在狭窄的问题类别中表现良好。它们通常需要大量的人工调优，且难以在不同领域间泛化。虽然基础模型在视觉和自然语言处理领域取得了成功，但其在 BBO 中的应用却因缺乏大规模、公开的真实世界预训练数据而受阻。先前的尝试（如 OptFormer）依赖于非公开数据集或纯粹的合成数据，限制了可复现性，也阻碍了对可泛化优化原则的学习。

方法论
作者引入了BBO-Pile，这是首个专为训练黑盒优化基础模型而设计的开源数据集。该方法论涵盖数据集构建、分词和模型训练：

数据集构建（BBO-Pile）： 该数据集聚合了跨越102 个搜索空间的3,095 个不同黑盒任务中的557,100 条优化轨迹。这些任务源自七个基准系列，包括超参数优化（HPO-B, LC-Bench, PD1, TabRepo）、神经架构搜索（FC-Net, NAS-Bench-201）以及合成全局优化问题。数据是通过运行六种不同的优化器（包括 BORE, CQR, HEBO, TPE, Regularized Evolution 和 Random Search）生成的，每个任务预算为 100 次评估，并使用不同的种子重复 30 次。
数据增强： 为了增加 token 数量并缓解过拟合，作者在量化之前采用了超参数顺序的排列（保留数值型在前、类别型在后的惯例），并采样不同长度（ $T \in \{5, 10, 20, 50, 100\}$ ）的轨迹。这最终生成了约25 亿个 token的数据集。
编码与分词： 优化轨迹被编码为 token 序列。元数据（优化器名称、搜索空间）首先被编码。数值配置和目标值被最小 - 最大缩放至 $[0, 1]$ ，离散化为 $Q=1000$ 个区间，并转换为字符串。类别参数通过索引进行编码。特殊字符用于表示配置的结束和观测指标。基于这些字符串训练了字节对编码（BPE）分词器。
模型架构与训练： 作者基于Qwen3 架构训练了仅解码器（decoder-only）的 Transformer 模型，利用旋转位置编码（Rotary Position Embeddings）、分组查询注意力（Grouped Query Attention）和均方根归一化（Root Mean Square Normalization）。模型使用标准因果语言建模目标进行训练（ $L(\theta) = -\sum \log p_\theta(s_i | s_{<i})$ ）。
推理： 在推理过程中，模型基于编码的搜索空间和历史观测采样生成完整的字符串。约束解码确保所有生成的值都是有效且可解码的。

主要贡献

BBO-Pile 数据集： 发布了最大的黑盒优化公开数据集，包含来自 3,095 个任务和 6 种优化器的超过 50 万条轨迹，总计约 25 亿个 token。
基础模型训练： 训练了一系列基础模型，参数量范围从200 万到 8000 万，训练 token 数量从2 亿到 20 亿。
缩放分析： 系统分析了基于解码器的 Transformer 如何随着参数量和 token 预算的增加，模仿最先进的 BBO 方法。
开源发布： 数据集、模型检查点以及用于训练、生成和评估的代码已在 GitHub 和 HuggingFace 上完全公开。

结果

缩放行为： 模型表现出与大语言模型（LLM）类似的可预测缩放行为。验证损失随计算量遵循幂律（ $L \propto C^{-0.0157}$ ），尽管该指数比典型的 LLM 预训练更平缓，表明增加计算量带来的改进较为有限。
优化器模仿： 训练有素的模型成功模仿了原始优化器（如 CQR 和 Random Search）的优化轨迹。
- 参数缩放： 与较小模型（如 200 万参数）相比，较大模型（如 8000 万参数）在早期迭代中更紧密地匹配原始优化器的性能和采样分布。
- Token 缩放： 在超过 10 亿 token 预算上训练的模型能紧密匹配原始性能，而低于 8 亿 token 的预算则不足以完全捕捉复杂的采样分布。
泛化能力： 模型展现了泛化能力：
- 它们在已见过的搜索空间中的未见任务上表现良好。
- 它们在未见搜索空间的任务（例如 TabRepo CatBoost 任务）上表现出有竞争力的性能，尽管在全局优化问题上，当损失景观高度可变时，性能差距会扩大。
- 模型能够区分不同的优化策略（例如 CQR 与 Random Search），并复现其特定行为，包括边际超参数密度。

意义与主张
该论文声称，在 BBO-Pile 上进行大规模预训练是模仿黑盒优化方法的可行且有效的途径。这项工作确立了基础模型可以从数据中学习优化原则，从而有可能克服人工设计方法固有的专用性和缺乏泛化性的问题。通过提供首个大规模开源数据集并展示缩放定律，作者为未来研究更强大、更具泛化能力的优化智能体铺平了道路。作者谦逊地指出，虽然模型展现出希望，但它们目前只是模仿现有策略而非发明新策略，未来的工作需要解决在具有不同特征的领域（例如化学设计）中泛化的局限性，并探索基于推理或测试时缩放的方法。

An Open-Source Training Dataset for Foundation Models for Black-box Optimization