An Open-Source Training Dataset for Foundation… — Explicação em linguagem simples

Autores originais: Aaron Klein, Herilalaina Rakotoarison, Luca Thale-Bombien, David Salinas

Publicado 2026-05-25✓ Author reviewed ⓘ

📖 5 min de leitura🧠 Leitura aprofundada

Autores originais: Aaron Klein, Herilalaina Rakotoarison, Luca Thale-Bombien, David Salinas

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

O Grande Problema: O Mistério da "Caixa Preta"

Imagine que você está tentando assar o bolo perfeito, mas tem um forno mágico completamente vedado. Você não consegue ver o interior, não conhece a receita e não pode medir a temperatura. A única maneira de aprender é colocar um bolo dentro, esperar que ele asse, retirá-lo e prová-lo.

O Bolo: Esta é a "função objetivo" (o problema que você quer resolver).
Os Ingredientes: Estes são os "hiperparâmetros" (configurações como taxa de aprendizado, número de camadas, etc.).
O Sabor: Este é a "pontuação" (quão bom é o resultado).

Isso é chamado de Otimização de Caixa Preta. Isso acontece em todos os lugares: ajustando modelos de IA, projetando novos medicamentos ou configurando robôs. O problema é que encontrar o "bolo" perfeito geralmente exige que um especialista humano adivinhe, ajuste e prove milhares de vezes. É lento, caro e os truques do especialista muitas vezes não funcionam se você mudar de assar um bolo para assar pão.

O Jeito Antigo vs. A Nova Ideia

O Jeito Antigo: Cientistas construíram muitos "especialistas em degustação" (algoritmos) diferentes ao longo dos anos. Um especialista é ótimo em encontrar receitas de bolo, mas péssimo em encontrar receitas de pão. Eles são ferramentas especializadas.

A Nova Ideia (Modelos de Base): E se pudéssemos treinar uma única IA superinteligente para aprender os princípios gerais da confeitaria? Em vez de ser um especialista em bolo ou um especialista em pão, ela seria um "Mestre Padeiro" que entende como otimizar qualquer receita apenas observando milhares de tentativas de assar no passado.

O Ingrediente Faltante: Um Livro de Receitas Gigante

Para treinar esse "Mestre Padeiro", você precisa de uma biblioteca massiva de tentativas de assar no passado (dados).

O Problema: Tentativas anteriores de fazer isso dependiam de dados secretos (que ninguém mais podia ver) ou dados fabricados (que não refletiam a vida real). Era como tentar ensinar um chef usando um livro de receitas escrito em um idioma que ninguém fala, ou usando ingredientes falsos.
A Solução (BBO-Pile): Os autores criaram o BBO-Pile, o primeiro "Livro de Receitas" de código aberto para essa tarefa.
- Contém 557.100 tentativas de assar diferentes (trajetórias).
- Essas tentativas cobrem 3.095 tipos diferentes de problemas (desde o ajuste de modelos de IA até o design químico).
- Inclui dados de 6 "especialistas em degustação" diferentes (algoritmos) para que a IA possa aprender diferentes estratégias.
- É massivo: cerca de 2,5 bilhões de palavras (tokens) de dados.

Como Eles Treinaram o "Mestre Padeiro"

Os autores não apenas deram o livro de receitas à IA; eles treinaram uma família de modelos de IA (como chefs de tamanhos diferentes) para lê-lo.

Os Modelos: Eles construíram modelos que variam de pequenos (2 milhões de parâmetros) a grandes (80 milhões de parâmetros).
O Treinamento: Eles alimentaram os modelos com os dados e pediram que previssem o próximo passo em um processo de assar.
- Entrada: "Aqui está a receita até agora, e aqui está como o último bolo ficou ao provar."
- Saída: "Aqui está a próxima mistura de ingredientes que você deve tentar."
O Resultado: A IA aprendeu a imitar o comportamento dos especialistas humanos originais. Se você dissesse à IA para agir como o "Especialista A", ela agia como o Especialista A. Se você dissesse para agir como o "Especialista B", ela mudava de estratégia.

O Que Eles Descobriram

Quanto Maior, Melhor (mas com limites): À medida que eles tornavam os modelos de IA maiores e alimentavam-nos com mais dados, os modelos ficavam melhores em imitar os especialistas. No entanto, a melhoria não foi tão explosiva quanto ocorre com chatbots (LLMs); foi uma subida constante e previsível.
Generalização: A IA não apenas memorizou as receitas do livro. Quando testada em um novo tipo de problema que nunca havia visto antes (como um tipo completamente novo de pão), ela ainda se saiu surpreendentemente bem. Ela havia aprendido a lógica da otimização, não apenas as respostas específicas.
Velocidade: Uma vez treinada, a IA pode sugerir o próximo passo quase instantaneamente, muito mais rápido do que executar simulações matemáticas complexas do zero.

A Conclusão

Este artigo é como construir a primeira biblioteca pública de "histórias de otimização". Ao compartilhar esse conjunto de dados massivo (BBO-Pile), os autores permitiram que outros pesquisadores treinassem sua própria IA "Mestre Padeiro".

Eles provaram que é possível treinar uma IA de propósito geral para entender como resolver problemas complexos e desconhecidos, simplesmente mostrando-lhe como outros métodos resolveram problemas semelhantes no passado. É um passo em direção a uma IA que não resolve apenas um quebra-cabeça, mas sabe como resolver qualquer quebra-cabeça.

Nota Importante: O artigo foca inteiramente na criação desse conjunto de dados e no treinamento desses modelos para imitar métodos de otimização existentes. Ele não afirma ter resolvido problemas específicos do mundo real (como curar uma doença ou projetar um foguete específico) ainda, nem discute aplicações clínicas futuras. O objetivo foi simplesmente provar que essa abordagem de "Modelo de Base" funciona e fornecer os dados para que outros possam experimentá-la.

Resumo Técnico: BBO-Pile e Modelos de Base para Otimização de Caixa-Preta

Declaração do Problema
A otimização de caixa-preta (BBO) é um desafio fundamental em domínios científicos e de engenharia, incluindo robótica, design químico e ajuste de hiperparâmetros de aprendizado de máquina. A dificuldade central reside em otimizar uma função objetivo $f(x)$ sem acesso às suas informações estruturais ou gradientes, dependendo exclusivamente de saídas de consultas. Métodos BBO existentes, como Otimização Bayesiana (BO) e algoritmos evolutivos, são frequentemente especializados, performando bem apenas dentro de classes de problemas estreitas. Eles tipicamente exigem extenso ajuste manual e falham em generalizar através de domínios diversos. Embora modelos de base tenham tido sucesso em visão e processamento de linguagem natural, sua aplicação à BBO foi impedida pela falta de dados de pré-treinamento em grande escala, públicos e do mundo real. Tentativas anteriores, como o OptFormer, dependiam de conjuntos de dados não públicos ou puramente sintéticos, limitando a reprodutibilidade e a capacidade de aprender princípios de otimização generalizáveis.

Metodologia
Os autores introduzem o BBO-Pile, o primeiro conjunto de dados de código aberto projetado para treinar modelos de base para otimização de caixa-preta. A metodologia abrange a construção do conjunto de dados, tokenização e treinamento do modelo:

Construção do Conjunto de Dados (BBO-Pile): O conjunto de dados agrega 557.100 trajetórias de otimização através de 3.095 tarefas de caixa-preta distintas abrangendo 102 espaços de busca. Essas tarefas são extraídas de sete famílias de benchmarks, incluindo otimização de hiperparâmetros (HPO-B, LC-Bench, PD1, TabRepo), busca de arquitetura neural (FC-Net, NAS-Bench-201) e problemas de otimização global sintéticos. Os dados foram gerados executando seis otimizadores diferentes (incluindo BORE, CQR, HEBO, TPE, Evolução Regularizada e Busca Aleatória) com um orçamento de 100 avaliações por tarefa, repetido 30 vezes com diferentes sementes.
Aumento de Dados: Para expandir a contagem de tokens e mitigar o sobreajuste, os autores empregam permutação da ordem dos hiperparâmetros (preservando as convenções numéricos-antes-de-categóricos) e amostram trajetórias de comprimentos variados ( $T \in \{5, 10, 20, 50, 100\}$ ) antes da quantização. Isso resulta em um conjunto de dados final de aproximadamente 2,5 bilhões de tokens.
Codificação e Tokenização: As trajetórias de otimização são codificadas como sequências de tokens. Metadados (nome do otimizador, espaço de busca) são codificados primeiro. Configurações numéricas e valores objetivos são escalados min-max para $[0, 1]$ , discretizados em $Q=1000$ bins e convertidos em strings. Parâmetros categóricos são codificados por índice. Caracteres especiais denotam o fim das configurações e métricas observadas. Um tokenizador de Codificação Byte-Pair (BPE) é treinado nessas strings.
Arquitetura do Modelo e Treinamento: Os autores treinam modelos transformadores apenas decodificadores baseados na arquitetura Qwen3, utilizando Embarcamentos de Posição Rotacionais, Atenção com Consulta Agrupada e Normalização de Raiz Média Quadrática. Os modelos são treinados usando um objetivo padrão de modelagem de linguagem causal ( $L(\theta) = -\sum \log p_\theta(s_i | s_{<i})$ ).
Inferência: Durante a inferência, o modelo amostra uma string de conclusão baseada no espaço de busca codificado e nas observações históricas. A decodificação restrita garante que todos os valores gerados sejam válidos e decodificáveis.

Principais Contribuições

Conjunto de Dados BBO-Pile: O lançamento do maior conjunto de dados público para otimização de caixa-preta, compreendendo mais de 500K trajetórias de 3.095 tarefas e 6 otimizadores, totalizando ~2,5B de tokens.
Treinamento de Modelo de Base: O treinamento de uma família de modelos de base variando de 2M a 80M parâmetros e 200M a 2B tokens de treinamento.
Análise de Escala: Uma análise sistemática de como transformadores baseados em decodificador imitam métodos BBO de última geração conforme a contagem de parâmetros e o orçamento de tokens aumentam.
Lançamento de Código Aberto: Disponibilidade total do conjunto de dados, checkpoints de modelo e código para treinamento, geração e avaliação no GitHub e HuggingFace.

Resultados

Comportamento de Escala: Os modelos exibem comportamento de escala previsível semelhante a Modelos de Linguagem de Grande Porte (LLMs). A perda de validação segue uma lei de potência em relação ao cálculo ( $L \propto C^{-0,0157}$ ), embora o expoente seja mais raso do que o pré-treinamento típico de LLMs, sugerindo melhorias modestas a partir do aumento do cálculo.
Imitação de Otimizadores: Os modelos treinados imitam com sucesso as trajetórias de otimização dos otimizadores originais (por exemplo, CQR e Busca Aleatória).
- Escala de Parâmetros: Modelos maiores (por exemplo, 80M parâmetros) correspondem mais de perto ao desempenho e à distribuição de amostragem dos otimizadores originais em comparação com modelos menores (por exemplo, 2M parâmetros), particularmente nas iterações iniciais.
- Escala de Tokens: Modelos treinados com orçamentos de tokens superiores a 1B tokens correspondem de perto ao desempenho original, enquanto orçamentos abaixo de 800M tokens são insuficientes para capturar completamente distribuições de amostragem complexas.
Generalização: Os modelos demonstram capacidades de generalização:
- Eles performam bem em tarefas não vistas dentro de espaços de busca vistos.
- Eles mostram desempenho competitivo em tarefas de espaços de busca não vistos (por exemplo, tarefas TabRepo CatBoost), embora as lacunas de desempenho se ampliem em problemas de otimização global com paisagens de perda altamente variáveis.
- Os modelos podem distinguir entre diferentes estratégias de otimização (por exemplo, CQR vs. Busca Aleatória) e reproduzir seus comportamentos específicos, incluindo densidades marginais de hiperparâmetros.

Significado e Alegações
O artigo alega que o pré-treinamento em grande escala no BBO-Pile é uma abordagem viável e eficaz para imitar métodos de otimização de caixa-preta. O trabalho estabelece que modelos de base podem aprender princípios de otimização a partir de dados, potencialmente superando a especialização e a falta de generalização inerentes a métodos projetados manualmente. Ao fornecer o primeiro conjunto de dados em grande escala e de código aberto e demonstrar leis de escala, os autores abrem caminho para pesquisas futuras sobre agentes de otimização mais poderosos e generalizáveis. Os autores observam modestamente que, embora os modelos mostrem promessa, eles atualmente imitam estratégias existentes em vez de inventar novas, e trabalhos futuros são necessários para abordar limitações na generalização para domínios com características diferentes (por exemplo, design químico) e para explorar abordagens baseadas em raciocínio ou de escala no tempo de teste.

An Open-Source Training Dataset for Foundation Models for Black-box Optimization