An Open-Source Training Dataset for Foundation Models for… — Explicación divulgativa

Autores originales: Aaron Klein, Herilalaina Rakotoarison, Luca Thale-Bombien, David Salinas

Publicado 2026-05-25✓ Author reviewed ⓘ

📖 5 min de lectura🧠 Análisis profundo

Autores originales: Aaron Klein, Herilalaina Rakotoarison, Luca Thale-Bombien, David Salinas

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

El Gran Problema: El Misterio de la "Caja Negra"

Imagina que estás intentando hornear el pastel perfecto, pero tienes un horno mágico que está completamente sellado. No puedes ver dentro, no conoces la receta y no puedes medir la temperatura. La única forma de aprender es poner un pastel dentro, esperar a que se hornee, sacarlo y probarlo.

El Pastel: Esta es la "función objetivo" (el problema que quieres resolver).
Los Ingredientes: Estos son los "hiperparámetros" (configuraciones como la tasa de aprendizaje, el número de capas, etc.).
El Sabor: Esta es la "puntuación" (qué tan bueno es el resultado).

Esto se llama Optimización de Caja Negra. Ocurre en todas partes: ajustando modelos de IA, diseñando nuevos fármacos o configurando robots. El problema es que encontrar el "pastel" perfecto generalmente requiere que un experto humano adivine, ajuste y pruebe miles de veces. Es lento, costoso y los trucos del experto a menudo no funcionan si cambias de hornear un pastel a hornear pan.

La Vieja Forma vs. La Nueva Idea

La Vieja Forma: Los científicos han construido muchos "expertos en probar" (algoritmos) diferentes a lo largo de los años. Un experto es genial para encontrar recetas de pasteles, pero terrible para encontrar recetas de pan. Son herramientas especializadas.

La Nueva Idea (Modelos Fundacionales): ¿Y si pudiéramos entrenar a una sola IA súper inteligente para aprender los principios generales de la repostería? En lugar de ser un experto en pasteles o un experto en pan, sería un "Maestro Panadero" que entiende cómo optimizar cualquier receta simplemente observando miles de intentos de horneado pasados.

El Ingrediente Faltante: Un Libro de Recetas Gigante

Para entrenar a este "Maestro Panadero", necesitas una biblioteca masiva de intentos de horneado pasados (datos).

El Problema: Los intentos anteriores de hacer esto dependían de datos secretos (que nadie más podía ver) o de datos inventados (que no reflejaban la vida real). Era como intentar enseñar a un chef usando un libro de recetas escrito en un idioma que nadie habla, o usando ingredientes falsos.
La Solución (BBO-Pile): Los autores crearon BBO-Pile, el primer "Libro de Recetas" de código abierto para esta tarea.
- Contiene 557,100 intentos de horneado diferentes (trayectorias).
- Estos intentos cubren 3,095 tipos diferentes de problemas (desde ajustar modelos de IA hasta diseño químico).
- Incluye datos de 6 "expertos en probar" diferentes (algoritmos) para que la IA pueda aprender diferentes estrategias.
- Es masivo: aproximadamente 2.5 mil millones de palabras (tokens) de datos.

Cómo Entrenaron al "Maestro Panadero"

Los autores no solo le dieron a la IA el libro de recetas; entrenaron a una familia de modelos de IA (como chefs de diferentes tamaños) para leerlo.

Los Modelos: Construyeron modelos que van desde pequeños (2 millones de parámetros) hasta grandes (80 millones de parámetros).
El Entrenamiento: Alimentaron a los modelos con los datos y les pidieron que predijeran el siguiente paso en un proceso de horneado.
- Entrada: "Aquí está la receta hasta ahora, y aquí es cómo sabía el último pastel".
- Salida: "Aquí está la siguiente mezcla de ingredientes que deberías probar".
El Resultado: La IA aprendió a imitar el comportamiento de los expertos humanos originales. Si le decías a la IA que actuara como "Experto A", actuaba como el Experto A. Si le decías que actuara como "Experto B", cambiaba de estrategia.

Lo Que Descubrieron

Más Grande es Mejor (pero con límites): A medida que hacían los modelos de IA más grandes y les daban más datos, los modelos mejoraban en imitar a los expertos. Sin embargo, la mejora no fue tan explosiva como con los chatbots (LLM); fue una subida constante y predecible.
Generalización: La IA no solo memorizó las recetas del libro. Cuando la probaron en un nuevo tipo de problema que nunca había visto antes (como un tipo completamente nuevo de pan), todavía funcionó sorprendentemente bien. Había aprendido la lógica de la optimización, no solo las respuestas específicas.
Velocidad: Una vez entrenada, la IA puede sugerir el siguiente paso casi instantáneamente, mucho más rápido que ejecutar simulaciones matemáticas complejas desde cero.

La Conclusión

Este artículo es como construir la primera biblioteca pública de "historias de optimización". Al compartir este conjunto de datos masivo (BBO-Pile), los autores han permitido que otros investigadores entrenen su propia IA "Maestro Panadero".

Probaron que puedes entrenar una IA de propósito general para entender cómo resolver problemas complejos y desconocidos simplemente mostrándole cómo otros métodos resolvieron problemas similares en el pasado. Es un paso hacia una IA que no solo resuelve un rompecabezas, sino que sabe cómo resolver cualquier rompecabezas.

Nota Importante: El artículo se centra exclusivamente en crear este conjunto de datos y entrenar estos modelos para imitar métodos de optimización existentes. No afirma haber resuelto problemas específicos del mundo real (como curar una enfermedad o diseñar un cohete específico) aún, ni discute futuras aplicaciones clínicas. El objetivo fue simplemente probar que este enfoque de "Modelo Fundacional" funciona y proporcionar los datos para que otros lo intenten.

Resumen Técnico: Modelos BBO-Pile y de Fundación para Optimización de Caja Negra

Enunciado del Problema
La optimización de caja negra (BBO) es un desafío fundamental en dominios científicos e ingenieriles, que incluyen robótica, diseño químico y ajuste de hiperparámetros en aprendizaje automático. La dificultad central radica en optimizar una función objetivo $f(x)$ sin acceso a su información estructural o gradientes, dependiendo únicamente de las salidas de las consultas. Los métodos BBO existentes, como la Optimización Bayesiana (BO) y los algoritmos evolutivos, suelen estar especializados, funcionando bien solo dentro de clases de problemas estrechas. Generalmente requieren un ajuste manual extenso y fallan al generalizar a través de dominios diversos. Si bien los modelos de fundación han tenido éxito en visión y procesamiento del lenguaje natural, su aplicación a la BBO se ha visto obstaculizada por la falta de datos de pre-entrenamiento a gran escala, públicos y del mundo real. Los intentos anteriores, como OptFormer, dependieron de conjuntos de datos no públicos o datos puramente sintéticos, lo que limitó la reproducibilidad y la capacidad de aprender principios de optimización generalizables.

Metodología
Los autores introducen BBO-Pile, el primer conjunto de datos de código abierto diseñado para entrenar modelos de fundación para la optimización de caja negra. La metodología abarca la construcción del conjunto de datos, la tokenización y el entrenamiento del modelo:

Construcción del Conjunto de Datos (BBO-Pile): El conjunto de datos agrupa 557.100 trayectorias de optimización a través de 3.095 tareas de caja negra distintas que abarcan 102 espacios de búsqueda. Estas tareas se extraen de siete familias de referencia, incluyendo optimización de hiperparámetros (HPO-B, LC-Bench, PD1, TabRepo), búsqueda de arquitectura neuronal (FC-Net, NAS-Bench-201) y problemas de optimización global sintéticos. Los datos se generaron ejecutando seis optimizadores diferentes (incluyendo BORE, CQR, HEBO, TPE, Evolución Regularizada y Búsqueda Aleatoria) con un presupuesto de 100 evaluaciones por tarea, repetido 30 veces con diferentes semillas.
Aumento de Datos: Para expandir la cuenta de tokens y mitigar el sobreajuste, los autores emplean la permutación del orden de los hiperparámetros (preservando las convenciones de numéricos antes que categóricos) y muestrean trayectorias de longitudes variables ( $T \in \{5, 10, 20, 50, 100\}$ ) antes de la cuantización. Esto resulta en un conjunto de datos final de aproximadamente 2.5 mil millones de tokens.
Codificación y Tokenización: Las trayectorias de optimización se codifican como secuencias de tokens. Los metadatos (nombre del optimizador, espacio de búsqueda) se codifican primero. Las configuraciones numéricas y los valores objetivos se escalan min-max a $[0, 1]$ , se discretizan en $Q=1000$ contenedores y se convierten en cadenas. Los parámetros categóricos se codifican por índice. Caracteres especiales denotan el final de las configuraciones y las métricas observadas. Un tokenizador de Codificación de Pares de Bytes (BPE) se entrena sobre estas cadenas.
Arquitectura del Modelo y Entrenamiento: Los autores entrenan modelos transformadores solo de decodificador basados en la arquitectura Qwen3, utilizando Incrustaciones de Posición Rotatorias, Atención de Consulta Agrupada y Normalización de la Raíz Cuadrada Media. Los modelos se entrenan utilizando un objetivo estándar de modelado de lenguaje causal ( $L(\theta) = -\sum \log p_\theta(s_i | s_{<i})$ ).
Inferencia: Durante la inferencia, el modelo muestrea una cadena de finalización basada en el espacio de búsqueda codificado y las observaciones históricas. La decodificación restringida asegura que todos los valores generados sean válidos y decodificables.

Contribuciones Clave

Conjunto de Datos BBO-Pile: El lanzamiento del conjunto de datos público más grande para la optimización de caja negra, que comprende más de 500K trayectorias de 3.095 tareas y 6 optimizadores, totalizando ~2.5B de tokens.
Entrenamiento de Modelos de Fundación: El entrenamiento de una familia de modelos de fundación que van desde 2M a 80M de parámetros y 200M a 2B de tokens de entrenamiento.
Análisis de Escalamiento: Un análisis sistemático de cómo los transformadores basados en decodificadores imitan a los métodos BBO de última generación a medida que escalan la cuenta de parámetros y el presupuesto de tokens.
Lanzamiento de Código Abierto: Disponibilidad completa del conjunto de datos, puntos de control del modelo y código para entrenamiento, generación y evaluación en GitHub y HuggingFace.

Resultados

Comportamiento de Escalamiento: Los modelos exhiben un comportamiento de escalamiento predecible similar a los Modelos de Lenguaje Grandes (LLM). La pérdida de validación sigue una ley de potencia con respecto al cómputo ( $L \propto C^{-0.0157}$ ), aunque el exponente es más superficial que el pre-entrenamiento típico de LLM, lo que sugiere mejoras modestas a partir del aumento del cómputo.
Imitación de Optimizadores: Los modelos entrenados imitan con éxito las trayectorias de optimización de los optimizadores originales (por ejemplo, CQR y Búsqueda Aleatoria).
- Escalamiento de Parámetros: Los modelos más grandes (por ejemplo, 80M de parámetros) coinciden más estrechamente con el rendimiento y la distribución de muestreo de los optimizadores originales en comparación con los modelos más pequeños (por ejemplo, 2M de parámetros), particularmente en las iteraciones tempranas.
- Escalamiento de Tokens: Los modelos entrenados con presupuestos de tokens que superan 1B de tokens coinciden estrechamente con el rendimiento original, mientras que presupuestos inferiores a 800M de tokens son insuficientes para capturar completamente distribuciones de muestreo complejas.
Generalización: Los modelos demuestran capacidades de generalización:
- Rinden bien en tareas no vistas dentro de espacios de búsqueda vistos.
- Muestran rendimiento competitivo en tareas de espacios de búsqueda no vistos (por ejemplo, tareas CatBoost de TabRepo), aunque las brechas de rendimiento se amplían en problemas de optimización global con paisajes de pérdida altamente variables.
- Los modelos pueden distinguir entre diferentes estrategias de optimización (por ejemplo, CQR frente a Búsqueda Aleatoria) y reproducir sus comportamientos específicos, incluidas las densidades marginales de hiperparámetros.

Significado y Afirmaciones
El artículo afirma que el pre-entrenamiento a gran escala en BBO-Pile es un enfoque viable y efectivo para imitar métodos de optimización de caja negra. El trabajo establece que los modelos de fundación pueden aprender principios de optimización a partir de datos, superando potencialmente la especialización y la falta de generalización inherentes a los métodos diseñados manualmente. Al proporcionar el primer conjunto de datos a gran escala de código abierto y demostrar leyes de escalamiento, los autores allanan el camino para futuras investigaciones sobre agentes de optimización más potentes y generalizables. Los autores notan modestamente que, si bien los modelos muestran promesa, actualmente imitan estrategias existentes en lugar de inventar nuevas, y se necesita trabajo futuro para abordar las limitaciones en la generalización a dominios con características diferentes (por ejemplo, diseño químico) y para explorar enfoques basados en razonamiento o de escalamiento en tiempo de prueba.

An Open-Source Training Dataset for Foundation Models for Black-box Optimization