An Open-Source Training Dataset for Foundation Models for Black-box… — 쉬운 설명

원저자: Aaron Klein, Herilalaina Rakotoarison, Luca Thale-Bombien, David Salinas

게시일 2026-05-25✓ Author reviewed ⓘ

📖 4 분 읽기☕ 가벼운 읽기

원저자: Aaron Klein, Herilalaina Rakotoarison, Luca Thale-Bombien, David Salinas

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

이 논문은 쉬운 언어와 일상적인 비유를 사용하여 설명합니다.

큰 문제: "블랙박스" 미스터리

완벽한 케이크를 굽고 싶지만, 완전히 밀폐된 마법 오븐이 있다고 상상해 보세요. 안을 볼 수도, 레시피를 알 수도, 온도를 측정할 수도 없습니다. 유일한 학습 방법은 케이크를 넣고, 굽기를 기다렸다가 꺼내서 맛보는 것입니다.

케이크: 이는 "목적 함수"(해결하려는 문제) 입니다.
재료: 이는 "하이퍼파라미터"(학습률, 레이어 수 등의 설정) 입니다.
맛: 이는 "점수"(결과가 얼마나 좋은지) 입니다.

이를 블랙박스 최적화라고 합니다. 이는 AI 모델 조정, 신약 개발, 로봇 구성 등 어디에서나 발생합니다. 문제는 완벽한 "케이크"를 찾는 것이 보통 인간 전문가가 수천 번을 추측하고, 수정하고, 맛보아야 한다는 점입니다. 이는 느리고 비싸며, 전문가의 비법이 케이크에서 빵으로 바꾸는 경우처럼 적용되지 않을 때가 많습니다.

구식 방법 vs 새로운 아이디어

구식 방법: 과학자들은 수년 동안 다양한 "맛보기 전문가"(알고리즘) 를 구축해 왔습니다. 한 전문가는 케이크 레시피 찾기에 뛰어나지만 빵 레시피 찾기에는 형편없습니다. 이들은 특화된 도구들입니다.

새로운 아이디어 (기초 모델): 만약 하나의 초지능 AI 를 훈련시켜 베이킹의 일반적인 원리를 학습하게 한다면 어떨까요? 케이크 전문가나 빵 전문가가 아니라, 수천 건의 과거 베이킹 시도만 보고 어떤 레시피든 최적화하는 방법을 이해하는 "마스터 베이커"가 되는 것입니다.

빠진 재료: 거대한 요리책

이 "마스터 베이커"를 훈련시키려면 과거 베이킹 시도 (데이터) 의 거대한 도서관이 필요합니다.

문제: 이전 시도들은 비밀 데이터 (누구도 볼 수 없는) 나 실제 상황을 반영하지 않은 가짜 데이터에 의존했습니다. 이는 아무도 말하지 않는 언어로 쓰인 요리책을 이용해 셰프를 가르치거나, 가짜 재료를 사용하는 것과 같습니다.
해결책 (BBO-Pile): 저자들은 이 작업을 위한 최초의 오픈소스 "요리책"인 BBO-Pile을 만들었습니다.
- 557,100개의 서로 다른 베이킹 시도 (궤적) 를 포함합니다.
- 이러한 시도는 3,095가지 다른 유형의 문제 (AI 모델 조정부터 화학 설계까지) 를 다룹니다.
- AI 가 다양한 전략을 학습할 수 있도록 **6 가지 다른 "맛보기 전문가"(알고리즘)**의 데이터를 포함합니다.
- 규모가 방대합니다: 약 25 억 단어(토큰) 의 데이터입니다.

"마스터 베이커"를 어떻게 훈련시켰는가

저자들은 AI 에게 요리책만 준 것이 아니라, 이를 읽을 수 있도록 훈련된 AI 모델 가족 (서로 다른 크기의 셰프들) 을 만들었습니다.

모델: 200 만 개의 파라미터에서 8 천만 개의 파라미터에 이르는 다양한 크기의 모델을 구축했습니다.
훈련: 모델에 데이터를 입력하고 베이킹 과정의 다음 단계를 예측하도록 요청했습니다.
- 입력: "지금까지의 레시피와 마지막 케이크의 맛입니다."
- 출력: "다음에 시도해 볼 다음 재료 배합입니다."
결과: AI 는 원래 인간 전문가들의 행동을 모방하는 법을 배웠습니다. AI 에게 "전문가 A"처럼 행동하라고 하면 전문가 A 처럼 행동했고, "전문가 B"처럼 행동하라고 하면 전략을 바꾸었습니다.

그들이 발견한 것

크기가 클수록 좋습니다 (하지만 한계가 있음): AI 모델을 더 크게 만들고 더 많은 데이터를 공급할수록 모델은 전문가를 모방하는 데 더 능숙해졌습니다. 하지만 챗봇 (LLM) 에서와 같이 폭발적인 개선이 있었던 것은 아니며, 꾸준하고 예측 가능한 상승이었습니다.
일반화: AI 는 책에 있는 레시피를 단순히 암기하지 않았습니다. 이전에 본 적 없는 새로운 유형의 문제 (완전히 새로운 종류의 빵과 같은) 에서 테스트했을 때, 여전히 놀라울 정도로 잘 수행했습니다. 이는 특정 답변이 아닌 최적화의 논리를 학습한 것입니다.
속도: 훈련이 완료되면 AI 는 처음부터 복잡한 수학적 시뮬레이션을 실행하는 것보다 훨씬 빠르게 다음 단계를 제안할 수 있습니다.

결론

이 논문은 "최적화 이야기"의 첫 번째 공개 도서관을 구축하는 것과 같습니다. 이 거대한 데이터셋 (BBO-Pile) 을 공유함으로써 저자들은 다른 연구자들이 자신만의 "마스터 베이커" AI 를 훈련할 수 있도록 했습니다.

저자들은 과거에 다른 방법들이 유사한 문제를 어떻게 해결했는지 단순히 보여줌으로써, 복잡하고 알려지지 않은 문제를 해결하는 방법을 이해하는 범용 AI 를 훈련시킬 수 있음을 증명했습니다. 이는 하나의 퍼즐만 해결하는 것이 아니라 어떤 퍼즐이든 해결하는 방법을 아는 AI 로 나아가는 한 걸음입니다.

중요한 참고사항: 이 논문은 완전히 이 데이터셋을 생성하고 기존 최적화 방법을 모방하도록 이러한 모델을 훈련하는 데 중점을 둡니다. 아직 구체적인 실세계 문제 (질병 치료나 특정 로켓 설계 등) 를 해결했다고 주장하지 않으며, 향후 임상 적용에 대해 논의하지도 않습니다. 목표는 단순히 이 "기초 모델" 접근법이 작동함을 증명하고, 다른 사람들이 시도해 볼 수 있도록 데이터를 제공하는 것이었습니다.

기술 요약: 블랙박스 최적화를 위한 BBO-Pile 및 파운데이션 모델

문제 제기
블랙박스 최적화 (BBO) 는 로봇공학, 화학 설계, 머신러닝 하이퍼파라미터 튜닝을 포함한 과학 및 공학 전 분야에서 근본적인 도전 과제입니다. 핵심적인 어려움은 구조적 정보나 기울기에 접근할 수 없이 오직 쿼리 출력에만 의존하여 목적 함수 $f(x)$ 를 최적화하는 데 있습니다. 베이지안 최적화 (BO) 와 진화 알고리즘과 같은 기존 BBO 방법들은 종종 특화되어 있어 좁은 문제 클래스 내에서만 잘 작동합니다. 이들은 일반적으로 광범위한 수동 튜닝이 필요하며 다양한 도메인에서 일반화되지 못합니다. 파운데이션 모델이 컴퓨터 비전과 자연어 처리에서 성공을 거두었음에도 불구하고, 대규모 공개 실세계 사전 학습 데이터의 부재로 인해 BBO 에의 적용은 방해받았습니다. OptFormer 와 같은 이전 시도들은 비공개 데이터셋이나 순수 합성 데이터에 의존하여 재현성과 일반화 가능한 최적화 원리를 학습하는 능력을 제한했습니다.

방법론
저자들은 블랙박스 최적화를 위한 파운데이션 모델 학습을 위해 설계된 최초의 오픈소스 데이터셋인 BBO-Pile을 소개합니다. 방법론은 데이터셋 구축, 토큰화, 모델 학습을 포함합니다:

데이터셋 구축 (BBO-Pile): 이 데이터셋은 102 개의 검색 공간에 걸친 3,095 개의 서로 다른 블랙박스 작업에서 수집된 557,100 개의 최적화 궤적을 집계합니다. 이러한 작업들은 하이퍼파라미터 최적화 (HPO-B, LC-Bench, PD1, TabRepo), 신경 아키텍처 탐색 (FC-Net, NAS-Bench-201), 그리고 합성 전역 최적화 문제를 포함한 일곱 가지 벤치마크 패밀리에서 추출되었습니다. 데이터는 각 작업당 100 회 평가의 예산으로 BORE, CQR, HEBO, TPE, Regularized Evolution, Random Search 등 여섯 가지 다른 최적화기를 실행하여 생성되었으며, 서로 다른 시드로 30 회 반복되었습니다.
데이터 증강: 토큰 수를 늘리고 과적합을 완화하기 위해 저자들은 하이퍼파라미터 순서의 치환 (수치형-범주형 관례를 유지) 을 적용하고, 양자화 전 다양한 길이 ( $T \in \{5, 10, 20, 50, 100\}$ ) 의 궤적을 샘플링합니다. 이로 인해 최종 데이터셋은 약 25 억 개의 토큰이 됩니다.
인코딩 및 토큰화: 최적화 궤적은 토큰 시퀀스로 인코딩됩니다. 메타데이터 (최적화기 이름, 검색 공간) 가 먼저 인코딩됩니다. 수치형 구성과 목적 함수 값은 $[0, 1]$ 로 최소 - 최대 스케일링된 후 $Q=1000$ 개의 빈으로 이산화되어 문자열로 변환됩니다. 범주형 파라미터는 인덱스로 인코딩됩니다. 특수 문자는 구성과 관측된 지표의 끝을 나타냅니다. 이러한 문자열에 대해 Byte-Pair Encoding (BPE) 토크나이저가 학습됩니다.
모델 아키텍처 및 학습: 저자들은 Qwen3 아키텍처를 기반으로 한 디코더 전용 트랜스포머 모델을 학습하며, 회전 위치 임베딩 (Rotary Position Embeddings), 그룹화 쿼리 어텐션 (Grouped Query Attention), 그리고 평균 제곱근 정규화 (Root Mean Square Normalization) 를 활용합니다. 모델은 표준 인과적 언어 모델링 목적 함수 ( $L(\theta) = -\sum \log p_\theta(s_i | s_{<i})$ ) 를 사용하여 학습됩니다.
추론: 추론 중 모델은 인코딩된 검색 공간과 역사적 관측치를 기반으로 완성 문자열을 샘플링합니다. 제약付き 디코딩은 생성된 모든 값이 유효하고 디코딩 가능하도록 보장합니다.

주요 기여

BBO-Pile 데이터셋: 6 개의 최적화기와 3,095 개의 작업에서 50 만 개 이상의 궤적으로 구성되며 총 약 25 억 토큰에 이르는 블랙박스 최적화를 위한 가장 큰 공개 데이터셋의 공개.
파운데이션 모델 학습: 2M 에서 80M 개의 파라미터 및 2 억에서 20 억 개의 학습 토큰에 이르는 파운데이션 모델 계열의 학습.
스케일링 분석: 파라미터 수와 토큰 예산이 확장됨에 따라 디코더 기반 트랜스포머가 최첨단 BBO 방법을 어떻게 모방하는지에 대한 체계적 분석.
오픈소스 공개: 데이터셋, 모델 체크포인트, 그리고 학습, 생성, 평가를 위한 코드의 GitHub 및 HuggingFace에서의 완전한 공개.

결과

스케일링 행동: 모델은 대규모 언어 모델 (LLM) 과 유사한 예측 가능한 스케일링 행동을 보입니다. 검증 손실은 계산량에 대해 멱법칙을 따릅니다 ( $L \propto C^{-0.0157}$ ). 다만, 지수가 일반적인 LLM 사전 학습보다 얕아 증가된 계산량으로부터의 개선이 modest 함을 시사합니다.
최적화기 모방: 학습된 모델은 원래 최적화기 (예: CQR 및 Random Search) 의 최적화 궤적을 성공적으로 모방합니다.
- 파라미터 스케일링: 더 큰 모델 (예: 80M 파라미터) 은 더 작은 모델 (예: 2M 파라미터) 에 비해 초기 반복에서 특히 원래 최적화기의 성능과 샘플링 분포에 더 가깝게 일치합니다.
- 토큰 스케일링: 10 억 개를 초과하는 토큰 예산으로 학습된 모델은 원래 성능과 밀접하게 일치하는 반면, 8 억 개 미만의 예산은 복잡한 샘플링 분포를 완전히 포착하기에 부족합니다.
일반화: 모델은 일반화 능력을 입증합니다:
- 그들은 본 검색 공간 내에서 보지 못한 작업에서 잘 수행합니다.
- 그들은 보지 못한 검색 공간의 작업 (예: TabRepo CatBoost 작업) 에서 경쟁력 있는 성능을 보이지만, 매우 변동적인 손실 지형을 가진 전역 최적화 문제에서는 성능 격차가 벌어집니다.
- 모델은 서로 다른 최적화 전략 (예: CQR 대 Random Search) 을 구별하고 주변 하이퍼파라미터 밀도를 포함하여 그들의 특정 행동을 재현할 수 있습니다.

의의 및 주장
본 논문은 BBO-Pile 에 대한 대규모 사전 학습이 블랙박스 최적화 방법을 모방하기 위한 실행 가능하고 효과적인 접근법이라고 주장합니다. 이 연구는 파운데이션 모델이 데이터로부터 최적화 원리를 학습할 수 있음을 입증하여, 수동으로 설계된 방법의 특화성과 일반화 부족을 극복할 가능성을 제시합니다. 최초의 대규모 오픈소스 데이터셋을 제공하고 스케일링 법칙을 입증함으로써, 저자들은 더 강력하고 일반화 가능한 최적화 에이전트에 대한 향후 연구를 위한 길을 열었습니다. 저자들은 모델이 유망한 성과를 보이지만 현재는 기존 전략을 모방할 뿐 새로운 전략을 발명하지는 못하며, 화학 설계와 같은 다른 특성을 가진 도메인으로의 일반화 한계를 해결하고 추론 기반 또는 테스트 시간 스케일링 접근법을 탐구하기 위한 향후 연구가 필요하다고 겸손하게 지적합니다.

An Open-Source Training Dataset for Foundation Models for Black-box Optimization