stratum: A System Infrastructure for Massive Agent-Centric ML Workloads

이 논문은 대규모 LLM 기반 에이전트 중심의 ML 파이프라인 탐색 작업을 지원하기 위해 기존 Python 생태계와 호환되면서도 Rust 기반 런타임 등을 활용한 최적화된 실행을 가능하게 하는 새로운 시스템 인프라 'stratum'을 제안하고, 이를 통해 탐색 속도를 최대 16.6 배까지 향상시킬 수 있음을 보여줍니다.

Arnab Phani, Elias Strauss, Sebastian Schelter

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚧 문제: AI 가 너무 많은 일을 하다가 지쳐버리는 상황

최근 AI(대형 언어 모델) 는 스스로 데이터를 분석하고, 모델을 만들고, 성능을 개선하는 '데이터 과학자' 역할을 하고 있습니다. 이를 **'에이전트 (Agent)'**라고 부릅니다.

하지만 현재 이 AI 에이전트들이 일하는 방식에는 큰 문제가 있습니다.

  • 비유: 혼잡한 공사 현장
    Imagine you have a brilliant architect (the AI) who designs 1,000 different house plans in an hour. However, the construction crew (the current Python system) is tiny, disorganized, and uses old-fashioned tools.
    • 중복 작업: 같은 벽돌을 10 번이나 나르는 경우가 많습니다. (같은 데이터를 여러 번 읽음)
    • 혼란: 100 개의 팀이 동시에 자재를 가져가려다 문이 막힙니다. (컴퓨터 메모리 부족, 병목 현상)
    • 비효율: 건축가가 "이 벽은 빨간색으로 칠해"라고 하면, 일꾼은 "네, 빨간 페인트 통을 열고, 붓을 들고, 칠합니다"라고 매번 새로 시작합니다. (매번 새로운 프로그램을 실행)

결과적으로 AI 는 엄청난 아이디어를 내지만, 실제 실행 속도가 너무 느려서 수천 번의 실험을 하려면 며칠이 걸립니다.


🏗️ 해결책: Stratum(스트라텀) - 똑똑한 공사 지휘본부

이 문제를 해결하기 위해 제안된 Stratum은 단순한 도구가 아니라, **모든 작업을 통합하고 최적화하는 '지하철 공사 지휘본부'**와 같습니다.

1. 통합된 설계도 (DAG - 방향성 비순환 그래프)

기존 시스템은 AI 가 매번 새로운 명령을 내릴 때마다 일꾼들이 따로따로 움직였습니다. 하지만 Stratum 은 AI 가 내린 1,000 개의 명령을 한 장의 거대한 설계도로 합칩니다.

  • 비유: "A 벽을 쌓고, B 창문을 달고, C 천장을 칠하라"는 명령을 따로따로 주는 대신, **"A, B, C 순서대로 진행하되, A 와 B 가 같은 자재를 쓰니까 한 번만 가져오라"**고 지시합니다.
  • 효과: 불필요한 이동과 중복 작업을 없애줍니다.

2. 최고의 장비로 교체 (Rust 백엔드)

기존의 Python(파이썬) 은 유연하지만 느립니다. 마치 장난감 차를 타고 고속도로를 달리는 것과 비슷합니다. Stratum 은 이 장난감 차를 **고속 레이싱 카 (Rust 언어 기반)**로 교체합니다.

  • 비유: 일꾼들이 느린 손으로 페인트를 바르는 대신, 자동 분사 장비를 사용하여 순식간에 벽을 칠합니다.
  • 효과: 같은 작업을 10 배, 20 배 더 빠르게 처리합니다.

3. 지능형 자원 관리 (병렬 처리 및 캐싱)

Stratum 은 컴퓨터의 CPU 와 메모리를 똑똑하게 분배합니다.

  • 비유: 100 명의 일꾼이 있는데, 90 명이 빈손으로 서 있는 경우가 많습니다. Stratum 은 **"너는 A 작업을 하고, 너는 B 작업을 하고, C 작업은 이미 다 해뒀으니 그걸 가져다 써라"**라고 실시간으로 지시합니다.
  • 효과: 컴퓨터의 모든 자원을 100% 활용하여, 한 번 실행한 데이터는 다시 읽지 않고 저장해 둡니다 (캐싱).

🚀 실제 효과: 얼마나 빨라졌을까?

논문의 실험 결과, Stratum 을 사용하면 기존 방식보다 최대 16.6 배까지 빨라졌습니다.

  • 기존: AI 가 100 개의 모델을 테스트하는 데 10 시간이 걸림.
  • Stratum: 같은 작업을 약 40 분 만에 끝냄.

이는 마치 도보로 도시를 횡단하던 것을, 초고속 열차를 타고 횡단하는 것과 같은 차이입니다.


💡 요약: 왜 이것이 중요한가요?

미래의 AI 는 스스로 더 복잡한 문제를 해결하려 할 것입니다. 하지만 현재의 시스템은 그 속도를 따라가지 못해 AI 가 '지루해'하거나 '지쳐버릴' 수 있습니다.

Stratum은 AI 가 아이디어를 내는 속도와 실제 실행 속도를 맞춰주는 필수적인 다리입니다. 이 시스템이 도입되면, AI 는 더 적은 시간 안에 더 많은 실험을 통해 더 똑똑한 모델을 찾아낼 수 있게 됩니다.

한 줄 요약:

"AI 가 스스로 머신러닝 모델을 만들 때, 혼란스러운 공사 현장정교하게 계획된 고속도로로 바꿔주는 새로운 시스템입니다."