LeJOT-AutoML: LLM-Driven Feature Engineering for Job Execution Time Prediction in Databricks Cost Optimization

이 논문은 Databricks 작업 실행 시간 예측을 위해 LLM 에이전트와 검색 증강 생성 (RAG) 을 활용한 LeJOT-AutoML 프레임워크를 제안하여, 기존 수동 피처 엔지니어링의 한계를 극복하고 20~30 분 내에 200 개 이상의 동적 피처를 생성함으로써 19.01% 의 비용 절감 효과를 달성했다고 요약할 수 있습니다.

Lizhi Ma, Yi-Xiang Hu, Yihui Ren, Feng Wu, Xiang-Yang Li

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 비유: 레스토랑의 '요리 시간 예측' 문제

대형 레스토랑 (Databricks) 이 매일 수천 개의 주문 (데이터 작업) 을 받습니다. 각 주문을 처리하는 데 걸리는 시간과 비용은 요리사 (컴퓨터 서버) 의 능력, 재료의 양, 그리고 주방의 혼잡도에 따라 달라집니다.

기존의 문제점 (수동 방식):
이전에는 주방장 (엔지니어) 이 직접 과거 기록을 보며 "아, 이 요리법은 보통 30 분 걸리겠지"라고 직접 계산하고 메모했습니다.

  • 단점 1: 요리사가 갑자기 바뀌거나, 재료가 갑자기 많아지면 (데이터가 변하면) 계산이 틀립니다.
  • 단점 2: 주방의 숨겨진 문제 (예: 특정 반죽이 너무 끈적해서 시간이 걸림) 는 기록에 안 나오기 때문에 놓치기 쉽습니다.
  • 단점 3: 새로운 메뉴가 나오면 주방장이 다시 수기로 계산하는 데 한 달이나 걸립니다.

🤖 해결책: LeJOT-AutoML (AI 요리사 팀)

이 논문은 **LLM(거대 언어 모델) 이 주도하는 '자동 요리 팀'**을 제안합니다. 이 팀은 세 명의 AI 요리사 (에이전트) 로 구성되어 있습니다.

1. 메뉴 분석가 (Feature Analyzer Agent)

  • 역할: "오늘 어떤 재료가 들어갈까? 어떤 문제가 생길까?"를 고민합니다.
  • 비유: 이 요리사는 레시피 책 (지식 데이터베이스) 을 뒤적이며, "아, 이 요리는 재료가 섞일 때 (Shuffle) 시간이 더 걸릴 거야"라고 새로운 예측 포인트를 찾아냅니다.
  • 특징: 사람이 생각하지 못했던 '숨은 신호' (예: 데이터가 한쪽으로 쏠리는 현상) 를 찾아냅니다.

2. 재료 수집가 (Feature Extraction Agent)

  • 역할: 분석가가 찾은 포인트를 실제로 확인합니다.
  • 비유: 이 요리사는 주방의 모든 구석 (로그, 데이터베이스, 작업 기록) 을 돌아다니며 실제 데이터를 가져옵니다.
  • 안전 장치: "이 재료가 아직 안 익었으면 (미래 데이터) 쓸 수 없어!"라는 규칙을 지키기 위해, 데이터 유출 방지 검사를 거칩니다. (과거의 결과만 보고 미래를 예측해야 하니까요.)

3. 맛 평가자 (Feature Evaluation Agent)

  • 역할: "이 재료가 정말 맛을 좋게 할까?"를 테스트합니다.
  • 비유: 가져온 재료로 요리를 해보고, "이건 필요 없어"라고 버리거나 "이걸 더 넣으면 더 정확해져"라고 수정을 요청합니다. 이 과정이 몇 번 반복되면 요리가 완벽해집니다.

🚀 이 시스템이 가져온 변화

이 AI 팀이 도입된 후 어떤 일이 일어났을까요?

  1. 시간 단축 (한 달 → 30 분):

    • 예전에는 새로운 예측 모델을 만들려면 엔지니어가 한 달을 꼬박 썼습니다.
    • 이제는 AI 가 20~30 분 만에 200 개 이상의 새로운 예측 요소 (재료) 를 찾아내고 모델을 완성합니다.
  2. 정확도 향상 (숨은 신호 포착):

    • 사람이 만든 모델은 '서버 크기' 같은 눈에 보이는 것만 봤다면, AI 는 '데이터가 섞일 때 생기는 마찰' 같은 눈에 안 보이는 복잡한 신호까지 찾아냅니다.
    • (참고: 아직은 사람이 만든 모델이 하드웨어 변화에 더 강하지만, AI 는 빠르게 따라잡고 있습니다.)
  3. 비용 절감 (19% 절약):

    • 정확한 예측 덕분에, 레스토랑은 불필요하게 큰 주방 (비싼 서버) 을 빌리지 않아도 됩니다.
    • 실제 실험에서 약 19% 의 비용을 아꼈습니다.

💡 핵심 요약

이 논문은 **"복잡한 데이터 작업을 예측할 때, 사람이 일일이 계산할 필요 없이 AI 가 스스로 지식을 찾아내고, 실험하고, 수정하게 하라"**는 것입니다.

마치 스마트한 주방장이 매일 새로운 레시피를 스스로 개발하고, 실수를 바로잡으며, 레스토랑의 비용을 자동으로 최적화하는 것과 같습니다. 덕분에 기업은 더 빠르고, 더 저렴하게, 더 똑똑하게 데이터를 처리할 수 있게 되었습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →