Summer-22B: A Systematic Approach to Dataset Engineering and Training at Scale for Video Foundation Model

이 논문은 약 5000 만 개의 클립으로 훈련된 비디오 기초 모델 'Summer-22B'의 개발 과정에서 데이터셋 엔지니어링이 가장 많은 노력을 요구했으며, μ\muP 파라미터화와 초구면 제약 최적화 등의 기술적 결정 사항과 배운 교훈을 체계적으로 보고합니다.

Simo Ryu, Chunghwan Han

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎥 여름-22B: 비디오 AI를 키우는 '요리 레시피'와 '정리 정돈'의 비밀

이 논문은 **'Summer-22B'**라는 새로운 비디오 생성 AI 모델을 처음부터 직접 만들어낸 과정을 기록한 보고서입니다. 마치 거대한 요리를 만들 때, '요리법 (모델 구조)'보다 '재료 고르기 (데이터 정리)'와 '불 조절 (학습 방법)'이 훨씬 중요하다는 것을 보여줍니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 핵심 철학: "요리법보다 재료 정리가 90%다" 🥗

대부분의 사람들은 AI 모델을 만들 때 "어떤 요리법 (아키텍처) 을 쓸까?"에 집중합니다. 하지만 이 팀은 5 천만 개의 비디오 클립을 모으고 정제하는 데 모든 에너지를 쏟았습니다.

  • 비유: 고급 레스토랑에서 셰프가 "내가 쓰는 칼질 기술 (모델 구조)"이 중요하다고 생각하지만, 실제로는 **최고급 재료를 골라 세척하고 손질하는 과정 (데이터 엔지니어링)**이 맛을 결정한다는 것입니다.
  • 결과: 이 팀은 다양한 복잡한 요리법 (모델 구조) 을 시도해봤지만, 결국 단순한 요리법정성껏 손질된 재료를 섞었을 때 가장 좋은 결과가 나왔습니다.

2. 데이터 정제 과정: "쓰레기장 청소부터 시작" 🧹

원래 비디오는 1020 분짜리 긴 영상들이 섞여 있고, 쓰레기 같은 장면도 많습니다. 이걸 330 초짜리 '맛있는' 영상으로 바꾸는 과정이 데이터 엔지니어링입니다.

  • 장면 나누기 (Shot Boundary Detection): 긴 영화를 잘게 쪼개는 작업입니다. 마치 긴 영화를 '장면' 단위로 잘라내어, 한 장면이 갑자기 바뀌는 (예: 갑자기 배경이 바뀌거나) 어색한 부분을 잘라냅니다.
  • 품질 필터링 (Quality Filtering):
    • 정지된 영상 제거: 슬라이드쇼나 정지된 화면은 AI 가 배우기 싫어합니다.
    • 운동량 분석: 카메라가 흔들리거나, 배경과 앞사람의 움직임이 어색한 영상은 버립니다.
    • 미적 점수 (DOVER): AI 가 "이 영상은 예쁘다/지저분하다"를 점수로 매겨서, 지저분한 건 다 버립니다.
  • 중복 제거 (Deduplication): 같은 영상이 100 번 반복되는 것을 막기 위해, 내용이 거의 같은 영상은 하나만 남깁니다.

3. Lavender Data 시스템: "실시간 주방 관리 시스템" 🍳

수천만 개의 영상을 관리하려면 사람이 일일이 볼 수 없습니다. 그래서 Lavender Data라는 시스템을 만들었습니다.

  • 비유: 이 시스템은 실시간 주방 모니터와 같습니다. 요리사 (엔지니어) 가 화면에서 "이 재료를 더 걸러야겠다"고 버튼을 누르면, AI 가 배우는 데이터 (모델이 먹는 음식) 에도 즉시 반영됩니다.
  • 장점: "내가 보는 것과 AI 가 배우는 것이 100% 똑같다"는 것을 보장해서, 실수를 바로잡을 수 있습니다.

4. 학습 방법: "공을 굴리는 수학 (초구면 최적화)" ⚽

AI 를 가르칠 때, 보통은 "가중치 (매개변수)"를 무작위로 조절하다가 너무 커지지 않게 '감쇠 (Weight Decay)'를 씁니다. 하지만 이 팀은 수학적 규칙을 더 엄격하게 적용했습니다.

  • 비유: AI 의 가중치들을 반지름이 1 인 공 (구) 위에 올려두는 것입니다.
    • 공 밖으로 나가지 않게 (규제) 하되, 공 위를 자유롭게 굴리게 합니다.
    • 이렇게 하면 "가중치가 너무 커지지 않게 조절해라"라는 복잡한 지시 (학습률 스케줄) 가 필요 없어집니다.
    • 효과: 마치 공을 굴리는 물리 법칙을 따르듯, AI 가 훨씬 안정적으로 학습합니다.

5. µP (뮤-피) 기술: "작은 실험실로 큰 공장을 설계하다" 📐

AI 모델을 키울 때, 매번 큰 모델을 만들어서 실험하면 돈이 너무 듭니다. 이 팀은 **작은 모델 (3 천만 개 파라미터)**로 실험해본 결과를 **큰 모델 (10 억 개 파라미터)**에도 그대로 적용했습니다.

  • 비유: 작은 모형 비행기로 바람을 실험해본 뒤, 그 결과를 바탕으로 실제 거대한 여객기를 설계하는 것과 같습니다.
  • 결과: 큰 모델을 만들 때 "어떤 학습 속도로 가르쳐야 할까?"를 다시 고민할 필요가 없었습니다. 작은 실험실의 결과가 그대로 적용되어, 시간과 돈을 아꼈습니다.

6. 결과: "적은 돈으로 만든 훌륭한 AI" 💰

  • 비용: 이 프로젝트 전체 비용은 약 **30 만 달러 (약 4 억 원)**였습니다. 그중 절반은 컴퓨터 사용료, 나머지 절반은 데이터 정리와 시스템 구축에 들었습니다.
  • 성능: 미국의 유명한 비디오 AI 벤치마크 (VBench) 에서, 훨씬 더 많은 데이터로 훈련된 다른 유명 모델들과 비슷하거나 경쟁력 있는 점수를 받았습니다.
    • 약점: 창의성이나 복잡한 지시 (예: "비행기에서 고양이가 춤을 춰") 에는 아직 부족함이 있습니다.
    • 강점: 움직임의 자연스러움이나 물리 법칙, 인간의 얼굴 표현은 매우 잘합니다.

📝 요약: 이 논문이 우리에게 주는 교훈

  1. 데이터가 왕이다: AI 모델을 잘 만드는 비결은 복잡한 구조가 아니라, 깨끗하고 잘 정리된 데이터입니다.
  2. 간단함이 최고: 너무 복잡한 구조보다는 단순하고 안정적인 구조가 대량 데이터에서는 더 잘 작동합니다.
  3. 작은 실험이 큰 성공을 부른다: 작은 규모에서 찾은 규칙을 큰 규모에 적용하면 (µP), 막대한 비용을 아낄 수 있습니다.
  4. 정리 정돈의 힘: AI 가 잘 하려면, 인간이 먼저 데이터를 철저히 정리하고 필터링해야 합니다.

이 논문은 "AI 는 마법처럼 만들어지는 게 아니라, 엄청난 노력과 정교한 데이터 정리를 통해 만들어진다"는 사실을 증명했습니다.