Each language version is independently generated for its own context, not a direct translation.

🎥 여름-22B: 비디오 AI를 키우는 '요리 레시피'와 '정리 정돈'의 비밀

이 논문은 **'Summer-22B'**라는 새로운 비디오 생성 AI 모델을 처음부터 직접 만들어낸 과정을 기록한 보고서입니다. 마치 거대한 요리를 만들 때, '요리법 (모델 구조)'보다 '재료 고르기 (데이터 정리)'와 '불 조절 (학습 방법)'이 훨씬 중요하다는 것을 보여줍니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 핵심 철학: "요리법보다 재료 정리가 90%다" 🥗

대부분의 사람들은 AI 모델을 만들 때 "어떤 요리법 (아키텍처) 을 쓸까?"에 집중합니다. 하지만 이 팀은 5 천만 개의 비디오 클립을 모으고 정제하는 데 모든 에너지를 쏟았습니다.

비유: 고급 레스토랑에서 셰프가 "내가 쓰는 칼질 기술 (모델 구조)"이 중요하다고 생각하지만, 실제로는 **최고급 재료를 골라 세척하고 손질하는 과정 (데이터 엔지니어링)**이 맛을 결정한다는 것입니다.
결과: 이 팀은 다양한 복잡한 요리법 (모델 구조) 을 시도해봤지만, 결국 단순한 요리법과 정성껏 손질된 재료를 섞었을 때 가장 좋은 결과가 나왔습니다.

2. 데이터 정제 과정: "쓰레기장 청소부터 시작" 🧹

원래 비디오는 10~~20 분짜리 긴 영상들이 섞여 있고, 쓰레기 같은 장면도 많습니다. 이걸 3~~30 초짜리 '맛있는' 영상으로 바꾸는 과정이 데이터 엔지니어링입니다.

장면 나누기 (Shot Boundary Detection): 긴 영화를 잘게 쪼개는 작업입니다. 마치 긴 영화를 '장면' 단위로 잘라내어, 한 장면이 갑자기 바뀌는 (예: 갑자기 배경이 바뀌거나) 어색한 부분을 잘라냅니다.
품질 필터링 (Quality Filtering):
- 정지된 영상 제거: 슬라이드쇼나 정지된 화면은 AI 가 배우기 싫어합니다.
- 운동량 분석: 카메라가 흔들리거나, 배경과 앞사람의 움직임이 어색한 영상은 버립니다.
- 미적 점수 (DOVER): AI 가 "이 영상은 예쁘다/지저분하다"를 점수로 매겨서, 지저분한 건 다 버립니다.
중복 제거 (Deduplication): 같은 영상이 100 번 반복되는 것을 막기 위해, 내용이 거의 같은 영상은 하나만 남깁니다.

3. Lavender Data 시스템: "실시간 주방 관리 시스템" 🍳

수천만 개의 영상을 관리하려면 사람이 일일이 볼 수 없습니다. 그래서 Lavender Data라는 시스템을 만들었습니다.

비유: 이 시스템은 실시간 주방 모니터와 같습니다. 요리사 (엔지니어) 가 화면에서 "이 재료를 더 걸러야겠다"고 버튼을 누르면, AI 가 배우는 데이터 (모델이 먹는 음식) 에도 즉시 반영됩니다.
장점: "내가 보는 것과 AI 가 배우는 것이 100% 똑같다"는 것을 보장해서, 실수를 바로잡을 수 있습니다.

4. 학습 방법: "공을 굴리는 수학 (초구면 최적화)" ⚽

AI 를 가르칠 때, 보통은 "가중치 (매개변수)"를 무작위로 조절하다가 너무 커지지 않게 '감쇠 (Weight Decay)'를 씁니다. 하지만 이 팀은 수학적 규칙을 더 엄격하게 적용했습니다.

비유: AI 의 가중치들을 반지름이 1 인 공 (구) 위에 올려두는 것입니다.
- 공 밖으로 나가지 않게 (규제) 하되, 공 위를 자유롭게 굴리게 합니다.
- 이렇게 하면 "가중치가 너무 커지지 않게 조절해라"라는 복잡한 지시 (학습률 스케줄) 가 필요 없어집니다.
- 효과: 마치 공을 굴리는 물리 법칙을 따르듯, AI 가 훨씬 안정적으로 학습합니다.

5. µP (뮤-피) 기술: "작은 실험실로 큰 공장을 설계하다" 📐

AI 모델을 키울 때, 매번 큰 모델을 만들어서 실험하면 돈이 너무 듭니다. 이 팀은 **작은 모델 (3 천만 개 파라미터)**로 실험해본 결과를 **큰 모델 (10 억 개 파라미터)**에도 그대로 적용했습니다.

비유: 작은 모형 비행기로 바람을 실험해본 뒤, 그 결과를 바탕으로 실제 거대한 여객기를 설계하는 것과 같습니다.
결과: 큰 모델을 만들 때 "어떤 학습 속도로 가르쳐야 할까?"를 다시 고민할 필요가 없었습니다. 작은 실험실의 결과가 그대로 적용되어, 시간과 돈을 아꼈습니다.

6. 결과: "적은 돈으로 만든 훌륭한 AI" 💰

비용: 이 프로젝트 전체 비용은 약 **30 만 달러 (약 4 억 원)**였습니다. 그중 절반은 컴퓨터 사용료, 나머지 절반은 데이터 정리와 시스템 구축에 들었습니다.
성능: 미국의 유명한 비디오 AI 벤치마크 (VBench) 에서, 훨씬 더 많은 데이터로 훈련된 다른 유명 모델들과 비슷하거나 경쟁력 있는 점수를 받았습니다.
- 약점: 창의성이나 복잡한 지시 (예: "비행기에서 고양이가 춤을 춰") 에는 아직 부족함이 있습니다.
- 강점: 움직임의 자연스러움이나 물리 법칙, 인간의 얼굴 표현은 매우 잘합니다.

📝 요약: 이 논문이 우리에게 주는 교훈

데이터가 왕이다: AI 모델을 잘 만드는 비결은 복잡한 구조가 아니라, 깨끗하고 잘 정리된 데이터입니다.
간단함이 최고: 너무 복잡한 구조보다는 단순하고 안정적인 구조가 대량 데이터에서는 더 잘 작동합니다.
작은 실험이 큰 성공을 부른다: 작은 규모에서 찾은 규칙을 큰 규모에 적용하면 (µP), 막대한 비용을 아낄 수 있습니다.
정리 정돈의 힘: AI 가 잘 하려면, 인간이 먼저 데이터를 철저히 정리하고 필터링해야 합니다.

이 논문은 "AI 는 마법처럼 만들어지는 게 아니라, 엄청난 노력과 정교한 데이터 정리를 통해 만들어진다"는 사실을 증명했습니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요: Summer-22B

이 논문은 Summer-22B라는 이름의 비디오 기반 모델 (Video Foundation Model) 을 처음부터 구축하고 학습시킨 경험과 방법론을 보고합니다. 약 5 천만 개의 클립 (약 5 천억 토큰) 으로 학습된 이 모델은 데이터 엔지니어링, 최적화 전략, 그리고 아키텍처 설계의 균형을 통해 대규모 비디오 생성 모델 개발의 실용적인 도전 과제를 해결하는 과정을 보여줍니다.

1. 문제 정의 (Problem)

비디오 기반 모델 개발은 방대한 데이터 엔지니어링, 효율적인 학습 방법론, 그리고 정교한 최적화 전략이 교차하는 복잡한 과제입니다. 기존 연구들은 주로 아키텍처의 혁신에 집중했으나, 실제 대규모 비디오 모델 학습에서는 데이터의 품질 관리와 전처리 파이프라인이 모델 성능에 훨씬 더 큰 영향을 미친다는 점이 부각되었습니다. 또한, 모델 크기를 키울 때 학습 하이퍼파라미터를 어떻게 조정할지 (Scaling) 와 학습의 안정성을 유지하는 것이 주요 난제였습니다.

2. 방법론 (Methodology)

가. 데이터 엔지니어링 및 Lavender Data 시스템

데이터 수집 및 전처리: 약 5 천만 개의 비디오 클립을 수집하기 위해 메타데이터 기반의 쿼리 전략을 사용했습니다.
다단계 필터링 파이프라인:
- 샷 경계 감지: PySceneDetect 와 TransNetV2 를 결합하여 장면 전환을 정밀하게 감지하고 불연속적인 컷을 제거했습니다.
- 품질 필터링: DOVER 모델을 활용한 미적 점수 평가, 색조 다양성, 정적 콘텐츠 제거, 모션 분석 (광학 흐름, 전경/배경 분리) 등을 적용했습니다.
- 중복 제거: 계층적 캡셔닝 (상세, 짧은, 3 단어 초단형) 을 통해 의미적 버킷을 생성하고, GPU 가속화된 Mini-Batch K-means 를 사용하여 중복 클립을 제거했습니다.
Lavender Data 시스템: 데이터 시각화, 필터링, 스트리밍을 통합한 자체 시스템으로, 엔지니어가 보는 데이터와 모델이 학습하는 데이터 간의 **엄격한 일치 (Strict Parity)**를 보장합니다.

나. 학습 방법론 및 최적화

아키텍처: 복잡한 변형보다는 Vanilla Transformer에 3 차원 회전 위치 임베딩 (3D RoPE) 을 적용한 단순한 구조를 채택했습니다. 추론 시 지연 시간을 줄이기 위해 Attention 과 MLP 계산을 병렬로 수행하는 Inference-aware 설계를 적용했습니다.
초구면 제약 최적화 (Hypersphere-Constrained Optimization): 가중치 행렬의 행을 단위 노름 (Unit Norm) 으로 제한하여 **리만니안 경사 하강 (Riemannian Gradient Descent)**을 수행합니다. 이는 가중치 감쇠 (Weight Decay) 와 그 스케줄링을 제거하고 학습 안정성을 높입니다.
최대 업데이트 파라미터화 (µP): 소규모 모델 (30M 파라미터) 에서 찾은 하이퍼파라미터를 대규모 모델 (1B 파라미터) 로 직접 전이 (Transfer) 할 수 있게 합니다. 초구면 제약과 µP 가 호환됨을 최초로 입증했습니다.
스케일링 법칙: 배치 크기 ( $B$ ) 와 학습 시간 ( $T$ ) 에 따른 최적 학습률 ( $LR$ ) 의 관계를 경험적으로 규명했습니다 ( $LR \propto \sqrt{B}$ , $LR \propto 1/\sqrt{T}$ ).

3. 주요 기여 (Key Contributions)

대규모 비디오 전처리 파이프라인: 샷 감지, 다단계 필터링, 계층적 캡셔닝, GPU 가속 중복 제거를 포함한 종합적인 파이프라인을 구축하고 Ray 를 통해 확장했습니다.
Lavender Data 시스템: 데이터 시각화와 학습 스트리밍을 통합하여 데이터 품질 관리의 투명성과 일관성을 확보했습니다.
µP 와 초구면 최적화의 결합: µP 의 하이퍼파라미터 전이 효과가 기하학적 제약 (초구면) 하에서도 유효함을 최초로 증명했습니다.
추론 효율성 향상: 병렬 Attention-MLP 아키텍처를 통해 추론 지연 시간을 약 20% 단축하면서도 학습 안정성을 유지했습니다.
비용 효율성: 약 30 만 달러 (컴퓨팅 비용 15 만 달러) 의 총 비용으로 경쟁력 있는 비디오 기반 모델을 개발할 수 있음을 시연했습니다.

4. 실험 결과 (Results)

아키텍처 비교: 다양한 아키텍처 변형 (MLA, 윈도우 어텐션 등) 을 테스트했으나, 적절한 학습률 하에서는 Vanilla Transformer 와 성능 차이가 미미했습니다. 이는 아키텍처보다 데이터 품질과 최적화가 더 중요함을 시사합니다.
VBench 벤치마크:
- VBench 2.0: 총점 0.539 를 기록하여, 유사 규모의 오픈소스 모델인 Wan 2.2-5B(0.575) 와는 약간의 격차가 있지만, 데이터 효율적인 학습 방법론의 유효성을 입증했습니다.
- 강점: 물리 법칙 (Physics), 상식 (Commonsense), 인간 충실도 (Human Fidelity) 에서 경쟁력 있는 성능을 보였습니다.
- 약점: 창의성 (Creativity) 과 제어 가능성 (Controllability) 에서 상대적으로 낮은 점수를 기록했는데, 이는 학습 데이터의 프롬프트 다양성 부족 때문으로 분석됩니다.
학습 안정성: µP 밴드 (예상된 파라미터 변화 범위) 를 모니터링함으로써 손실 곡선만으로는 감지하기 어려운 학습 불안정성을 조기에 발견하고 해결했습니다.

5. 의의 및 결론 (Significance)

이 논문은 비디오 기반 모델 개발에서 아키텍처의 복잡성보다 데이터 엔지니어링과 최적화 전략이 더 결정적임을 강조합니다.

실용적 접근: 고비용의 대규모 학습 없이도 체계적인 데이터 관리와 µP, 초구면 최적화를 통해 경쟁력 있는 모델을 구축할 수 있음을 보여줍니다.
방법론적 혁신: µP 와 리만니안 최적화의 결합은 하이퍼파라미터 튜닝 비용을 대폭 절감하면서도 학습 안정성을 보장하는 새로운 패러다임을 제시합니다.
오픈소스 기여: 저자들은 추후 Lavender Data 시스템과 모델 가중치를 오픈소스로 공개하여 커뮤니티의 재현과 연구를 지원할 계획입니다.

결론적으로, Summer-22B 프로젝트는 대규모 비디오 모델 개발이 단순히 모델 크기를 키우는 것이 아니라, 데이터의 품질, 전처리 파이프라인의 정교함, 그리고 수학적 최적화 원리의 적용에 달려 있음을 체계적으로 증명했습니다.

Summer-22B: A Systematic Approach to Dataset Engineering and Training at Scale for Video Foundation Model