Summer-22B: A Systematic Approach to Dataset Engineering and Training at Scale for Video Foundation Model

本論文は、約 5,000 万の動画クリップからゼロから構築された大規模動画基盤モデル「Summer-22B」の開発において、データセットエンジニアリングが最も重要な要素であり、メタデータ駆動型のキュレーションやμP パラメータ化などの技術的知見を体系的に報告したものです。

Simo Ryu, Chunghwan Han

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

動画 AI「Summer-22B」の作り方:大規模データと賢い学習の物語

この論文は、ゼロから作られた新しい動画生成 AI「Summer-22B」の開発秘話を語るものです。まるで「世界で一番上手な料理人」が、最高の食材を選び、完璧なレシピで料理を作る過程を詳しく説明しているような内容です。

ここでは、難しい専門用語を避け、身近な例え話を使って、彼らが何をしたのか、そして何を発見したのかを解説します。


1. 全体のストーリー:「レシピ」より「食材」が重要

このプロジェクトの最大の発見は、「AI の仕組み(レシピ)をいかに複雑にするか」よりも、「学習させる動画データ(食材)をいかに綺麗に選別するか」の方が、はるかに大変で重要だったということです。

彼らは約 5000 万本の動画クリップ(5000 億個の「単語」に相当)を使って AI を育てました。その過程で、彼らは以下のような 3 つの重要な「魔法」を使いました。

  1. ラベンダー・データシステム(食材の管理)
  2. μP(マイクロ・パラメータ)(効率的な学習法)
  3. 超球面制約(賢い体重管理)

2. ステップ 1:食材の選別(データエンジニアリング)

AI に動画を作らせるには、まず「良い動画」を大量に集め、ゴミを捨てなければなりません。彼らはこれを「ラベンダー・データシステム」という特別なツールを使って行いました。

  • カメラマンの目(ショット検出)
    長い映画や動画を、意味のある短いシーン(3 秒〜30 秒)に切り分けます。突然の切り替わりや、意味の通じない部分は取り除きます。
  • 品質検査(フィルタリング)
    • 静止画チェック: スライドショーや静止画は「動きがない」ので捨てます。
    • 美しさチェック: 色味が悪いものや、ボケているものは「DOVER」という AI が見て、美しいものだけを選びます。
    • 動きのチェック: カメラが揺れすぎたり、背景だけが動いているような「不自然な動画」は排除します。
  • 重複除去(ダブりチェック)
    「同じような動画」が大量にあると、AI は同じことばかり覚えてしまいます。彼らは「3 単語で表せる短い説明」を使って動画をグループ分けし、グループ内で似ている動画を削除しました。
    • 例え話: 100 万枚の写真の中から、似ている写真を 20% 削除して、本当に多様な写真だけを残すような作業です。

結果: 彼らは「ラベンダー・データ」というシステムを作り、エンジニアが見ている画面と、AI が学習しているデータが完全に一致するようにしました。これにより、AI の学習効率を最大化しました。


3. ステップ 2:賢い学習法(μP と超球面制約)

AI を大きくする際、通常は「学習率(勉強のペース)」を一つずつ調整する必要があります。しかし、彼らは 2 つの新しい手法を組み合わせて、この手間を省きました。

A. μP(マイクロ・パラメータ):小さな実験で大きな成功を

  • 例え話: 小さな鍋でスープの味を調整し、そのレシピをそのまま巨大な釜で使っても美味しくなるようにする技術です。
  • 仕組み: 彼らはまず小さな AI(3000 万パラメータ)で最適な学習方法を見つけ、それを巨大な AI(10 億パラメータ)にそのまま適用しました。これにより、何千回も試行錯誤する必要がなくなりました。

B. 超球面制約:AI の「体重管理」

  • 例え話: 勉強する AI は、いつも「体重(数値の大きさ)」を一定に保つように制限されます。
  • 仕組み: 通常、AI は学習中に数値が大きくなりすぎたり小さくなりすぎたりして不安定になります。彼らは、AI の数値を常に「半径 1 の球の表面」に留まるように数学的に縛りました。
    • これにより、「重み減衰(Weight Decay)という、通常は必須だった複雑な調整が不要になりました。
    • さらに、この「球の表面」での学習は、μP と非常に相性が良く、両方を組み合わせたことで、より効率的な学習が可能になりました。

4. ステップ 3:驚くべき発見(アーキテクチャは重要ではなかった?)

彼らは、AI の「頭脳(アーキテクチャ)」を 5 種類変えて実験しました。

  • 結果:どの頭脳を使っても、性能の差はほとんどありませんでした
  • 教訓: 「頭脳を複雑にする」ことよりも、「良い食材(データ)を用意し、正しい勉強法(最適化)を教える」ことの方が、AI の性能を左右する決定的な要因でした。

5. 最終的な成果とコスト

  • 性能: 彼らが作った「Summer-22B」は、既存の有名なオープンソースモデル(Wan 2.2 など)とほぼ同等の性能を叩き出しました。特に「物理法則」や「常識」の理解は優秀ですが、「創造性」や「複雑な指示への対応」はまだ課題が残っています。
  • コスト: このプロジェクト全体にかかった費用は約30 万ドル(約 4500 万円)でした。そのうち半分は計算コスト、残りはデータ収集やシステム構築です。
    • 意味: 以前は数千万ドルかかるような大規模な動画 AI 開発が、この方法なら比較的安価に実現可能であることを示しました。

まとめ:この論文が教えてくれること

このプロジェクトは、「AI を強くするのは、複雑な魔法の杖(アーキテクチャ)と教えてくれます。

  1. データが全て: 綺麗に選別された 5000 万本の動画が、AI の成長を支えました。
  2. シンプルさが最強: 複雑な仕組みより、シンプルで安定した学習法(μP と球面制約)の方が効果的でした。
  3. 監視の重要性: 単に「損失(Loss)」という数値を見るだけでなく、AI の内部状態(パラメータの動き)を常に監視することが、失敗を防ぐ鍵でした。

彼らはこの経験とシステム(ラベンダー・データ)をオープンソース化し、他の研究者も同じように高品質な動画 AI を作れるように貢献しようとしています。