Each language version is independently generated for its own context, not a direct translation.

画像生成 AI の「超高速化」を可能にした新技術「CMT」の解説

この論文は、画像生成 AI（拡散モデル）が抱える大きな問題、「生成に時間がかかりすぎる」という課題を解決するための新しいトレーニング方法「CMT（Consistency Mid-Training）」を紹介しています。

専門用語を排し、日常の例えを使ってわかりやすく解説します。

1. 従来の問題：「長い旅」を歩かせるのは大変

まず、従来の画像生成 AI（拡散モデル）がどう動いているかイメージしてください。

従来の方法（拡散モデル）：
雑音（ノイズ）からきれいな画像を作る過程は、**「霧の中を歩く」**ようなものです。
目的地（きれいな画像）が見えているのに、霧が濃すぎて一歩一歩しか進めません。100 歩、200 歩と細かく足を踏みながら進まないと、目的地にたどり着けません。
- メリット： 高品質な画像が作れる。
- デメリット： 一歩一歩が計算コストが高く、画像を作るのに時間がかかる（遅い）。
新しい試み（フローマップモデル）：
「じゃあ、一歩一歩歩かずに、**『霧を飛び越えて』**目的地に直接ジャンプする魔法を覚えさせよう！」というアイデアです。
これなら、1 回か 2 回のジャンプで画像が完成するので、爆速になります。
- 課題： しかし、この「ジャンプの魔法」をゼロから教えるのは非常に難しく、失敗しやすい（学習が不安定）し、教えるのに膨大な時間とデータが必要でした。

2. CMT の登場：「中継地点」を作るアイデア

この論文が提案する**「CMT（Consistency Mid-Training）」は、この「ジャンプの魔法」を教えるための「中継訓練（ミッドトレーニング）」**という新しいステップを導入しました。

創造的な比喩：「登山のトレーニング」

このプロセスを**「登山」**に例えてみましょう。

フェーズ 1：既存のガイド（事前学習済みモデル）
まず、経験豊富なガイド（既存の AI）がいます。このガイドは、山頂（きれいな画像）まで、ゆっくりと確実に登ることはできますが、スピードは遅いです。
フェーズ 2：CMT（中継訓練）★ここが新技術
ここが CMT の核心です。
新しく雇う登山者（新しい AI）に、いきなり「山頂までジャンプしろ！」と言っても、道がわからず転落してしまいます（学習失敗）。
そこで、**「ガイドが歩いた道筋（軌跡）を一緒に歩く」**訓練を挟みます。
- ガイドが「ここからここへ」と歩いた道を見ながら、「もしあなたが今、この地点にいたら、山頂はあそこだよ」と教えます。
- この訓練では、ガイドが正解を提示してくれるので、登山者は**「迷うことなく、道筋に合わせた正しい方向」**を学べます。
- これを「中継訓練（Mid-Training）」と呼びます。
フェーズ 3：最終訓練（ポストトレーニング）
中継訓練で「道筋の感覚」を身につけた登山者は、いよいよ本番の「ジャンプ」の訓練に入ります。
すでに道筋を知っているため、**「一瞬で山頂にジャンプする」**技術を、非常に短時間で、かつ安定して習得できます。

3. CMT がすごい理由

この「中継訓練」を入れることで、以下のような劇的な変化が起きました。

安定性： 従来の方法では「ジャンプ先」を推測するだけで、学習が不安定になりがちでしたが、CMT ではガイドが示した「確実な道」を基準にするため、学習がぐらつきません。
超効率化：
- データ量： 従来の方法に比べて、最大 98% も少ないデータで学習できました。
- 時間： 学習にかかる時間は最大 98% 短縮されました。
- 品質： 2 歩（2 ステップ）で画像を作る場合、従来の最高水準よりもさらに高品質な画像を生成できるようになりました。

具体的な成果（例）

ImageNet 512x512（高解像度画像）：
従来の方法では「4643 時間」の GPU 計算が必要だったのが、CMT を使えば**「400 時間」**で済みます。しかも、生成される画像の質は、従来の方法が 2 歩で出せるものよりもはるかに鮮明です。
（図 1 のグラフを見れば、CMT は右肩上がりで急激に良くなり、従来の方法はまだ霧の中を歩いている状態です）

4. まとめ：なぜこれが画期的なのか？

これまでの AI 開発では、「良いモデルを作るには、とにかく大量のデータと時間をかけて学習させるしかない」というのが常識でした。

しかし、CMT は**「一度、ガイドの道筋を一緒に歩く（中継訓練）ことで、その後の学習を劇的に効率化できる」**ことを証明しました。

従来のイメージ： 暗闇で手探りでゴールを目指す。
CMT のイメージ： 一度、明るい道でガイドに付き添ってもらい「ゴールへのルート」を頭に焼き付けてから、暗闇で走らせる。

この「中継訓練」という考え方は、画像生成だけでなく、他の AI モデルの学習にも応用できる可能性があり、AI 開発の新しい標準（スタンダード）になりうる画期的な手法です。

一言で言うと：
「画像生成 AI を『超高速・高品質』にするために、**『中継地点でのガイド付き練習』**という新しいステップを加えたところ、学習コストが 98% 減り、性能は世界最高レベルになったよ！」というお話です。

Each language version is independently generated for its own context, not a direct translation.

CMT: 視覚生成における一貫性、平均フロー、フローマップモデルの効率的学習のためのミッドトレーニング

本論文は、ICLR 2026 に提出された研究「CMT: MID-TRAINING FOR EFFICIENT LEARNING OF CONSISTENCY, MEAN FLOW, AND FLOW MAP MODELS」の技術的サマリーです。この研究は、拡散モデルから数ステップのフローマップモデル（Consistency Models や Mean Flow など）へ移行する際のトレーニングの不安定性と高コストという課題を解決し、**CMT（Consistency Mid-Training）**という新しい中間トレーニング段階を導入することを提案しています。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細を記述します。

1. 背景と問題定義

背景

拡散モデルは現代の生成モデルの基盤となっていますが、推論時の計算コストが高いという課題があります。これは、サンプリングが確率流 ODE（PF-ODE）の反復解を必要とするためです。これを克服するため、フローマップモデル（Consistency Models: CM, Mean Flow: MF など）が提案されました。これらは、ODE の解（積分マップ）を直接学習することで、数ステップ（あるいは 1 ステップ）での生成を可能にします。

課題

既存のフローマップモデルのトレーニングには以下の重大な問題があります：

不安定性とハイパーパラメータへの依存: 最適化が不安定であり、停止勾配（stop-gradient）や時間重み付けなどのヒューリスティックに依存しています。
トレーニングコストの高さ: 収束に多くのデータと GPU 時間を要します。
初期化の限界: 事前学習済みの拡散モデルから初期化しても、拡散モデルが「微小な移動」を学習するのに対し、フローマップは「大きなジャンプ」を学習する必要があるため、根本的なミスマッチが残ります。これにより、トレーニングは依然として不安定で、収束が遅いままです。

2. 提案手法：CMT (Consistency Mid-Training)

著者らは、事前学習（拡散モデル）と最終的なフローマップのポストトレーニング（ファインチューニング）の間に、**軽量な中間段階（ミッドトレーニング）**を挿入する「CMT」を提案しました。

核心的なアイデア

CMT は、事前学習済みのモデル（教師）が生成する ODE 軌道（trajectory）を利用し、その軌道上の任意の点から、同じ軌道のクリーンな終点（データ分布）へ直接マッピングするモデルを学習します。

具体的なプロセス

Stage 1: 事前学習 (Pre-Training)
- 既存の拡散モデルやフローマッチングモデルを教師として使用し、決定論的な ODE ソルバー（例：DPM-Solver++）を構築します。
Stage 2: CMT ミッドトレーニング
- 目的: 軌道に整合した（trajectory-aligned）初期化モデルを学習する。
- 手法: 事前分布からサンプリングした $x_T$ に対して、教師ソルバーで離散化された軌道 $\{\hat{x}_{t_i}\}$ を生成します。
- 損失関数:
  - CM の場合: 軌道上の任意の点 $\hat{x}_{t_i}$ を、その軌道のクリーンな終点 $\hat{x}_{t_0}$ へ直接マッピングする回帰タスクとして学習します（式 7）。
  - MF の場合: 軌道上の 2 点間の平均ドリフトを、軌道上の差分 $\frac{\hat{x}_{t_i} - \hat{x}_{t_j}}{t_i - t_j}$ に一致させるように学習します（式 8）。
- 特徴: 停止勾配や複雑な時間サンプリング、手動の重み付けを不要とし、固定された高品質な教師ラベルによる単純な回帰問題として定式化されます。
Stage 3: ポストトレーニング
- CMT で得られた重みで初期化し、通常のフローマップ損失（例：ECT や ECD）を用いて最終的なモデルを微調整します。

理論的根拠

CMT は、Oracle（真のフローマップ）と実際のトレーニング損失の間の勾配バイアスを大幅に削減します。

ランダム初期化: バイアスが大（ $O(1)$ ）。
拡散モデル初期化: 事前学習のノイズプロセスと PF-ODE 解の不一致による追加バイアスが存在。
CMT 初期化: 軌道整合性により、Oracle 損失への近似が良く、バイアスは $O(\epsilon + \Delta t^2)$ 程度に抑えられます。これにより、最適化が安定し、収束が早まります。

3. 主要な貢献

ミッドトレーニング概念の導入: 視覚生成における数ステップフローマップモデルのトレーニングにおいて、事前学習とポストトレーニングの間に中間段階を設けるという新しいパラダイムを確立しました。
CMT の実装と一般性: Consistency Models (CM) と Mean Flow (MF) の両方に適用可能な、アーキテクチャに依存しない汎用的なフレームワークを提供しました。
トレーニングの安定化と効率化: 停止勾配やヒューリスティックな重み付けを排除し、安定したトレーニングを実現しました。
理論的保証: 勾配バイアスの解析を通じて、CMT 初期化がなぜ他の手法よりも優れているかを数学的に証明しました。

4. 実験結果

CMT は CIFAR-10、ImageNet (64x64, 256x256, 512x512)、AFHQv2、FFHQ、MS-COCO などの広範なベンチマークで評価されました。

主要な数値結果

ImageNet 512x512:
- 2 ステップ FID: 1.84 (SOTA)。
- トレーニングコスト削減: 既存の手法（ECD や sCD）と比較して、トレーニングデータ量と GPU 時間を最大98% 削減（91.4% の削減）。
- 図 1 に示すように、Vanilla ECD が 4643 GPU 時間かかるのに対し、CMT は 400 GPU 時間で同等以上の性能を達成しました。
ImageNet 256x256:
- 1 ステップ FID: 3.34。
- MF をゼロから学習する場合と比較して、トレーニング時間を約50% 削減しつつ、より良い FID を達成しました。
ImageNet 64x64:
- 2 ステップ FID: 1.32 (SOTA)。
- 既存の CM 手法（sCT など）と比較して、トレーニング画像数（データコスト）を最大98% 削減しました。
MS-COCO (Text-to-Image):
- 既存の MF 学習と比較して、トレーニング時間を約47% 削減し、最高の FID を達成しました。

比較分析

初期化手法との比較: ランダム初期化や、事前学習済み拡散モデル（SiT など）からの初期化と比較して、CMT 初期化が圧倒的に優れており、特にトレーニングの初期段階で意味のある画像を生成できることが確認されました。
教師モデルの柔軟性: CMT のミッドトレーニングは、高品質な拡散モデルだけでなく、軽量な MF モデル（例：MF-B/4）を教師としても機能し、大規模モデル（MF-XL/2）のトレーニングを加速できることが示されました。

5. 意義と結論

CMT は、フローマップモデルのトレーニングにおける「不安定性」と「高コスト」という長年の課題を解決する画期的なアプローチです。

実用性: 複雑なヒューリスティックや大規模な計算資源を必要とせず、シンプルで安定したトレーニングパイプラインを提供します。
効率性: 生成モデルのトレーニングコストを劇的に削減し、高解像度生成の実用化を加速します。
一般性: 拡散モデルやフローマッチングモデルの枠組みを超えて、ODE ベースの生成モデル全般に応用可能な汎用フレームワークです。

結論として、CMT はフローマップモデルのトレーニングをより効率的かつ実用的なものに変え、視覚生成分野における新しい標準となる可能性を秘めています。コードとモデルは GitHub で公開されています。

CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models