CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models

Each language version is independently generated for its own context, not a direct translation.

🎨 De Kunst van het Snel Schilderen: CMT uitgelegd

Stel je voor dat je een kunstenaar bent die een prachtig landschap moet schilderen. Normaal gesproken gebruiken moderne AI's (zoals Diffusion-modellen) een methode die lijkt op het langzaam wegvegen van een wazig raam. Je begint met een volledig troebel raam en veegt er heel langzaam en voorzichtig stukjes af, stap voor stap, tot er een scherp beeld onder verschijnt.

Het probleem? Dit is trager dan een slak. Het kan honderden kleine veegbewegingen (stappen) kosten om één mooi plaatje te maken. Dat kost veel tijd en rekenkracht.

Om dit op te lossen, hebben wetenschappers een nieuw soort "snelschilder" bedacht, genaamd Flow Map-modellen. In plaats van stap voor stap te werken, leren ze het raam in één of twee grote veegbewegingen schoon te maken. Ze leren de "kortste weg" van het troebele begin naar het schone eind.

Maar hier zit de adder onder het gras: Het leren van deze snelle weg is extreem moeilijk en onstabiel. Het is alsof je iemand probeert te leren in één sprong van de grond naar de top van de Eiffeltoren te komen, zonder ooit een trap te hebben gezien. Ze vallen vaak, raken de weg kwijt, of het kost jaren om het te leren.

🚀 De Oplossing: CMT (Consistency Mid-Training)

De auteurs van dit paper introduceren een nieuwe methode genaamd CMT. Ze noemen dit "Mid-Training" (Midden-Training).

Om dit te begrijpen, gebruiken we een metafoor: Het Leren van een Bergtop.

De Oude Moeilijke Weg (Vanaf het begin):
Je probeert een klimmer te trainen om direct van de basis naar de top van de berg te springen. Omdat hij nog nooit is geklommen, weet hij niet waar de rotsen zitten. Hij valt constant, raakt in paniek en het duurt eeuwen voordat hij het kan.
De Bestaande "Goede" Weg (Pre-training):
Je hebt al een ervaren klimmer (een standaard AI) die de berg stap voor stap kan beklimmen. Je probeert je nieuwe klimmer te laten kijken naar de stappen van de ervaren klimmer. Maar de nieuwe klimmer moet nog steeds leren hoe hij die kleine stapjes kan samenvoegen tot één grote sprong. Dat blijft lastig en onstabiel.
De Nieuwe CMT-Weg (De "Mid-Training"):
Hier komt de genialiteit van CMT om de hoek kijken. Ze doen iets slims in het midden van het proces:
- Ze nemen de ervaren klimmer (de oude AI) en laten hem de berg beklimmen, maar ze slaan alle tussenliggende punten op.
- Ze trainen hun nieuwe klimmer niet om direct naar de top te springen, en ook niet om stapje voor stapje te klimmen.
- Ze trainen hem om elk willekeurig punt op het pad direct te verbinden met de top.
- Voorbeeld: Als de klimmer halverwege is, leert de AI: "Ah, als je hier bent, weet ik precies hoe je in één keer naar de top komt."

Dit is de Mid-Training. Het is een tussenstap die de AI een "kaart" geeft van de hele route, zonder dat ze de hele route zelf hoeven te lopen.

🌟 Waarom is dit zo geweldig?

De auteurs tonen aan dat deze methode drie grote voordelen heeft:

Stabiliteit: Omdat de AI een duidelijke kaart heeft van de route (de "trajecto-lijn"), raakt hij niet meer in de war. Hij weet precies waar hij heen moet. Geen meer die onzekerheid en het "wankelen" tijdens het leren.
Snelheid: Het leren gaat veel sneller. In plaats van jaren te trainen, duurt het nu een fractie van de tijd.
- Het cijfer: Ze zeggen dat ze tot 98% minder trainingsdata en rekenkracht nodig hebben dan de oude methoden om hetzelfde resultaat te bereiken.
Kwaliteit: De resultaten zijn niet alleen sneller, maar ook beter. Op bekende testkaarten (zoals CIFAR-10 en ImageNet) halen ze de allerbeste scores (SOTA) met slechts 1 of 2 "veegbewegingen" (stappen) om een plaatje te maken.

🛠️ Hoe werkt het in de praktijk?

Stel je voor dat je een nieuwe auto wilt leren rijden op een racecircuit.

Oude methode: Je zet de auto op het circuit en laat hem proberen de hele ronde in één keer te rijden. Hij crasht constant.
CMT-methode: Je laat eerst een professionele coureur (de oude AI) de ronde rijden. Je neemt de video op. Dan laat je de nieuwe coureur kijken naar de video, maar je vraagt hem: "Als je op punt A bent, hoe moet je dan direct naar punt Z (de finish) gaan?" Je herhaalt dit voor elk punt op het circuit.
Het resultaat: De nieuwe coureur leert de "geest" van de route. Als hij dan echt gaat racen, weet hij precies wat hij moet doen, zonder te hoeven nadenken over elke bocht. Hij rijdt soepel en snel.

🏁 Conclusie

Dit paper introduceert CMT als een nieuwe, slimme manier om AI's te leren om plaatjes in één of twee stappen te maken. In plaats van ze te laten worstelen met het hele proces, geven ze ze een tussenstap (Mid-Training) waarin ze leren hoe ze elk punt op de route direct naar het einddoel kunnen brengen.

Het resultaat? Een revolutie in snelheid en stabiliteit. Wat voorheen dagen duurde en gigantische rekenkracht kostte, kan nu in een fractie van de tijd, met minder energie en betere resultaten. Het is alsof we de AI's eindelijk de "kortste weg" hebben laten zien, in plaats van ze te laten dwalen.

Each language version is independently generated for its own context, not a direct translation.

Titel: CMT: Mid-Training voor Efficiënt Leren van Consistentie-, Mean Flow- en Flow Map-modellen

Publicatie: ICLR 2026
Auteurs: Zheyuan Hu, Chieh-Hsin Lai, Yuki Mitsufuji, Stefano Ermon (Sony AI & Stanford University)

1. Het Probleem

Diffusiemodellen zijn de hoeksteen van moderne generatieve modellering, maar hun praktische toepassing wordt beperkt door de hoge inferentielatentie. Het genereren van beelden vereist het oplossen van een Probability Flow Ordinary Differential Equation (PF-ODE) met veel iteratieve stappen.

Om dit op te lossen, zijn Flow Map-modellen (zoals Consistency Models (CM) en Mean Flow (MF)) ontwikkeld. Deze modellen leren direct de integratiekaart van de PF-ODE, waardoor ze beelden kunnen genereren in slechts één of twee stappen. Echter, het trainen van deze modellen blijft problematisch:

Instabiliteit: De trainingsdoelstellingen maken vaak gebruik van "stop-gradient" pseudo-doelen die afhangen van het netwerk zelf. Deze doelen verschuiven tijdens het trainen, wat leidt tot instabiele optimalisatie.
Hoge Kosten: Het trainen vereist enorme hoeveelheden data en GPU-tijd.
Onvoldoende Initialisatie: Het initialiseren van een flow map-model met gewichten van een reeds getraind diffusiemodel helpt, maar lost het fundamentele probleem niet op: diffusiemodellen leren infinitesimale bewegingen, terwijl flow map-modellen grote sprongen (long jumps) moeten leren. Deze mismatch maakt de initialisatie fragiel en vereist vaak handmatige heuristieken (zoals complexe tijdsweging en sampling-schema's) om convergentie te bereiken.

2. Methodologie: Consistency Mid-Training (CMT)

De auteurs introduceren CMT, een nieuw concept en een praktische methode die een lichtgewicht tussenstap ("mid-training") invoegt tussen de pre-training (diffusiemodel) en de uiteindelijke flow map post-training.

Het Kader:
De pipeline bestaat uit drie fasen:

Pre-Training: Een standaard diffusiemodel (of een bestaand flow map-model) wordt getraind om een deterministische ODE-solver te fungeren als "teacher".
Mid-Training (CMT): Dit is de kerninnovatie. In plaats van direct te springen naar het einddoel, leert het model in deze fase om punten langs een door de teacher gegenereerde trajectorie direct naar het schone eindpunt van datzelfde trajectorie te mappen.
- Voor Consistency Models (CM): Het model leert om elk punt $\hat{x}_{t_i}$ op een teacher-trajectorie (startend bij een prior $x_T$ ) direct te mappen naar het schone beeld $\hat{x}_{t_0}$ .
- Voor Mean Flow (MF): Het model leert de gemiddelde drift tussen twee punten op de trajectorie te voorspellen.
- Voordeel: De trainingsdoelen zijn hier vast en expliciet (geleverd door de teacher), in plaats van dynamische stop-gradient schattingen. Dit elimineert de noodzaak voor stop-gradients, complexe tijdsweging of handmatige annealing.
Post-Training: Het model, nu geinitialiseerd met de CMT-gewichten, wordt verder getraind als een standaard flow map-model (bijv. ECT of ECD). Omdat de initialisatie al "trajectorie-georiënteerd" is, convergeert deze fase veel sneller en stabieler.

Theoretische Basis:
De auteurs tonen aan dat CMT de gradiëntbias tussen het praktische trainingsdoel en het ideale "oracle"-doel (de ware flow map) aanzienlijk verkleint. Waar een diffusie-initialisatie extra bias introduceert door de mismatch tussen de PF-ODE-oplossing en de posterior-mean, biedt CMT een initieel punt dat al dicht bij de oracle ligt.

3. Belangrijkste Bijdragen

Conceptuele Doorbraak: Het introduceren van "mid-training" als een universele strategie voor flow map-modellen, geïntroduceerd als een brug tussen pre-training en post-training.
Stabiliteit en Efficiëntie: CMT vervangt fragiele heuristieken door een principieel, regressie-gebaseerd trainingsdoel met vaste labels. Dit resulteert in een veel stabieler trainingsproces.
Architectonische Onafhankelijkheid: De methode werkt voor zowel Consistency Models (gebaseerd op EDM) als Mean Flow (gebaseerd op Flow Matching) en is toepasbaar op pixel-ruimte en latent-ruimte modellen.
Open Source: Code en modellen zijn beschikbaar gesteld.

4. Experimentele Resultaten

CMT heeft state-of-the-art (SOTA) resultaten behaald op diverse benchmarks, vaak met een drastisch lagere trainingskost:

CIFAR-10: Bereikt een 2-staps FID van 1.97 (beter dan de teacher EDM met 35 stappen).
ImageNet 64×64: Bereikt een 2-staps FID van 1.32.
ImageNet 512×512: Bereikt een 2-staps FID van 1.84.
- Kostenefficiëntie: Dit resultaat wordt bereikt met 91,4% minder trainingskosten (GPU-uur en data) vergeleken met de beste bestaande methoden (zoals sCD).
ImageNet 256×256: Bereikt een 1-staps FID van 3.34 met ongeveer 50% minder totale trainingtijd vergeleken met Mean Flow getraind vanaf nul.
MS-COCO (Text-to-Image): Bereikt de beste FID met ongeveer 47% minder trainingsduur.

Vergelijking met Baselines:

CMT overtreft methoden zoals ECT, sCT, en sCD aanzienlijk in zowel kwaliteit als snelheid.
Zelfs met een zwakke teacher (een klein MF-model) presteert CMT beter dan het trainen van een groot model vanaf willekeurige initialisatie of met SiT-initialisatie.

5. Betekenis en Impact

Dit paper biedt een fundamentele oplossing voor de instabiliteit en hoge kosten van het trainen van few-step generatieve modellen.

Praktische Toepasbaarheid: Door de trainingskosten met tot 98% te reduceren, maakt CMT het trainen van hoogwaardige flow map-modellen haalbaar voor een bredere gemeenschap, zonder de noodzaak voor enorme compute-buffers.
Robuustheid: De methode verwijdert de afhankelijkheid van complexe, handmatige hyperparameter-tuning (zoals $\Delta t$ annealing en loss reweighting), wat de engineering van deze modellen vereenvoudigt.
Toekomst: CMT vestigt een nieuwe standaard voor het trainen van ODE-gebaseerde generatieve modellen en suggereert dat "mid-training" een veelbelovende richting is voor het optimaliseren van generatieve pijplijnen in het algemeen.

Kortom, CMT transformeert het trainen van flow map-modellen van een instabiel, duur en heuristisch proces naar een gestructureerd, efficiënt en principieel kader.

CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models

🎨 De Kunst van het Snel Schilderen: CMT uitgelegd

🚀 De Oplossing: CMT (Consistency Mid-Training)

🌟 Waarom is dit zo geweldig?

🛠️ Hoe werkt het in de praktijk?

🏁 Conclusie

Titel: CMT: Mid-Training voor Efficiënt Leren van Consistentie-, Mean Flow- en Flow Map-modellen

1. Het Probleem

2. Methodologie: Consistency Mid-Training (CMT)

3. Belangrijkste Bijdragen

4. Experimentele Resultaten

5. Betekenis en Impact

Meer zoals dit

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems