CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models

Deze paper introduceert Consistency Mid-Training (CMT), een efficiënt en stabiel trainingskader dat een lichtgewicht tussenstap introduceert tussen pre-training en post-training om flow-map-modellen voor visuele generatie te optimaliseren, wat resulteert in state-of-the-art prestaties met aanzienlijk minder trainingsdata en rekentijd.

Zheyuan Hu, Chieh-Hsin Lai, Yuki Mitsufuji, Stefano Ermon

Gepubliceerd 2026-02-24
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🎨 De Kunst van het Snel Schilderen: CMT uitgelegd

Stel je voor dat je een kunstenaar bent die een prachtig landschap moet schilderen. Normaal gesproken gebruiken moderne AI's (zoals Diffusion-modellen) een methode die lijkt op het langzaam wegvegen van een wazig raam. Je begint met een volledig troebel raam en veegt er heel langzaam en voorzichtig stukjes af, stap voor stap, tot er een scherp beeld onder verschijnt.

Het probleem? Dit is trager dan een slak. Het kan honderden kleine veegbewegingen (stappen) kosten om één mooi plaatje te maken. Dat kost veel tijd en rekenkracht.

Om dit op te lossen, hebben wetenschappers een nieuw soort "snelschilder" bedacht, genaamd Flow Map-modellen. In plaats van stap voor stap te werken, leren ze het raam in één of twee grote veegbewegingen schoon te maken. Ze leren de "kortste weg" van het troebele begin naar het schone eind.

Maar hier zit de adder onder het gras: Het leren van deze snelle weg is extreem moeilijk en onstabiel. Het is alsof je iemand probeert te leren in één sprong van de grond naar de top van de Eiffeltoren te komen, zonder ooit een trap te hebben gezien. Ze vallen vaak, raken de weg kwijt, of het kost jaren om het te leren.

🚀 De Oplossing: CMT (Consistency Mid-Training)

De auteurs van dit paper introduceren een nieuwe methode genaamd CMT. Ze noemen dit "Mid-Training" (Midden-Training).

Om dit te begrijpen, gebruiken we een metafoor: Het Leren van een Bergtop.

  1. De Oude Moeilijke Weg (Vanaf het begin):
    Je probeert een klimmer te trainen om direct van de basis naar de top van de berg te springen. Omdat hij nog nooit is geklommen, weet hij niet waar de rotsen zitten. Hij valt constant, raakt in paniek en het duurt eeuwen voordat hij het kan.

  2. De Bestaande "Goede" Weg (Pre-training):
    Je hebt al een ervaren klimmer (een standaard AI) die de berg stap voor stap kan beklimmen. Je probeert je nieuwe klimmer te laten kijken naar de stappen van de ervaren klimmer. Maar de nieuwe klimmer moet nog steeds leren hoe hij die kleine stapjes kan samenvoegen tot één grote sprong. Dat blijft lastig en onstabiel.

  3. De Nieuwe CMT-Weg (De "Mid-Training"):
    Hier komt de genialiteit van CMT om de hoek kijken. Ze doen iets slims in het midden van het proces:

    • Ze nemen de ervaren klimmer (de oude AI) en laten hem de berg beklimmen, maar ze slaan alle tussenliggende punten op.
    • Ze trainen hun nieuwe klimmer niet om direct naar de top te springen, en ook niet om stapje voor stapje te klimmen.
    • Ze trainen hem om elk willekeurig punt op het pad direct te verbinden met de top.
    • Voorbeeld: Als de klimmer halverwege is, leert de AI: "Ah, als je hier bent, weet ik precies hoe je in één keer naar de top komt."

Dit is de Mid-Training. Het is een tussenstap die de AI een "kaart" geeft van de hele route, zonder dat ze de hele route zelf hoeven te lopen.

🌟 Waarom is dit zo geweldig?

De auteurs tonen aan dat deze methode drie grote voordelen heeft:

  • Stabiliteit: Omdat de AI een duidelijke kaart heeft van de route (de "trajecto-lijn"), raakt hij niet meer in de war. Hij weet precies waar hij heen moet. Geen meer die onzekerheid en het "wankelen" tijdens het leren.
  • Snelheid: Het leren gaat veel sneller. In plaats van jaren te trainen, duurt het nu een fractie van de tijd.
    • Het cijfer: Ze zeggen dat ze tot 98% minder trainingsdata en rekenkracht nodig hebben dan de oude methoden om hetzelfde resultaat te bereiken.
  • Kwaliteit: De resultaten zijn niet alleen sneller, maar ook beter. Op bekende testkaarten (zoals CIFAR-10 en ImageNet) halen ze de allerbeste scores (SOTA) met slechts 1 of 2 "veegbewegingen" (stappen) om een plaatje te maken.

🛠️ Hoe werkt het in de praktijk?

Stel je voor dat je een nieuwe auto wilt leren rijden op een racecircuit.

  • Oude methode: Je zet de auto op het circuit en laat hem proberen de hele ronde in één keer te rijden. Hij crasht constant.
  • CMT-methode: Je laat eerst een professionele coureur (de oude AI) de ronde rijden. Je neemt de video op. Dan laat je de nieuwe coureur kijken naar de video, maar je vraagt hem: "Als je op punt A bent, hoe moet je dan direct naar punt Z (de finish) gaan?" Je herhaalt dit voor elk punt op het circuit.
  • Het resultaat: De nieuwe coureur leert de "geest" van de route. Als hij dan echt gaat racen, weet hij precies wat hij moet doen, zonder te hoeven nadenken over elke bocht. Hij rijdt soepel en snel.

🏁 Conclusie

Dit paper introduceert CMT als een nieuwe, slimme manier om AI's te leren om plaatjes in één of twee stappen te maken. In plaats van ze te laten worstelen met het hele proces, geven ze ze een tussenstap (Mid-Training) waarin ze leren hoe ze elk punt op de route direct naar het einddoel kunnen brengen.

Het resultaat? Een revolutie in snelheid en stabiliteit. Wat voorheen dagen duurde en gigantische rekenkracht kostte, kan nu in een fractie van de tijd, met minder energie en betere resultaten. Het is alsof we de AI's eindelijk de "kortste weg" hebben laten zien, in plaats van ze te laten dwalen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →