MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel slimme, maar nog jonge kunstenaar wilt opleiden. Deze kunstenaar (de AI) moet niet alleen foto's kunnen zien, maar ook begrijpen wat erop staat en erover kunnen praten. Dit noemen we een Multi-Modaal Groot Taalmodel (MLLM).

Het probleem is: hoe leer je deze kunstenaar het beste?

De saaie methode (SFT): Je geeft hem duizenden voorbeelden van "goede" antwoorden en zegt: "Doe precies dit na." Dit werkt stabiel, maar het is saai en de kunstenaar leert niet echt waarom iets goed is, hij plakt het alleen na.
De dure methode (RL): Je laat de kunstenaar gissen, en als hij het goed heeft, krijgt hij een beloning (een snoepje). Als hij het fout heeft, krijgt hij een tik op de vingers. Dit werkt goed, maar het kost enorm veel tijd, geld en energie, en soms raakt de kunstenaar in de war door de beloningen.

De auteurs van dit paper, MergeMix, zeggen: "Waarom kiezen we? Laten we de beste van beide werelden samenvoegen met een slim trucje."

Hier is hoe MergeMix werkt, vertaald naar alledaagse taal:

1. Het Kooktrucje: "Token Merge" (De Ingrediënten samenvoegen)

Stel je voor dat je twee verschillende gerechten hebt: een heerlijke pizza en een verse salade.

Oude methoden (zoals CutMix) doen alsof ze een scherp mes nemen en een stuk pizza eruit snijden en dat op de salade plakken. Dat ziet er vaak raar uit en je verliest de structuur van het gerecht.
MergeMix doet iets slimmers. Het kijkt eerst naar de ingrediënten en zegt: "Ah, de tomaten op de pizza lijken op de tomaten in de salade. Laten we die delen samenvoegen tot één groepje."

In de AI-taal noemen ze dit Token Merging. De AI kijkt naar de foto en groepeert vergelijkbare stukjes (zoals alle blauwe lucht of alle groene bomen) samen. Hierdoor wordt de foto "samengeperst" zonder dat belangrijke details verloren gaan. Het is alsof je een recept maakt waarbij je alleen de beste, meest essentiële smaken overhoudt en de rest weggooit.

2. Het Creatieve Kookboek: "Mixup" (Het nieuwe gerecht)

Nu hebben we die samengevoegde stukjes. MergeMix neemt twee verschillende foto's (bijvoorbeeld een panda en een hond) en maakt er een nieuwe, hybride foto van.

Maar hier is de truc: de AI weet precies hoeveel "panda" en hoeveel "hond" er in de nieuwe foto zit.
Als de nieuwe foto 60% panda is, dan leert de AI: "Oké, dit is een 'panda-dag', maar met een beetje hond erbij."

Dit is heel slim omdat het de AI dwingt om te begrijpen wat een panda écht is, zelfs als er rare dingen omheen gebeuren. Het is alsof je een kind leert een hond herkennen, zelfs als de hond een hoed op heeft of als er een stukje van de foto ontbreekt.

3. De Oefening: "Winnaar vs. Verliezer" (De voorkeurstest)

Dit is het meest creatieve deel. Stel je voor dat je de kunstenaar een test geeft:

De Winnaar: Een perfecte, schone foto van een panda.
De Verliezer: Diezelfde foto, maar dan gemengd met een hond (de "hybride" foto die we net maakten).

De kunstenaar moet nu zeggen: "De schone foto is beter dan de gemengde foto."

De slimme twist: De hoeveelheid "hond" in de gemengde foto bepaalt hoe zwaar de straf is. Als er heel veel hond in zit, is de gemengde foto een duidelijke "verliezer". Als er maar een klein beetje hond in zit, is het een "moeilijke verliezer".

De AI leert hierdoor niet alleen wat een panda is, maar ook hoe goed hij het weet. Hij leert om de "winnaar" (de goede foto) te prefereren boven de "verliezer" (de rommelige foto), en dat leert hij veel sneller en stabieler dan met de dure "beloning" methode.

Waarom is dit geweldig?

Efficiëntie: Omdat de AI eerst de foto "samenvoegt" (Token Merge), moet hij minder werk doen. Het is alsof je een boek samenvat tot de belangrijkste hoofdstukken voordat je het leest. Dit gaat veel sneller.
Stabiliteit: Het is niet zo'n wild experiment als de "beloning" methode. Het is een gestructureerde manier om fouten te maken en te leren.
Alles-in-één: Het werkt goed voor simpele taken (zoals "wat is dit?") én voor complexe taken (zoals "beschrijf dit beeld en leg uit waarom").

Kortom: MergeMix is als een slimme kok die twee recepten combineert, de beste ingrediënten selecteert, en de kok dan laat oefenen met het onderscheiden van het perfecte gerecht van het experimentele gerecht. Hierdoor wordt de AI slimmer, sneller en betrouwbaarder, zonder dat we een fortuin hoeven uit te geven aan dure computerrekenkracht.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Multimodale Large Language Models (MLLMs) vereisen doorgaans een afstemming op menselijke voorkeuren en specifieke taken na de vooraftraining. De huidige dominante methoden voor deze afstemming hebben elk aanzienlijke nadelen:

Supervised Fine-Tuning (SFT): Is stabiel maar vereist kostbare menselijke annotaties en mist vaak generalisatievermogen voor nieuwe taken omdat het alleen de waarschijnlijkheid van referentie-antwoorden maximaliseert zonder relatieve voorkeuren expliciet te modelleren.
Reinforcement Learning (RL) / RLHF: Is beter in het begrijpen van voorkeuren, maar lijdt onder hoge rekenkosten, instabiliteit tijdens training en de noodzaak van een extra reward-model dat bias kan introduceren.
Bestaande Augmentatiemethoden: Methoden zoals SeVa die proberen voorkeursparen te bouwen via augmentatie, gebruiken vaak willekeurige augmentaties (zoals RandomCrop) en kunnen de kwaliteit van het "verliezende" voorbeeld (de "loser") niet controleren. Dit leidt tot minder effectieve training, vooral bij visuele vraag-antwoordtaken.

Er is een behoefte aan een schaalbare, efficiënte en stabiele methode die de voordelen van SFT en RL combineert zonder hun respectievelijke nadelen.

Methodologie: MergeMix

MergeMix is een unificerend paradigma dat SFT en RL overbrugt door gebruik te maken van een efficiënte Token Merge-gebaseerde Mixup-augmentatie. De methode bestaat uit twee hoofdblokken:

1. Token Merge voor Contextuele Mixup

In plaats van willekeurige pixelmixing, gebruikt MergeMix de interne attention-mechanismen van Vision Transformers (ViT) om semantisch zinvolle gemengde beelden te genereren.

Token Merging (ToMe): Het model gebruikt een iteratief token-merging proces (gebaseerd op ToMe) om visuele tokens te samenvoegen op basis van hun similariteit. Dit creëert een gecondenseerde representatie en een bronkaart (source map) die de ruimtelijke relaties behoudt.
Bipartite Soft Matching (BSM): In plaats van een greedy Top-K selectie die ruimtelijke relaties verliest, gebruikt MergeMix BSM om tokens globaal te matchen. Dit zorgt voor een zachtere, meer evenwichtige aggregatie.
Attention Recovery: De gemengde attention-maps worden teruggeprojecteerd naar de originele resolutie om een binaire mask te genereren.
Label Rescaling: Een cruciale innovatie is de koppeling tussen de merge-ratio (hoeveel informatie is samengevoegd) en de mixing-ratio ( $\lambda$ ). De labels worden niet lineair gemixt, maar opnieuw geschaald op basis van de totale waarde van het gegenereerde masker. Dit zorgt ervoor dat de gemengde labels nauwkeurig overeenkomen met de inhoud van het gegenereerde gemengde beeld.

2. Unified Preference Paradigm voor MLLMs

MergeMix introduceert een voorkeur-gedreven trainingsparadigma dat de gap tussen SFT en RL dicht:

Voorkeursparen: Een schoon (raw) beeld wordt behandeld als de "Winner" (preferable response), terwijl het gegenereerde gemengde beeld (via MergeMix) fungeert als de "Loser" (non-preferred response).
Soft Preference Margin: De mixing-ratio $\lambda$ fungeert als een zachte voorkeursmarge. Een hogere $\lambda$ (meer overlap met het origineel) impliceert een moeilijker onderscheid en een lagere straffing, terwijl een lagere $\lambda$ een duidelijker onderscheid vereist.
Mixed SimPO Loss: Het model wordt geoptimaliseerd met een aangepaste versie van de SimPO (Simple Preference Optimization) loss. Deze loss combineert de standaard SFT-verliesfunctie met een ranking-verlies dat de voorkeur van het model voor de "Winner" boven de "Loser" maximaliseert, waarbij de $\lambda$ de strengheid van deze voorkeur aanpast.

Belangrijkste Bijdragen

Token Merge voor Mixup: De introductie van een lokale geclusterde attention-map via token merging om gemengde beelden te genereren met behoud van contextuele kenmerken, vergezeld van een label-rescaling strategie die de gemengde labels nauwkeurig afstemt op de gemengde data.
Unificatie van SFT en RL: Een nieuw trainingsparadigma voor MLLMs waarbij augmented samples als "losers" worden gebruikt en de mixing-ratio als een dynamische, zachte voorkeursbeloning. Dit elimineert de noodzaak voor een apart reward-model (zoals bij RLHF) terwijl het wel voorkeursgericht leren mogelijk maakt.
Efficiëntie en Stabiliteit: De methode biedt een stabielere en schaalbaarder alternatief voor RL, met een directe relatie tussen de augmentatie en het optimalisatieobject, wat leidt tot robuustere kalibratie.

Resultaten

Uitgebreide experimenten tonen aan dat MergeMix state-of-the-art prestaties levert in zowel klassieke beeldclassificatie als multimodale benchmarks:

Beeldclassificatie:
- Op CIFAR-100 behaalde MergeMix een Top-1 nauwkeurigheid van 78,68% (DeiT-Small), wat een verbetering is van +2,51% ten opzichte van de vorige best-performing methode (TransMix).
- Op Stanford-Cars (fine-grained) werd een nauwkeurigheid van 89,42% bereikt.
- Op ImageNet-1K behaalde het model 80,71% nauwkeurigheid met een hogere doorvoer (1591.66 TP/s) en lagere FLOPs (-0,68G) vergeleken met TransMix.
- Kalibratie: MergeMix toont de beste kalibratie (laagste Expected Calibration Error) onder alle mixup-methoden, wat betekent dat het model betrouwbaarder is in zijn voorspellingen.
MLLM Benchmarks:
- Op de LLaVA-benchmarks (o.a. VQAv2, GQA, MMBench) behaalde MergeMix een gemiddelde verbetering van +0,83% ten opzichte van de SFT-baseline, zelfs bij het reduceren van visuele tokens.
- Op de Qwen2.5-VL-Instruction benchmarks werd een gemiddelde verbetering van +2,88% behaald.
- De methode verbetert de generalisatie en afstemming op menselijke voorkeuren zonder de stabiliteit van SFT te verliezen.

Betekenis en Impact

MergeMix vertegenwoordigt een belangrijke stap in de ontwikkeling van efficiënte trainingsparadigma's voor multimodale systemen.

Paradigmaverschuiving: Het bewijst dat geavanceerde RL-methoden niet altijd noodzakelijk zijn voor effectieve voorkeursafstemming; klassieke augmentatietechnieken, wanneer slim geïntegreerd met token-merging en ranking-loss, kunnen een even krachtig maar veel efficiënter alternatief bieden.
Efficiëntie: Door gebruik te maken van token merging, reduceert de methode de rekenkosten en het geheugengebruik tijdens training en inferentie, terwijl het tegelijkertijd de kwaliteit van de data verhoogt.
Toekomstperspectief: Hoewel de methode momenteel beperkt is tot de visuele modus, opent het de deur voor toekomstig onderzoek naar het uitbreiden van mixup naar tekstuele modaliiteiten en het leren van de token-merging strategie zelf, wat kan leiden tot nog meer geavanceerde en schaalbare MLLM-training.

Kortom, MergeMix biedt een robuust, schaalbaar en computerefficiënt kader voor het trainen van zowel beeldclassificatiemodellen als geavanceerde multimodale taalmodellen.

MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

1. Het Kooktrucje: "Token Merge" (De Ingrediënten samenvoegen)

2. Het Creatieve Kookboek: "Mixup" (Het nieuwe gerecht)

3. De Oefening: "Winnaar vs. Verliezer" (De voorkeurstest)

Waarom is dit geweldig?

Probleemstelling

Methodologie: MergeMix

1. Token Merge voor Contextuele Mixup

2. Unified Preference Paradigm voor MLLMs

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation