Revisiting Model Stitching In the Foundation Model Era

Each language version is independently generated for its own context, not a direct translation.

Titel: Het "Naaien" van AI-modellen: Hoe je twee slimme koppen kunt samenvoegen tot één superhersen

Stel je voor dat je twee verschillende experts hebt die allebei heel goed zijn in het begrijpen van beelden, maar op hun eigen manier.

Expert A (bijvoorbeeld DINOv2): Deze expert is als een kunstcriticus. Hij kijkt naar een foto en ziet direct de structuur, de vormen en de fijne details. Hij weet precies hoe een boom eruitziet, maar hij weet niet altijd wat de boom betekent in een zin.
Expert B (bijvoorbeeld SigLIP): Deze expert is als een vertaler. Hij is getraind met teksten en beelden. Hij ziet een foto van een hond en denkt direct: "Ah, dat is een hond, en hij loopt op het gras." Hij begrijpt de context en de taal, maar mist soms de fijne details van Expert A.

In de wereld van AI noemen we deze experts Vision Foundation Models (VFMs). Tot nu toe dachten onderzoekers dat je deze twee modellen niet zomaar bij elkaar kon plakken. Als je ze probeerde te combineren, werd het resultaat vaak slechter dan elk model apart. Het was alsof je een kunstcriticus en een vertaler probeerde te dwingen om met één hoofd te denken; ze raakten in de war.

De Grote Vraag: Kunnen we ze toch "naaien"?

De auteurs van dit paper stellen de vraag: Kunnen we het begin van Expert A (de eerste lagen van zijn hersenen) verbinden met het einde van Expert B (de laatste lagen), met een klein, slim tussenschakeltje ertussen?

Dit proces noemen ze "Model Stitching" (Modelnaaiwerk). Het idee is simpel: laat Expert A de basis leggen, en laat Expert B het verhaal afmaken. Maar hoe doe je dat zonder dat het hele systeem crasht?

De Oude Manier vs. De Nieuwe Manier

Vroeger probeerden onderzoekers dit op twee manieren, die vaak faalden:

De "Kijk eens naar mij"-methode: Ze probeerden de tussenlaag zo te trainen dat de uitkomst van Expert A leek op de tussenstap van Expert B. Dit werkte niet goed, omdat de "stap" die Expert A maakte, niet per se leidde tot het juiste eindresultaat bij Expert B.
De "Probeer het maar"-methode: Ze lieten het model gewoon een taak doen (zoals een hond herkennen) en hoopten dat het vanzelf zou leren. Dit werkte ook niet, vooral niet als je de verbinding te vroeg in het proces maakte. De signalen waren te zwak om de verbinding goed te leren.

Het Geheim: De "Twee-Stappen" Recept

De auteurs ontdekten een nieuwe, simpele manier om dit te laten werken. Ze noemen het een "Twee-Stappen Recept":

Stap 1: De "Doelwit-Oefening" (Final Feature Matching).
Stel je voor dat je een student wilt leren een complexe wiskundige som op te lossen. In plaats van alleen te kijken of hij de eerste stap goed doet, laat je hem eerst kijken naar het eindantwoord van een meester.
In de AI-wereld betekent dit: we trainen het kleine tussenschakeltje (de "naad") zodat de uitkomst van Expert A zo dicht mogelijk bij het eindresultaat van Expert B ligt. We kijken niet naar de tussenstappen, maar naar het einddoel. Dit zorgt ervoor dat de "naad" precies weet waar hij naartoe moet.
Stap 2: De "Praktijk-Oefening" (Task Loss Training).
Nu de naad weet waar hij naartoe moet, laten we hem de echte taak doen (bijvoorbeeld: "Is dit een hond of een kat?"). Omdat de naad al goed is opgeleid in Stap 1, leert hij nu razendsnel en wordt hij een supersterke schakel.

Het Resultaat: 1 + 1 = 3

Wat is het gevolg van deze nieuwe methode?

Het werkt: Je kunt nu heel betrouwbaar verschillende AI-modellen aan elkaar naaien, zelfs als ze op heel verschillende manieren zijn getraind.
Het wordt beter: Het samengestelde model is vaak beter dan de twee losse modellen. Het combineert de fijne details van de kunstcriticus met het taalbegrip van de vertaler. Het is alsof je een team hebt dat zowel de details ziet als de context begrijpt.
Het is slim: Soms is het samengestelde model zelfs slimmer dan de beste van de twee losse modellen.

De Toepassing: De "VFM Stitch Tree" (De Slimme Boom)

De auteurs gaan nog een stap verder. Stel je voor dat je een zeer slimme chatbot wilt bouwen die beelden en tekst begrijpt. Normaal gesproken moet je twee hele zware AI-modellen draaien, wat veel stroom en rekenkracht kost (alsof je twee grote vrachtwagens gebruikt om één pakket te bezorgen).

Met hun nieuwe methode kunnen ze een "Stitch Tree" (Naai-Boom) bouwen:

De stam van de boom (de eerste lagen) wordt gedeeld door alle modellen. Dit bespaart enorm veel rekenkracht.
De takken (de laatste lagen) blijven apart, zodat elk model zijn eigen specialiteit behoudt.

Dit betekent dat je nu kunt kiezen:

Wil je heel snel en zuinig? Dan gebruik je een korte boom (weinig extra takken, heel weinig extra kosten).
Wil je heel slim? Dan gebruik je een lange boom (meer takken, iets meer kosten, maar dan wel bijna alle voordelen van twee modellen).

Conclusie

Kortom: Dit paper laat zien dat we AI-modellen niet meer als gesloten dozen hoeven te zien. We kunnen ze als Lego-blokken behandelen. Met de juiste "naald en draad" (de nieuwe trainingsmethode) kunnen we de sterkste delen van verschillende modellen samenvoegen tot één krachtig, efficiënt en slim systeem. Het is een stap van "proberen te begrijpen" naar "praktisch bouwen" in de wereld van kunstmatige intelligentie.

Each language version is independently generated for its own context, not a direct translation.

Titel: Revisiting Model Stitching in the Foundation Model Era

Auteurs: Zheda Mai et al. (Ohio State University & Amazon)

1. Probleemstelling

In het tijdperk van Vision Foundation Models (VFMs) zoals CLIP, DINOv2 en SigLIP, worden modellen getraind op enorme, heterogene datasets met verschillende doelen (bijv. contrastief leren versus reconstructie) en modaliteiten (visueel-taal versus puur visueel).
De centrale vraag die dit onderzoek stelt is: Zijn deze heterogene VFMs "stitchable" (koppelbaar)?

Traditionele "model stitching" (het verbinden van de vroege lagen van een bronmodel met de latere lagen van een doelmodel via een lichte 'stitch-layer') is eerder succesvol gebleken bij kleine modellen getraind op dezelfde dataset. Echter, bij grote VFMs met verschillende trainingsparadigma's falen bestaande methoden vaak. De auteurs onderzoeken of het mogelijk is om de sterke punten van verschillende VFMs te combineren zonder de volledige kosten van het laden en verwerken van meerdere modellen, en hoe men de representaties van deze modellen het beste kan aligneren.

2. Methodologie

Het Stitching Protocol

De auteurs definiëren een gestandaardiseerd protocol waarbij:

Een bronmodel ( $f_\theta$ ) en een doelmodel ( $f_\phi$ ) worden gebruikt.
De parameters van beide modellen worden bevroren.
Alleen een lichte stitch-layer ( $S$ ) wordt getraind om de features van de bron (op laag $n$ ) te vertalen naar de features van het doel (op dezelfde laag $n$ ).
Het resultaat is een nieuw model: $F(x) = T^N_\phi \circ S \circ R^n_\theta(x)$ .

Analyse van Trainingsstrategieën

De auteurs evalueren drie benaderingen om de stitch-layer te trainen:

Layer Feature Matching (LFM): De stitch-layer wordt getraind om de features direct op het koppelingspunt (laag $n$ $n$ ) te matchen.
- Resultaat: Dit resulteert in lage fouten op het koppelingspunt, maar leidt vaak tot grote fouten in de uiteindelijke output, vooral bij ondiepe (shallow) koppelingspunten. De fouten accumuleren door de bevroren lagen van het doelmodel.
Task Loss Training (TLT): De stitch-layer wordt direct getraind op de downstream taak (bijv. cross-entropy voor classificatie).
- Resultaat: Dit werkt goed bij diepe koppelingspunten, maar faalt dramatisch bij ondiepe punten. De gradiënten moeten door vele bevroren lagen terugkeren, wat leidt tot een slecht geconditioneerd optimalisatieprobleem.
Final Feature Matching (FFM) + Tweestapsbenadering (De voorgestelde methode):
- Stap 1 (Pre-training): De stitch-layer wordt getraind om de uiteindelijke features (penultimate layer) van het stitch-model te matchen met die van het doelmodel. Dit is label-vrij.
- Stap 2 (Fine-tuning): De stitch-layer wordt vervolgens gefine-tuned met de downstream taak-loss.
- Redenering: FFM zorgt voor een goede initialisatie die de representatieve integriteit behoudt, waarna TLT de functionaliteit optimaliseert.

Validatie en Baselines

Om te bewijzen dat de verbeteringen komen door kennisfusie en niet alleen door extra capaciteit van de stitch-layer, introduceren de auteurs een "Self-Stitch" baseline. Hierbij wordt dezelfde stitch-layer toegevoegd aan een model dat alleen uit de bron- of alleen uit de doelarchitectuur bestaat (bijv. DINOv2 → DINOv2). Als het gekoppelde model (DINOv2 → SigLIP2) deze baselines overtreft, bewijst dit echte kennisfusie.

3. Belangrijkste Resultaten

Heterogene VFMs zijn stitchable: Met de juiste trainingsstrategie (FFM + TLT) kunnen modellen met verschillende trainingsdoelen, datasets en modaliteiten succesvol worden gekoppeld met een verwaarloosbaar verlies aan nauwkeurigheid, en vaak zelfs met winst.
De "Two-Stage" methode is cruciaal: Conventionele methoden (LFM of alleen TLT) falen, vooral bij ondiepe koppelingspunten. De combinatie van Final Feature Matching (voor initialisatie) en Task Loss Training (voor fine-tuning) levert consistent de beste resultaten op.
Complementaire Sterktes: Gekoppelde modellen presteren consistent beter dan hun "Self-Stitch" tegenhangers (bijv. +2.3% tot +2.6% op optimale lagen). Dit suggereert dat VFMs complementaire kennis hebben (bijv. DINOv2 voor structurele perceptie, SigLIP2 voor semantische uitlijning) die door stitching wordt samengevoegd.
Diepte maakt uit: Diepere koppelingspunten werken over het algemeen beter dan ondiepe, omdat vroege lagen vaak specifiek zijn voor het trainingsparadigma (bijv. tekst-gealigneerd vs. puur visueel), terwijl latere lagen meer overdraagbare representaties bevatten.
Architectuurkeuze: Een MLP (Multi-Layer Perceptron) als stitch-layer presteert over het algemeen beter dan een simpele lineaire laag of LoRA, waarschijnlijk omdat een zekere mate van "gecontroleerde mismatch" nodig is om complementaire informatie te fusioneren zonder de representaties perfect te kopiëren.

4. Toepassing: VFM Stitch Tree (VST)

Op basis van deze bevindingen stellen de auteurs de VFM Stitch Tree (VST) voor. Dit is een architectuur die:

De vroege lagen van meerdere VFMs deelt (shared backbone).
De latere, gespecialiseerde lagen behoudt voor elke specifieke VFM.
Deze takken verbindt via stitch-layers.

Efficiëntie vs. Prestaties:
In multimodale systemen (zoals Multimodal LLMs) die vaak meerdere VFMs gebruiken, leidt het draaien van alle modellen volledig tot lineaire rekentijd en geheugenkosten ( $k \times$ ). VST biedt een "knop" voor een afweging tussen nauwkeurigheid en latentie:

VST-22: Deelt 22 lagen, heeft slechts 1 gespecialiseerde laag extra. Kost slechts 4.3% extra resources, maar recupereert 45% van de prestatiewinst van het volledig draaien van twee VFMs.
VST-14: Deelt 14 lagen, heeft 9 gespecialiseerde lagen. Kost 39% extra resources, maar recupereert 84% van de prestatiewinst.

Dit maakt VST een krachtig instrument voor het dynamisch afstemmen van multimodale systemen op beschikbare rekenkracht.

5. Significantie en Bijdrage

Van Diagnose naar Praktijk: Model stitching wordt hier getransformeerd van een louter diagnostische tool om representaties te vergelijken, naar een praktische recept voor het integreren van complementaire sterke punten van VFMs.
Systematisch Protocol: Het paper biedt het eerste systematische kader voor het stitchen van grote, heterogene foundation models, inclusief de noodzaak van specifieke trainingsstrategieën (FFM).
Efficiëntie in Multimodale Systemen: De introductie van VST lost een concreet probleem op in de deploy van Multimodal LLMs: hoe meerdere visuele encoders te gebruiken zonder de inferentiekosten exponentieel te laten stijgen.
Kennisfusie: Het bewijst dat heterogene modellen niet alleen compatibel zijn, maar dat hun combinatie tot superieure prestaties kan leiden door het samenvoegen van verschillende soorten visuele en semantische kennis.

Kortom, dit werk toont aan dat we in het tijdperk van foundation models niet altijd nieuwe modellen hoeven te trainen, maar dat we bestaande, diverse modellen op een slimme, efficiënte manier kunnen "naaien" tot krachtigere en flexibeler systemen.

Revisiting Model Stitching In the Foundation Model Era

Titel: Revisiting Model Stitching in the Foundation Model Era

1. Probleemstelling

2. Methodologie

Het Stitching Protocol

Analyse van Trainingsstrategieën

Validatie en Baselines

3. Belangrijkste Resultaten

4. Toepassing: VFM Stitch Tree (VST)

5. Significantie en Bijdrage

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks