Revisiting Model Stitching In the Foundation Model Era

Each language version is independently generated for its own context, not a direct translation.

Il Concetto di Base: Il "Cucito" di Due Modelli

Immagina di avere due cuochi esperti (i modelli di intelligenza artificiale chiamati Vision Foundation Models o VFM) che hanno imparato a cucinare in modi molto diversi:

Il Cuoco A (es. DINOv2): Ha studiato solo guardando milioni di foto di oggetti, imparando a riconoscere forme, texture e dettagli visivi perfetti, ma non sa parlare.
Il Cuoco B (es. SigLIP): Ha studiato guardando foto con le didascalie scritte sotto. Capisce bene il significato delle cose (es. "questa è una sedia per bambini"), ma forse è un po' meno preciso sui dettagli visivi fini.

Ora, immagina di voler creare un super-cuoco che abbia la precisione visiva del Cuoco A e la comprensione del Cuoco B. La domanda è: possiamo prendere le prime fasi di preparazione del Cuoco A (dove taglia le verdure) e collegarle alle fasi finali del Cuoco B (dove impasta e cuoce), inserendo un piccolo "ponte" nel mezzo?

Questo è il Model Stitching (Cucitura di Modelli). È come prendere la parte iniziale di un'auto sportiva e collegarla alla parte finale di un camion, con un piccolo adattatore in mezzo, sperando che l'auto finale guidi meglio di entrambe le originali.

Il Problema: Perché il "Cucito" Falliva Prima?

In passato, gli scienziati hanno provato a fare questo "cucito" in modo un po' ingenuo.

L'approccio sbagliato: Hanno provato a dire al ponte: "Fai in modo che l'immagine che esce da te sia identica a quella che il Cuoco B vedrebbe in quel momento".
Il risultato: Spesso non funzionava, specialmente se si collegavano le parti iniziali (i primi strati). Era come se il ponte cercasse di copiare la forma esatta di un ingrediente, ma quando il Cuoco B lo riceveva, non sapeva più come usarlo per il piatto finale. Il risultato era un disastro: il super-cuoco cucinava peggio di entrambi i cuochi originali.

La Soluzione: Il Trucco del "Ponte Intelligente"

Gli autori di questo studio hanno scoperto che il segreto non è copiare l'immagine nel mezzo, ma guardare il piatto finale.

Hanno inventato un nuovo metodo in due fasi:

Fase 1 (Allineamento Finale): Invece di dire al ponte "copia l'ingrediente a metà strada", dicono: "Guarda il piatto finito che il Cuoco B produce. Adatta il ponte in modo che, quando il Cuoco A passa gli ingredienti, il Cuoco B arrivi allo stesso identico risultato finale". È come dire al ponte: "Non preoccuparti di come sembri l'ingrediente ora, preoccupati solo che il risultato finale sia perfetto".
Fase 2 (Raffinamento): Una volta che il ponte sa come portare il Cuoco A al risultato del Cuoco B, lo si allena ancora un po' con la ricetta specifica (es. "devi riconoscere questo tipo di uccello").

Risultato: Funziona! I modelli "cuciti" non solo funzionano, ma spesso sono migliori di entrambi i cuochi originali presi singolarmente. Significa che i due cuochi avevano conoscenze complementari che, unite, creano qualcosa di nuovo e potente.

L'Innovazione: L'Albero di Cucitura (VFM Stitch Tree)

Qui arriva la parte più creativa e utile per il futuro.

Immagina di voler usare quattro cuochi diversi per creare un piatto perfetto. Normalmente, dovresti assumere tutti e quattro, pagarli tutti e farli lavorare tutti insieme. Questo costa tantissimo (tempo e denaro, o nel caso dell'AI, potenza di calcolo e memoria).

Gli autori propongono l'Albero di Cucitura (VFM Stitch Tree):

Invece di far lavorare tutti e quattro i cuochi dall'inizio alla fine, fai in modo che tutti usino la stessa cucina di base (i primi strati, dove si tagliano le verdure) per risparmiare.
Poi, solo alla fine, ognuno prende il suo percorso specifico per aggiungere il suo tocco unico.

L'analogia: È come se avessi un unico grande treno (la parte condivisa) che viaggia per 100 km. Poi, invece di avere 4 treni separati che partono da zero, il treno si divide in 4 rami diversi solo negli ultimi 10 km per andare a destinazioni diverse.

Risultato: Risparmi enormemente di carburante (potenza di calcolo) ma ottieni quasi tutti i benefici di avere 4 treni separati.

In Sintesi: Cosa Impariamo?

Sì, si può fare: Modelli di intelligenza artificiale diversi, addestrati in modi diversi, possono essere "cuciti" insieme per creare qualcosa di migliore.
Il metodo conta: Non basta incollarli a caso. Bisogna addestrare il "ponte" guardando il risultato finale, non il mezzo.
Risparmio intelligente: Possiamo costruire sistemi complessi che usano le migliori parti di molti modelli diversi, ma spendendo molta meno energia e memoria, rendendo l'AI più veloce ed economica.

In pratica, questo studio ci dice che non dobbiamo sempre costruire un nuovo "super-cuoco" da zero. Possiamo prendere i migliori pezzi dei cuochi esistenti, unirli con un po' di intelligenza, e ottenere risultati straordinari risparmiando risorse.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Nell'era dei Modelli Fondamentali (Foundation Models), le Vision Foundation Models (VFMs) come CLIP, DINOv2 e SigLIP sono state addestrate su dataset massicci ed eterogenei con obiettivi diversi (es. apprendimento auto-supervisionato vs. visione-linguaggio) e mix di modalità differenti.
La domanda centrale è: le rappresentazioni interne di VFMs eterogenee sono compatibili?
In particolare, è possibile connettere i primi strati di un modello "sorgente" agli strati successivi di un modello "target" tramite un leggero strato di cucitura (stitch layer) senza subire un crollo delle prestazioni?
Le ricerche precedenti su modelli piccoli (es. ResNet-18) addestrati sugli stessi dati suggerivano che sì, ma non era chiaro se questo valesse per i grandi modelli fondazionali moderni con architetture e dati di addestramento radicalmente diversi. Inoltre, le strategie di addestramento esistenti per lo strato di cucitura si sono rivelate inefficaci in questo nuovo contesto.

2. Metodologia

Gli autori hanno proposto un protocollo sistematico per valutare e migliorare lo "stitching" (cucitura) tra VFMs.

A. Formulazione del Problema

Dato un modello sorgente $f_\theta$ e un modello target $f_\phi$ , entrambi con $N$ strati, si crea un modello cucito $F$ connettendo gli strati $1 \dots n$ del sorgente agli strati $n+1 \dots N$ del target tramite uno strato di cucitura $S$ (trainabile). Tutti i pesi originali dei modelli sono congelati; solo $S$ viene addestrato.

B. Analisi delle Strategie di Addestramento Esistenti

Il paper valuta due approcci classici che si sono rivelati insufficienti per le VFMs, specialmente nei punti di cucitura superficiali (shallow stitch points):

Layer Feature Matching (LFM): Addestra $S$ per minimizzare la distanza delle feature intermedie al punto di cucitura. Risultato: ottiene una bassa distanza locale ma fallisce nell'allineare le feature finali, portando a un calo di accuratezza.
Task Loss Training (TLT): Addestra $S$ direttamente sulla loss del task downstream (es. cross-entropy). Risultato: fallisce drasticamente nei punti di cucitura superficiali a causa di un paesaggio di ottimizzazione mal condizionato (gradienti che devono attraversare molti strati congelati del target).

C. La Soluzione Proposta: Final Feature Matching (FFM) + Fine-tuning

Gli autori introducono una strategia di addestramento in due fasi:

Pre-addestramento con Final Feature Matching (FFM): Lo strato di cucitura viene addestrato per allineare le feature finali (penultimo strato) del modello cucito con quelle del modello target, utilizzando una loss di distanza L2. Questo risolve il problema dell'allineamento globale e fornisce una buona inizializzazione.
Fine-tuning con Task Loss: Successivamente, lo strato viene raffinato ottimizzando direttamente la loss del task downstream.

D. Validazione e Controllo

Per dimostrare che i guadagni derivano dalla fusione di conoscenze complementari e non solo dalla capacità aggiuntiva dello strato di cucitura, gli autori introducono il baseline Self-Stitch: inseriscono lo stesso strato di cucitura in un modello che viene cucito su se stesso (es. DINOv2 $\to$ DINOv2). Se il modello cucito eterogeneo supera il Self-Stitch, ciò prova la fusione di conoscenze.

E. Applicazione: VFM Stitch Tree (VST)

Sfruttando la stitchabilità, propongono l'architettura VFM Stitch Tree (VST) per i Modelli Linguistici Multimodali (MLLM). Invece di eseguire in parallelo encoder visivi multipli (costo computazionale lineare $k \times$ ), VST condivide gli strati iniziali comuni tra i modelli e mantiene solo i rami specializzati profondi, collegati da strati di cucitura.

3. Risultati Chiave

Stitchabilità Eterogenea: Le VFMs eterogenee (es. DINOv2 $\to$ SigLIP2) sono affidabilmente stitchabili se si utilizza la strategia di addestramento corretta (FFM + Task Loss).
Superiorità rispetto ai Baseline: I modelli cuciti superano costantemente i baseline Self-Stitch e i singoli modelli originali su task di classificazione (fMoW, iNaturalist, Aircraft) e segmentazione semantica (ADE20K).
- Esempio: Nel caso DINOv2 $\to$ SigLIP2, il modello cucito supera sia DINOv2 che SigLIP2 nel linear probing.
Fusione di Conoscenze Complementari: L'analisi degli errori mostra che il modello cucito "salva" le previsioni corrette di uno dei due modelli quando l'altro sbaglia (scenario Rescue), confermando che le rappresentazioni contengono informazioni complementari (es. struttura percettiva da DINOv2 e allineamento semantico da SigLIP2).
Efficienza con VST:
- In un sistema MLLM (es. LLaVA con CLIP e DINOv2), VST permette di recuperare fino all'84% del guadagno di prestazioni ottenuto eseguendo entrambi i modelli completi, ma con un sovraccarico computazionale di solo il 39%.
- Con una configurazione più leggera (condivisione di più strati), si ottiene il 45% del guadagno con un costo aggiuntivo di soli 4.3%.

4. Contributi Principali

Rivalutazione dello Stitching: Dimostrano che lo stitching non è più solo un probe diagnostico, ma una tecnica pratica per integrare modelli fondazionali, a patto di usare un protocollo di addestramento specifico (FFM).
Nuova Strategia di Addestramento: Identificano che l'allineamento delle feature finali (FFM) è cruciale per superare i fallimenti delle strategie tradizionali, specialmente per le cuciture superficiali.
VFM Stitch Tree (VST): Propongono un'architettura innovativa che offre un compromesso controllabile tra accuratezza e latenza per i sistemi multimodali, permettendo di "sintonizzare" l'uso di risorse computazionali in base alle esigenze.
Analisi Sistematica: Forniscono la prima analisi completa dello stitching su VFMs con diversi obiettivi, dataset e modalità, smentendo l'ipotesi che lo stitching funzioni solo per modelli addestrati in condizioni identiche.

5. Significato e Impatto

Questo lavoro eleva lo stitching da uno strumento puramente accademico per analizzare le rappresentazioni neurali a una ricetta pratica per l'ingegneria dei sistemi di intelligenza artificiale.

Integrazione Efficiente: Permette di combinare i punti di forza di modelli diversi (es. la robustezza strutturale di un modello auto-supervisionato e la comprensione semantica di un modello visione-linguaggio) senza raddoppiare i costi di inferenza.
Flessibilità Operativa: Il concetto di VST introduce un "knob" (manopola) computazionale, permettendo ai praticanti di adattare l'architettura alle restrizioni di risorse hardware reali, interpolando tra l'uso di un singolo modello e l'uso di un ensemble completo.
Futuro della Ricerca: Apre la strada a nuove ricerche su come comporre, riutilizzare e scalare i modelli fondazionali all'interno di sistemi multimodali complessi.