BD-Merging: Bias-Aware Dynamic Model Merging with Evidence-Guided Contrastive Learning

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover costruire un super-eroe capace di fare tutto: guidare un'auto, riconoscere le nuvole, leggere i cartelli stradali e suonare il pianoforte.

Il Problema: La "Fusione" che va in tilt

Fino a poco tempo fa, per creare questo super-eroe, gli scienziati prendevano diversi esperti (uno per ogni compito) e cercavano di "fonderli" in un'unica persona. Questo si chiama Model Merging (Fusione di Modelli).

Il problema è che questi esperti sono stati addestrati in condizioni perfette (luce solare, strade pulite, silenzio). Ma quando il super-eroe deve lavorare nel mondo reale, le cose cambiano:

C'è la nebbia (distorsione dei dati).
C'è rumore di fondo (errori nei sensori).
Si trova davanti a compiti che non ha mai visto prima.

Quando succede questo, la fusione fallisce. Gli esperti iniziano a litigare tra loro, confondendosi e dando risposte sbagliate. È come se un gruppo di chef, abituati a cucinare in cucine perfette, venisse mandato a cucinare in un campo di battaglia: il risultato sarebbe disastroso.

La Soluzione: BD-Merging (Il "Sarto Intelligente")

Gli autori di questo paper, Yuhan Xie e Chen Lyu, hanno creato BD-Merging. Immagina BD-Merging non come un semplice incollatore di modelli, ma come un sarto molto intelligente e consapevole dei pregiudizi.

Ecco come funziona, passo dopo passo, con delle metafore:

1. Il "Detective dell'Incertezza" (Joint Evidential Head)

Prima di prendere una decisione, il nostro super-eroe deve chiedersi: "Quanto sono sicuro di ciò che vedo?".
BD-Merging aggiunge un detective interno al modello. Questo detective non guarda solo l'immagine, ma analizza le "prove" (evidence) che ha raccolto.

Se l'immagine è chiara, il detective dice: "Ho molte prove, sono sicuro al 100%".
Se l'immagine è nebbiosa o distorta, il detective grida: "Attenzione! Le prove sono scarse, potrei sbagliare!".
Questo permette al sistema di sapere quando sta per commettere un errore a causa di dati "sporchi".

2. La "Squadra di Vicini" e il "Punteggio di Discordia" (ADS)

Immagina che il modello guardi un'immagine e cerchi i suoi "vicini" (altre immagini simili) per capire cosa fare.
BD-Merging introduce un Punteggio di Discordia (ADS).

Se il tuo "vicino" (un'immagine simile) è d'accordo con te e siete entrambi sicuri, il punteggio è basso: "Siamo nella stessa barca".
Se il vicino è confuso o se voi due state guardando cose diverse a causa del rumore, il punteggio di discordia sale: "C'è qualcosa che non va, stiamo guardando la stessa cosa in modo diverso!".

Questo punteggio aiuta a capire chi sta mentendo (a causa del rumore) e chi sta dicendo la verità.

3. Il "Filtro Anti-Inganno" (Contrastive Learning)

Una volta che il detective ha trovato le prove e il punteggio di discordia ha identificato i vicini confusi, entra in gioco la Contrastive Learning.
È come un allenatore di squadra che dice:

"Voi due che siete d'accordo e sicuri: avvicinatevi e unitevi!" (Rafforza le risposte corrette).
"Tu che sei confuso e in disaccordo con tutti: allontanati!" (Isola le risposte sbagliate causate dal rumore).

In questo modo, il modello impara a ignorare il "rumore" e a fidarsi solo delle informazioni affidabili.

4. Il "Manager Dinamico" (Debiased Router)

Infine, BD-Merging ha un Manager (chiamato Router) che decide, per ogni singola immagine, quanto ascoltare ogni esperto.

Se l'immagine è una strada con nebbia, il Manager dice: "Ascolta di più l'esperto di guida in condizioni difficili, ignora un po' l'esperto di musica".
Se l'immagine è un cartello stradale, dice: "Ascolta l'esperto di lettura".

Questo manager si adatta in tempo reale. Non usa una regola fissa per tutti, ma cambia strategia a seconda di quanto è "sporco" o difficile il compito.

Perché è importante?

Prima di BD-Merging, se provavi a usare un modello fuso in una situazione strana (come una foto sgranata o un compito nuovo), le prestazioni crollavano.
Con BD-Merging:

È più robusto: Resiste meglio al "rumore" e agli errori nei dati.
È più intelligente: Sa quando non è sicuro e si adatta.
È efficiente: Non serve addestrare tutto da capo, ma si riadatta velocemente.

In sintesi

BD-Merging è come dare a un gruppo di esperti un sistema nervoso centrale che:

Controlla se stanno vedendo bene le cose (Detective).
Rileva chi sta litigando o confondendosi (Punteggio di Discordia).
Allontana chi è confuso e unisce chi è sicuro (Allenatore).
Decide chi deve parlare di più in base alla situazione (Manager).

Il risultato è un sistema che, anche quando il mondo diventa caotico e imprevedibile, continua a funzionare bene, mantenendo la sua promessa di essere un vero "super-eroe" multi-compito.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Affidabilità del Model Merging sotto Shift di Distribuzione

Il Model Merging (MM) è diventato un paradigma scalabile per l'apprendimento multi-task (MTL), permettendo di integrare modelli specifici per task senza accedere ai dati originali di addestramento. Tuttavia, la maggior parte dei metodi esistenti si basa sull'assunzione irrealistica che i dati di test siano puliti e allineati distribuzionalmente con le fonti di addestramento.

In scenari reali, i dati di test sono spesso soggetti a shift di distribuzione, che si manifestano in due forme critiche:

Bias al momento del test (Test-time bias): Corruzioni naturali (rumore del sensore, distorsioni di trasmissione) ed eterogeneità specifiche del dominio che spostano gli input rispetto alla distribuzione di merging.
Generalizzazione a task non visti: Discrepanze inter-task quando il modello fuso incontra domini o task non rappresentati durante il processo di merging.

Questi fattori portano a previsioni biasate, ridotta robustezza e una scarsa capacità di generalizzazione, limitando l'efficacia delle strategie di merging attuali.

2. Metodologia: BD-Merging

Gli autori propongono BD-Merging, un framework di merging non supervisionato e consapevole del bias (bias-aware) che adatta dinamicamente il comportamento del modello al momento del test. Il metodo si basa su tre pilastri fondamentali:

A. Testa Evidenziale Congiunta (Joint Evidential Head)

Per modellare l'incertezza e catturare le dipendenze semantiche tra task, BD-Merging integra una testa evidenziale congiunta in un backbone pre-addestrato.

Utilizza l'Evidential Deep Learning (EDL) basata sulla distribuzione Dirichlet.
Invece di produrre solo probabilità, il modello stima l'evidenza per ogni classe, permettendo di quantificare l'incertezza epistemica.
Viene introdotta una Contrasto Evidenziale Inter-classe (IEC) per integrare le dipendenze semantiche tra classi e la competizione tra di esse, migliorando la stima dell'incertezza.
L'addestramento della testa combina una perdita basata sull'entropia (non supervisionata) e una perdita di correlazione inversa per allineare l'incertezza con la certezza della previsione.

B. Punteggio di Discrepanza di Adiacenza (Adjacency Discrepancy Score - ADS)

Sulla base delle uscite evidenziali, viene definito l'ADS per quantificare l'allineamento tra campioni vicini nello spazio delle caratteristiche. L'ADS valuta tre fattori complementari per ogni campione $x_i$ :

Sharpness (Nitidezza): La concentrazione dell'evidenza nel vicinato (forza epistemica).
Semantic Divergence (Divergenza Semantica): La deviazione distribuzionale tra il campione target e i suoi vicini.
Opinion Conflicts (Conflitti di Opinione): Il disaccordo tra le credenze (belief) del campione e un vicino specifico, pesato sulla fiducia reciproca.
L'ADS ( $d_{ik}$ ) è il prodotto di questi tre componenti e serve a identificare campioni affidabili rispetto a quelli corrotti o fuori distribuzione (OOD).

C. Merging Contrastivo Consapevole della Discrepanza e Router De-biasato

Guidato dall'ADS, il framework implementa un meccanismo di apprendimento contrastivo e un router adattivo:

Contrasto Consapevole della Discrepanza: L'ADS viene utilizzato per partizionare dinamicamente i vicini di un campione in un insieme positivo (bassa discrepanza, affidabile) e un insieme negativo (alta discrepanza, conflittuale). Una funzione di perdita contrastiva allinea i campioni coerenti e separa quelli conflittuali.
Router De-biasato: Un router (una rete neurale semplice) calcola pesi specifici per task o per layer per ogni campione di test. Questo router è addestrato per allocare dinamicamente i pesi dei task specifici ( $w_k$ ) in base alle caratteristiche dell'input, mitigando l'interferenza tra task e adattandosi allo shift di distribuzione.
Funzione di Perdita Totale: Combina un obiettivo non supervisionato (minimizzazione dell'entropia), la perdita contrastiva discrepante e la regolarizzazione per ottimizzare i pesi di merging.

3. Contributi Chiave

Ridefinizione della sfida: Identificazione esplicita delle sfide del "conflitto di conoscenze" e della "generalizzazione limitata" nel contesto dello shift di distribuzione al momento del test.
Framework BD-Merging: Introduzione di un nuovo framework che modella il bias a livello di campione tramite incertezza evidenziale, utilizzando una testa congiunta, l'ADS e un apprendimento contrastivo guidato.
Router Dinamico: Sviluppo di un router de-biasato che assegna pesi adattivi su base per-campione, permettendo una costruzione dinamica della conoscenza condivisa.
Risultati Sperimentali: Dimostrazione empirica che BD-Merging supera gli stati dell'arte (SOTA) in termini di robustezza e generalizzazione.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su 8 dataset di classificazione di immagini (es. SUN397, Cars, MNIST) con backbone ViT, simulando corruzioni realistiche (rumore, sfocatura, variazioni di luminosità, ecc.) e task non visti.

Robustezza al Bias: BD-Merging mostra una riduzione significativa del calo di prestazioni rispetto ai metodi SOTA (come Ties-Merging, AdaMerging, Task Arithmetic) quando i dati di test sono corrotti. Ad esempio, con corruzioni di livello medio (L2), BD-Merging perde solo il 9.6% di accuratezza in media, contro cali superiori al 13-15% per gli altri metodi.
Generalizzazione a Task Non Visti: Su task mai visti durante il merging, BD-Merging mantiene un'accuratezza media del 55.01%, superando significativamente AdaMerging (49.83%) e Twin-Merging (53.03%), dimostrando una migliore capacità di evitare l'overfitting sui pattern specifici dei task visti.
Efficienza Computazionale: Nonostante la complessità aggiuntiva del router e del calcolo evidenziale, BD-Merging offre un ottimo compromesso tra accuratezza e costo temporale, superando metodi come "AdaMerging w/Surgery" che richiedono un overhead computazionale molto più elevato per risultati inferiori.
Analisi del Router: La visualizzazione dei pesi del router mostra che il modello impara a distribuire dinamicamente l'attenzione sui task rilevanti per ogni campione, confermando la sua capacità di adattamento.

5. Significato e Impatto

BD-Merging rappresenta un passo avanti significativo verso il deployment reale dei modelli di Merging. Risolvendo il problema critico della sensibilità allo shift di distribuzione, il metodo rende il merging di modelli più sicuro e affidabile in ambienti non controllati (es. veicoli autonomi, diagnostica medica, sistemi di raccomandazione) dove i dati di test possono differire drasticamente dai dati di addestramento.

La capacità di modellare l'incertezza a livello di campione e di adattare i pesi di merging dinamicamente offre una nuova direzione per l'integrazione di modelli senza la necessità di ri-addestramento costoso o accesso ai dati grezzi, bilanciando efficacemente la specializzazione del task e la generalizzazione cross-task.