MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un super-cervello digitale (un'intelligenza artificiale) capace di vedere immagini, guardare video e leggere testi. Questo cervello è fatto di milioni di "piccoli esperti" specializzati. Alcuni sono bravi a riconoscere i gatti, altri a capire la grammatica, altri ancora a interpretare le emozioni in un film.

Il problema è che questo cervello è molto lento e costoso da far funzionare. Ogni volta che gli fai una domanda, cerca di attivare tutti gli esperti contemporaneamente, anche quelli che non servono affatto per quella specifica domanda. È come se, per ordinare un caffè, chiamassi l'intero staff di un grande hotel: il cuoco, l'addetto alla piscina, il portiere e il direttore, solo per farne versare uno.

Il Problema: "Tutti allo stesso modo"

Fino ad ora, i ricercatori hanno provato a velocizzare questo cervello dicendo: "Ok, spegniamo il 50% degli esperti che sembrano meno utili". Ma c'era un grosso errore: trattavano tutti gli esperti e tutti i tipi di informazioni (testo e immagini) allo stesso modo.

È come se in un'orchestra, il direttore d'orchestra dicesse: "Spegniamo metà dei musicisti, ma non importa chi sono o cosa stanno suonando". Risultato? La musica diventa stonata e il cervello dell'IA fa errori stupidi.

La Soluzione: MoDES (Il Direttore d'Orchestra Intelligente)

Gli autori di questo paper hanno creato MoDES, un sistema che agisce come un direttore d'orchestra super-intelligente che sa esattamente chi far suonare e chi far riposare, in tempo reale.

MoDES funziona con due trucchi magici:

1. La "Mappa dell'Importanza Globale" (GMLG)

Immagina che il cervello dell'IA sia un edificio a più piani.

I piani bassi (gli strati iniziali) sono come le fondamenta: se sbagli qui, tutto il resto crolla. Qui servono tutti gli esperti, anche quelli che sembrano poco importanti.
I piani alti (gli strati finali) sono come l'attico: qui si possono fare più errori senza distruggere l'edificio. Qui si può essere più severi e spegnere molti esperti.

MoDES sa questo. Non guarda solo il singolo esperto, ma guarda dove si trova nell'edificio. Se sei al primo piano, non spegni nessuno. Se sei all'ultimo, spegni chi non serve.

2. La "Doppia Soglia" (DMT)

MoDES capisce che immagini e parole sono diverse.

Le parole (Testo): Sono come un codice preciso. Se sbagli una virgola, il senso cambia. Qui servono molti esperti attenti.
Le immagini (Visione): Sono più "flessibili". Se un esperto non riconosce perfettamente un albero, un altro può prenderne il posto senza che l'IA si confonda. Le immagini hanno più "ridondanza" (cioè, ci sono molti esperti che fanno la stessa cosa).

MoDES usa due regole diverse: una severa per le parole e una più rilassata per le immagini. È come avere due portieri diversi: uno molto attento per i documenti importanti e uno più disteso per le cartoline.

Il Risultato: Velocità senza perdere intelligenza

Grazie a questi trucchi, MoDES riesce a:

Spegnere fino all'88% degli esperti (quasi 9 su 10!) senza che l'IA perda la sua intelligenza.
Rendere tutto incredibilmente veloce: L'IA risponde due volte più velocemente nella fase di preparazione e un po' più veloce anche mentre scrive.

L'Analogia Finale: Il Ristorante

Immagina un ristorante di lusso (l'IA) con 100 chef.

Metodo vecchio: Per ogni piatto, il capocuoco chiama 10 chef a caso. Se il cliente vuole solo un'insalata, chiama anche lo chef del pesce e quello della pasta. È lento e costoso.
MoDES: Il capocuoco guarda l'ordine.
- Se è un'insalata (immagine), chiama solo 2 chef, perché gli altri 8 sono ridondanti per le verdure.
- Se è un piatto di pasta complesso (testo), chiama 5 chef esperti, perché ogni dettaglio conta.
- Inoltre, sa che i primi 5 chef della cucina sono fondamentali per la struttura del piatto, quindi non li manda mai a casa, mentre gli ultimi 5 possono essere sostituiti facilmente.

In sintesi: MoDES è come un manager che sa esattamente quando risparmiare energia senza sacrificare la qualità. Ha dimostrato che, con le giuste strategie, possiamo rendere le intelligenze artificiali multimodali (che vedono e pensano) molto più veloci ed economiche, senza che diventino "stupide".

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I Modelli Linguistici Multimodali (MLLM) basati sull'architettura Mixture-of-Experts (MoE) hanno dimostrato eccellenti prestazioni nei compiti visione-linguaggio. Tuttavia, affrontano significativi colli di bottiglia computazionali durante l'inferenza.
Sebbene l'architettura MoE disaccoppi la dimensione del modello dal costo computazionale attivando solo un sottoinsieme di "esperti" (reti neurali) per ogni token, l'utilizzo degli esperti rimane spesso subottimale. Metodi recenti di "expert skipping" (salto degli esperti) proposti per i LLM unimodali tentano di disattivare esperti ridondanti basandosi sulle probabilità di routing locali. Tuttavia, l'applicazione diretta di questi metodi agli MLLM porta a un degrado significativo delle prestazioni (fino al 10% o più).

Le cause principali di questo fallimento sono due fattori trascurati dai metodi precedenti:

Contributo Globale Disomogeneo: L'impatto degli esperti varia drasticamente tra i diversi livelli della rete. Gli esperti negli strati superficiali (shallow layers) sono critici per l'output finale, mentre errori negli strati profondi sono meno dannosi. I metodi esistenti ignorano questa gerarchia globale.
Divario tra Modalità (Modality Gap): I token di testo e quelli visivi si comportano diversamente quando attraversano gli strati Feed-Forward (FFN). Gli esperti hanno un impatto maggiore sull'aggiornamento dei token di testo rispetto a quelli visivi (che mostrano una maggiore ridondanza). I metodi unimodali non tengono conto di questa differenza.

2. Metodologia: MoDES

Per risolvere questi problemi, gli autori propongono MoDES (Multimodal Dynamic Expert Skipping), il primo framework senza riaddestramento (training-free) che adatta dinamicamente il salto degli esperti negli MLLM MoE. La metodologia si basa su due componenti chiave:

A. Globally-Modulated Local Gating (GMLG)

Per affrontare la disomogeneità tra i livelli, MoDES introduce un meccanismo che combina le probabilità di routing locali con un fattore di importanza globale calibrato offline.

Calibrazione Offline: Viene calcolato un fattore di importanza globale $\alpha^{(l)}$ per ogni livello $l$ , misurando la divergenza KL tra l'output del modello originale e quello di un modello in cui gli esperti di quel livello sono stati rimossi.
Punteggio di Importanza: Il punteggio finale per un esperto $i$ al livello $l$ è dato da $s^{(l)}_i = \alpha^{(l)} \cdot \pi^{(l)}_i$ , dove $\pi^{(l)}_i$ è la probabilità di routing locale. Questo permette di preservare gli esperti critici negli strati superficiali e saltare più aggressivamente quelli negli strati profondi.

B. Dual-Modality Thresholding (DMT)

Per gestire la differenza tra testo e visione, MoDES non utilizza una soglia unica, ma definisce due soglie distinte: $\tau_t$ per i token di testo e $\tau_v$ per i token visivi.

Gli esperti vengono saltati se il loro punteggio di importanza $s^{(l)}_i$ scende sotto la soglia corrispondente alla modalità del token corrente.
Questo approccio riconosce che i token visivi hanno una maggiore ridondanza e possono subire un salto più aggressivo rispetto ai token di testo.

C. Algoritmo di Ricerca "Frontier Search"

Per determinare le soglie ottimali ( $\tau_t, \tau_v$ ) che bilanciano efficienza e accuratezza, gli autori propongono un algoritmo di ricerca intelligente basato sulle proprietà di monotonia della perdita di prestazioni rispetto alle soglie.

Invece di una ricerca esaustiva (complessità $O(ND^2)$ ), l'algoritmo esplora solo il "frontiere" delle soluzioni ammissibili, riducendo la complessità a $O(ND)$.
Questo riduce il tempo di ricerca da diversi giorni a poche ore (circa 45 volte più veloce) senza compromettere le prestazioni.

3. Risultati Sperimentali

MoDES è stato valutato su 3 famiglie di modelli (Kimi-VL, Qwen3-VL-MoE, InternVL-3.5) e 13 benchmark (compresi task di comprensione di immagini e video).

Prestazioni Superiori: MoDES supera nettamente gli stati dell'arte (SOTA) come NAEE, MC-MoE e DiEP.
- Su Qwen3-VL-MoE-30B-A3B-Instruct, saltando l'88% degli esperti, MoDES mantiene il 97.33% dell'accuratezza originale, ottenendo un miglioramento del 10.67% rispetto ai metodi baselines (che crollano drasticamente).
- Su Kimi-VL, saltando l'83% degli esperti, MoDES mantiene il 96.25% di accuratezza, mentre i baselines perdono oltre il 10%.
Velocità di Inferenza:
- Prefilling: Accelerazione di 2.16×.
- Decoding: Accelerazione di 1.26×.
Compatibilità: Il metodo è altamente compatibile con la quantizzazione (es. 2.5-bit o 1.5-bit), mantenendo prestazioni superiori rispetto alla combinazione di quantizzazione e altri metodi di pruning.
Efficienza di Calibrazione: La fase di calibrazione e ricerca delle soglie richiede meno di 4 ore per modelli da 20-30 miliardi di parametri su 8 GPU H200.

4. Contributi Chiave

Analisi delle Cause di Fallimento: Identificazione del fatto che i metodi di salto esistenti falliscono negli MLLM perché ignorano il contributo globale per livello e le differenze comportamentali tra modalità (testo vs visione).
Framework Training-Free: Introduzione di MoDES, che non richiede riaddestramento del modello, rendendolo immediatamente applicabile a modelli MoE esistenti.
Meccanismi Innovativi: Sviluppo di GMLG per la ponderazione globale e DMT per la gestione specifica delle modalità.
Algoritmo di Ottimizzazione: Proposta di un algoritmo di "Frontier Search" che risolve efficientemente il problema di ottimizzazione delle soglie, rendendo la calibrazione pratica per modelli su larga scala.

5. Significato e Impatto

Il lavoro di MoDES è significativo perché risolve un collo di bottiglia critico nell'adozione pratica degli MLLM su larga scala. Dimostra che è possibile ottenere accelerazioni massive (fino a 2x nella fase di prefilling) senza sacrificare l'accuratezza, anzi, in alcuni casi migliorandola rimuovendo esperti ridondanti che interferiscono con l'inferenza.
La capacità di gestire dinamicamente le diverse modalità (testo e visione) apre la strada a strategie di compressione più sofisticate per i modelli multimodali, rendendo l'inferenza di modelli da decine di miliardi di parametri fattibile su hardware più accessibile e con latenze ridotte, fondamentale per applicazioni in tempo reale.