MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

MiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li, Xin Li, Yaohui Li, Yishan Li, Yuxuan Li, Biyuan Lin, Chuan Liu, Hezi Liu, Siyuan Liu, Hongya Lyu, Yinxu Pan, Shixin Ren, Xingyu Shen, Zhou Su, Haojun Sun, Yangang Sun, Zhen Leng Thai, Xin Tian, Rui Wang, Xiaorong Wang, Yudong Wang, Bo Wu, Xiaoyue Xu, Dong Xu, Shuaikang Xue, Jiawei Yang, Bowen Zhang, Jinqian Zhang, Letian Zhang, Shengnan Zhang, Xinyu Zhang, Xinyuan Zhang, Zhu Zhang, Hengyu Zhao, Jiacheng Zhao, Zhi Zheng, Jie Zhou, Zihan Zhou, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun

Pubblicato 2026-03-03

📖 4 min di lettura☕ Lettura da pausa caffè

Vedi su arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

🌟 Il Problema: La "Fatica" dei Giganti Intelligenti

Immagina che i modelli di intelligenza artificiale (come quelli che scrivono testi o rispondono a domande) siano come studenti universitari geniali.
Fino a poco tempo fa, questi studenti erano bravi a leggere e riassumere un libro intero. Ma oggi, le applicazioni richiedono loro di leggere interi archivi di biblioteche, analizzare milioni di righe di codice o ricordare conversazioni durate giorni.

Il problema è che il metodo che usano per leggere (chiamato Transformer) è come se dovessero tenere a mente ogni singola parola letta finora per capire il contesto.

Il costo: Più parole leggono, più la loro "memoria" si riempie e più il loro cervello si stanca.
Il risultato: Se provano a leggere un milione di parole, il computer si blocca (si riempie la memoria) o impiega ore per rispondere. È come cercare di portare in spalla l'intera biblioteca per trovare un solo libro.

💡 La Soluzione: MiniCPM-SALA (L'Intelligenza Ibrida)

Gli autori di questo paper hanno creato un nuovo modello chiamato MiniCPM-SALA. Immaginalo non come uno studente che legge tutto parola per parola, ma come un detective esperto che usa due strategie diverse a seconda della situazione:

La "Lente d'Ingrandimento" (Attenzione Sparsa):
Quando il detective deve trovare un dettaglio cruciale in un documento lungo (come un nome specifico o una data), usa una lente d'ingrandimento. Guarda solo le parti importanti e ignora il resto. Questo gli permette di essere preciso e di non perdere i dettagli.
- Nel modello: Questa è la parte che garantisce che il modello non dimentichi le informazioni importanti.
Il "Sguardo d'Insieme" (Attenzione Lineare):
Quando il detective deve capire il flusso generale della storia o scorrere velocemente pagine e pagine, usa uno sguardo d'insieme. Non legge ogni singola parola, ma cattura l'essenza in modo molto veloce ed economico.
- Nel modello: Questa è la parte che rende il modello veloce e leggero, permettendogli di gestire testi lunghissimi senza scoppiare la memoria.

La Magia: MiniCPM-SALA mescola queste due strategie in un unico cervello. Usa la "lente d'ingrandimento" per il 25% del tempo (dove serve precisione) e lo "sguardo d'insieme" per il 75% del tempo (dove serve velocità). Il risultato? Un modello che è preciso come un umano ma veloce come una macchina.

🛠️ Come l'hanno costruito? (Il Trucco del Riciclaggio)

Di solito, per creare un modello del genere, dovresti costruirlo da zero, il che costa una fortuna in termini di elettricità e tempo (come costruire una casa partendo dai mattoni).

Gli autori hanno usato un metodo intelligente chiamato "Trasformazione":

Hanno preso un modello già addestrato e intelligente (come un architetto esperto).
Invece di ricostruirlo da zero, gli hanno fatto un "trapianto di organi": hanno sostituito gradualmente i suoi vecchi metodi di lettura con quelli nuovi (ibridi).
Risultato: Hanno risparmiato circa il 75% dei costi di addestramento. È come se avessero ristrutturato una casa esistente invece di costruirne una nuova, ottenendo lo stesso risultato con meno soldi.

🚀 I Risultati: Cosa può fare?

Ecco cosa rende MiniCPM-SALA speciale, con esempi pratici:

Legge "Mare" di informazioni: Può gestire contesti di 1 milione di token (immagina di leggere 10-20 libri interi in una sola volta).
Funziona su computer normali: La maggior parte dei modelli potenti ha bisogno di supercomputer giganti per leggere testi così lunghi. MiniCPM-SALA, invece, riesce a farlo anche su una scheda video da gaming (come una NVIDIA 5090) che potresti avere a casa.
Velocità: Su un computer potente, è 3,5 volte più veloce dei modelli tradizionali quando deve leggere testi lunghissimi.
Non si blocca: Mentre i modelli normali vanno in "crisi di memoria" (OOM - Out Of Memory) quando provano a leggere testi enormi, MiniCPM-SALA continua a lavorare senza problemi.

🎯 In Sintesi

MiniCPM-SALA è come un super-letto che ha imparato a leggere milioni di pagine senza mai stancarsi e senza bisogno di un computer grande quanto una stanza.

È intelligente (capisce bene i dettagli).
È efficiente (non spreca memoria).
È accessibile (può girare su hardware più economico).

Questo apre le porte a nuove applicazioni: dall'analizzare interi archivi legali in pochi secondi, al far parlare con un'IA che ha letto tutto il codice di un software aziendale, tutto senza bisogno di costosi data center. È un passo avanti verso un'intelligenza artificiale che può davvero "leggere il mondo" intero, non solo un paragrafo alla volta.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Colli di Bottiglia nei Contesti Ultra-Lunghi

L'evoluzione dei Large Language Models (LLM) verso applicazioni che richiedono contesti ultra-lunghi (milioni di token) si scontra con i limiti fondamentali dell'architettura Transformer standard basata sull'attenzione completa (Full Attention).

Complessità Computazionale: L'attenzione completa ha una complessità quadratica $O(N^2)$ rispetto alla lunghezza della sequenza $N$ . Questo rende l'inferenza estremamente lenta e costosa per contesti di milioni di token.
Collo di Bottiglia della Memoria (KV-Cache): Durante la generazione autoregressiva, il modello deve memorizzare gli stati Key e Value (KV) di tutti i token storici. Per modelli di dimensioni medie (es. 8B), la memoria necessaria per milioni di token può raggiungere centinaia di GB, causando errori di "Out-Of-Memory" (OOM) anche su GPU potenti.
Limiti delle Soluzioni Esistenti:
- Attenzione Sparsa: Riduce il calcolo ma richiede comunque la memorizzazione completa del KV-Cache ("calcolo sparso, memoria densa").
- Attenzione Lineare: Riduce la complessità a $O(N)$ e la memoria, ma spesso comporta una perdita di informazioni (compressione con perdita), degradando le prestazioni.

2. Metodologia: Architettura Ibrida e Strategia di Addestramento

Architettura Ibrida (Sparse + Linear)

MiniCPM-SALA è un modello da 9 miliardi di parametri che integra due meccanismi di attenzione complementari in un rapporto 1:3 (25% di attenzione sparsa, 75% di attenzione lineare):

25% Attenzione Sparsa (InfLLM-V2): Utilizzata per modellare le dipendenze a lungo raggio con alta fedeltà. InfLLM-V2 non aggiunge parametri e permette di recuperare informazioni contestuali precise senza la necessità di mantenere l'intero KV-Cache in memoria attiva per il calcolo, ma richiede comunque la memorizzazione.
75% Attenzione Lineare (Lightning Attention): Utilizzata per l'efficienza globale. Offre complessità computazionale e di memoria costanti ( $O(1)$ rispetto alla lunghezza) grazie a formulazioni ricorrenti, riducendo drasticamente l'overhead di inferenza.
Selezione degli Strati: Non si tratta di una mescolanza casuale. Viene utilizzato un algoritmo di selezione degli strati (basato su Chen et al., 2026) per posizionare strategicamente i moduli sparsi e lineari, ottimizzando le prestazioni a valle.
Codifica Positiva Ibrida (HyPE):
- Gli strati lineari usano RoPE (Rotary Positional Embedding) per mantenere la memoria sensibile alla posizione.
- Gli strati sparsi rimuovono RoPE per evitare il decadimento delle informazioni a lunga distanza, permettendo un richiamo più preciso su contesti estesi.
Altri Miglioramenti: Implementazione di QK-Normalization per stabilizzare l'addestramento e "Output Gates" per mitigare problemi come l'"attention sink".

Strategia di Addestramento: Da Transformer a Ibrido

Invece di addestrare da zero (che richiederebbe enormi risorse), il team utilizza un paradigma di Continual Training per convertire un modello Transformer pre-addestrato (MiniCPM-4.0) in un modello ibrido.

Efficienza dei Costi: Questo approccio riduce il costo di addestramento del 75% rispetto all'addestramento da zero, utilizzando circa il 25% dei token necessari per un training completo.
Fasi di Addestramento:
1. Conversione Architetturale (HALO): Trasformazione iniziale degli strati di attenzione da softmax a lineare, mantenendo gli strati iniziali e finali invariati per stabilità.
2. Continual Stable-Training: Adattamento dei pesi convertiti con sequenze corte (4K).
3. Short-Decay & Long-Decay Training: Addestramento su dati di alta qualità con sequenze che crescono progressivamente fino a 520K token, attivando gradualmente l'attenzione sparsa.
4. Supervised Fine-Tuning (SFT): Raffinamento su dati di ragionamento e contesti lunghi (fino a 140K token).

3. Risultati Chiave

Prestazioni Generali

MiniCPM-SALA mantiene capacità generali (conoscenza, matematica, coding) paragonabili ai modelli full-attention moderni come Qwen3-8B.
Punteggi medi: 76.53 su benchmark standard, con risultati eccellenti in coding (95.12 su HumanEval) e ragionamento matematico (83.75 su AIME24).

Capacità di Contesto Lungo

RULER Benchmark: A 128K token, MiniCPM-SALA ottiene 89.37, superando significativamente i baselines.
Estrapolazione Ultra-Lunga: Nonostante sia addestrato fino a 520K token, il modello estrapola con successo fino a 2 milioni di token (2M) mantenendo un punteggio di 81.6, senza bisogno di tecniche ausiliarie come YaRN.
Efficienza Parametrica: Supera le prestazioni del modello Qwen3-Next-80B (80B parametri) su contesti da 1M token (86.3 vs 80.3), dimostrando che l'efficienza non dipende solo dalla scala dei parametri.

Velocità di Inferenza e Memoria

Velocità: Su una singola GPU NVIDIA A6000D, MiniCPM-SALA è fino a 3.5 volte più veloce di Qwen3-8B a 256K token.
Gestione della Memoria:
- A6000D (96GB): MiniCPM-SALA gestisce contesti fino a 1M token, mentre Qwen3-8B fallisce (OOM) a 512K.
- RTX 5090 (32GB - GPU Consumer): MiniCPM-SALA gestisce fino a 1M token, mentre Qwen3-8B fallisce già a 128K (non quantizzato) o 256K (quantizzato).
Questo dimostra la fattibilità di eseguire inferenze su contesti ultra-lunghi su hardware consumer, democratizzando l'accesso a queste capacità.

4. Contributi Principali

Meccanismo di Attenzione Ibrido: Integrazione efficace di InfLLM-V2 (25%) e Lightning Attention (75%) per bilanciare precisione e throughput.
Paradigma di Conversione: Dimostrazione che la conversione da Transformer a modello ibrido tramite continual training è una strategia altamente efficiente, riducendo i costi di sviluppo del 75%.
Prestazioni su Hardware Edge: Capacità di gestire contesti di 1 milione di token su GPU consumer (es. RTX 5090), superando i limiti di memoria dei modelli full-attention.
Estrapolazione Senza Tecniche Esterni: Capacità di generalizzare a lunghezze di sequenza molto superiori a quelle di addestramento (da 520K a 2M) grazie alla configurazione NoPE negli strati sparsi.

5. Significato e Impatto

MiniCPM-SALA rappresenta un passo significativo verso l'adozione pratica di modelli LLM per applicazioni che richiedono la comprensione di interi repository di codice, manuali tecnici completi o collaborazioni uomo-AI di lunga durata. Risolvendo il compromesso tra efficienza computazionale e precisione, il modello offre una soluzione scalabile ed economica, rendendo l'elaborazione di contesti ultra-lunghi accessibile non solo nei data center, ma anche su dispositivi edge e GPU consumer, aprendo la strada a nuove applicazioni intensive di informazioni.