MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

MiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li, Xin Li, Yaohui Li, Yishan Li, Yuxuan Li, Biyuan Lin, Chuan Liu, Hezi Liu, Siyuan Liu, Hongya Lyu, Yinxu Pan, Shixin Ren, Xingyu Shen, Zhou Su, Haojun Sun, Yangang Sun, Zhen Leng Thai, Xin Tian, Rui Wang, Xiaorong Wang, Yudong Wang, Bo Wu, Xiaoyue Xu, Dong Xu, Shuaikang Xue, Jiawei Yang, Bowen Zhang, Jinqian Zhang, Letian Zhang, Shengnan Zhang, Xinyu Zhang, Xinyuan Zhang, Zhu Zhang, Hengyu Zhao, Jiacheng Zhao, Zhi Zheng, Jie Zhou, Zihan Zhou, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun

Gepubliceerd 2026-03-03

📖 4 min leestijd☕ Koffiepauze-leesvoer

Bekijk op arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek binnenstapt, niet met duizenden boeken, maar met miljoenen pagina's tekst. Je wilt er één specifiek feit in vinden, of een heel verhaal samenvatten.

Voor de meeste moderne AI-modellen (zoals de beroemde "Transformers") is dit een nachtmerrie. Ze werken als iemand die elke nieuwe zin die ze leest, elk woord uit het hele boek tot nu toe opnieuw moet lezen om de context te begrijpen.

Het probleem: Als het boek 100 pagina's heeft, is dat nog wel te doen. Maar als het 1 miljoen pagina's heeft? Dan wordt het rekenwerk zo zwaar dat de computer vastloopt, of de geheugenruimte (RAM) vol raakt. Het is alsof je probeert een heel zwembad leeg te scheppen met een theelepel.

Hier komt MiniCPM-SALA in beeld. Het is een slimme nieuwe manier om AI te bouwen die dit probleem oplost.

De "Hybride" Oplossing: Twee Gereedschappen in Eén

De onderzoekers van MiniCPM-SALA hebben een slimme truc bedacht. In plaats van één manier te gebruiken om te lezen, gebruiken ze een hybride systeem met twee verschillende "leesbrillen":

De "Schaar" (Sparse Attention):
- Hoe het werkt: Deze bril kijkt alleen naar de belangrijkste zinnen en woorden. Het negeert de rest.
- Vergelijking: Stel je voor dat je een lange speech luistert. Je luistert niet naar elke ademhaling, maar alleen naar de kernpunten. Dit is heel snel en spaart energie, maar je mist soms de fijne details als je alleen hierop vertrouwt.
- In het model: Dit wordt gebruikt voor 25% van de lagen. Het zorgt ervoor dat het model niet vastloopt bij enorme teksten.
De "Zwam" (Linear Attention):
- Hoe het werkt: Deze bril kan de hele tekst "opzuigen" en samenvatten in een compacte vorm. Het is extreem efficiënt en kan oneindig lang lezen zonder vast te lopen.
- Vergelijking: Het is alsof je een heel boek in één keer in je hoofd opslaat als een samenvatting. Je vergeet misschien de exacte woordkeuze, maar je onthoudt het verhaal perfect.
- In het model: Dit wordt gebruikt voor 75% van de lagen. Het zorgt voor de snelheid en het lage geheugengebruik.

De Magie: MiniCPM-SALA combineert deze twee. Het gebruikt de "Zwam" om de grote lijnen te houden en de "Schaar" om af en toe even scherp te kijken naar de details. Zo krijg je de snelheid van de zwam met de precisie van de schaar.

De Slimme "Renovatie" (Training)

Normaal gesproken bouw je zo'n model vanaf nul, wat duizenden dollars aan stroom en tijd kost. Dat is alsof je een nieuw huis bouwt terwijl je al een bestaand huis hebt.

MiniCPM-SALA doet het anders:

Ze nemen een bestaand, goed getraind model (MiniCPM-4.0).
Ze "renoveren" dit model. Ze vervangen de zware, trage onderdelen door de snelle hybride onderdelen.
Het resultaat: Ze hoeven het model niet opnieuw te leren, maar alleen aan te passen. Dit bespaart ongeveer 75% van de kosten en tijd. Het is alsof je een oude auto ombouwt tot een elektrische raceauto in plaats van een nieuwe fabriek te bouwen.

Wat kan het eigenlijk? (De Resultaten)

De tests tonen aan dat dit model een wonder is voor lange teksten:

Snelheid: Op een gewone krachtige computer (een NVIDIA A6000D) is het model 3,5 keer sneller dan de concurrenten als je een tekst van 256.000 woorden (ongeveer 500 pagina's) invoert.
Geheugen: Terwijl andere modellen bij 512.000 woorden "vastlopen" omdat hun geheugen vol zit (OOM-fout), kan MiniCPM-SALA moeiteloos doorgaan tot 1 miljoen woorden.
Op je eigen PC: Zelfs op een consumentenvideokaart (de RTX 5090) kan dit model teksten van 1 miljoen woorden verwerken. Andere modellen crashten hier al bij 128.000 woorden.

De Conclusie in Eén Zin

MiniCPM-SALA is als een slimme, energiezuinige robotbibliothecaris die niet alleen een heel groot boek in één keer kan lezen zonder moe te worden, maar ook nog precies weet waar de belangrijke zinnen staan, en dit allemaal doet op hardware die je misschien zelfs in je eigen huis hebt staan.

Het opent de deur voor AI-toepassingen die nu nog onmogelijk lijken: het analyseren van hele codebases, het samenvatten van jaren aan vergadernotities, of het begrijpen van complexe juridische dossiers, allemaal in één keer.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De evolutie van Large Language Models (LLMs) naar toepassingen met ultra-lange contexten (miljoenen tokens) wordt beperkt door de fundamentele architectuur van de Transformer. De standaard "full-attention" mechanisme kent twee kritieke knelpunten:

Rekenkundige complexiteit: De kosten groeien kwadratisch met de sequentielengte ( $O(N^2)$ ), wat leidt tot enorme latentie bij lange contexten.
Geheugenbottleneck (KV-Cache): Tijdens de autoregressieve generatie moeten alle historische sleutel- en waarden-toestanden (KV-Cache) worden opgeslagen. Voor een model van 8 miljard parameters kan de benodigde cache voor miljoenen tokens oplopen tot honderden gigabytes, wat vaak leidt tot "Out-Of-Memory" (OOM) fouten, zelfs op krachtige GPU's.

Bestaande oplossingen zoals Sparse Attention (rekenen alleen op relevante delen) en Linear Attention (reduces complexiteit naar $O(N)$ ) hebben elk hun eigen nadelen: Sparse Attention vereist nog steeds een volledige KV-Cache (dicht opslag), terwijl Linear Attention vaak leidt tot verlies van informatie en prestatiedalingen door verliesvolle compressie.

Methodologie

MiniCPM-SALA introduceert een hybride architectuur die de sterke punten van beide benaderingen combineert om ultra-lange sequenties efficiënt te modelleren.

1. Hybride Architectuur (Sparse + Linear)
Het model is een 9B-parameter model dat een mix van twee attention-mechanismen gebruikt in een 1:3 verhouding:

25% Sparse Attention (InfLLM-V2): Deze lagen zorgen voor hoge-fideliteit modellering van lange contexten en het vastleggen van lokale details. InfLLM-V2 wordt gekozen omdat het geen extra parameters introduceert en naadloos kan schakelen tussen dichte en sparse modi.
75% Linear Attention (Lightning Attention): Deze lagen zorgen voor globale reken-efficiëntie met lineaire complexiteit ( $O(N)$ ). Ze worden gebruikt voor de bredere contextverwerking.
Laagselectie: In plaats van willekeurig te mengen, wordt een algoritme gebruikt om te bepalen welke lagen welke attention-methode gebruiken, wat resulteert in betere downstream prestaties.

2. Hybride Positieve Encoding (HyPE)
Om de prestaties te balanceren tussen korte en lange contexten, wordt een hybride positieve encoding toegepast:

RoPE (Rotary Positional Embedding) wordt gebruikt in de linear attention lagen om relatieve volgorde te behouden.
Geen RoPE in de sparse attention lagen. Dit voorkomt de verval van lange-afstandsinformatie die vaak optreedt bij RoPE, waardoor precieze terugroepvermogen over zeer lange contexten mogelijk blijft.

3. Trainingsstrategie: "Transformer-to-Hybrid"
In plaats van het model vanaf nul te trainen (wat extreem duur is), gebruikt MiniCPM-SALA een continual training framework om een bestaand, voorgetraind Transformer-model (MiniCPM-4.0) om te zetten naar een hybride model.

Kostenefficiëntie: Deze aanpak verlaagt de trainingskosten met ongeveer 75% ten opzichte van training vanaf nul.
Fasen: Het proces omvat een architectuurconversie (HALO), gevolgd door stabiele training, korte en lange "decay" training (waarbij de contextlengte geleidelijk wordt opgevoerd tot 520K tokens), en tenslotte Supervised Fine-Tuning (SFT).

Belangrijkste Bijdragen

Hybride Mechanisme: De eerste grote schaal demonstratie dat een mix van 25% InfLLM-V2 en 75% Lightning Attention de prestaties van full-attention baselines kan evenaren, terwijl het de doorvoer en precisie in evenwicht houdt.
Efficiënte Conversie: Bewijs dat het omzetten van een bestaand Transformer-model naar een hybride model via continual training een zeer effectieve strategie is, waardoor de trainingsbudgetten drastisch worden verlaagd.
HyPE: Een nieuwe positieve encoding strategie die de nadelen van RoPE in lange contexten mitigeert zonder de voordelen van positiebewustzijn te verliezen.
Resource Savings: Het model behaalt aanzienlijke besparingen in geheugen en snelheid, waardoor inferentie op consumer-grade hardware mogelijk wordt voor contexten die voorheen onmogelijk waren.

Resultaten

De experimenten tonen aan dat MiniCPM-SALA zowel algemene capaciteiten als lange-context prestaties combineert:

Algemene Capaciteiten: Het model behaalt vergelijkbare scores met full-attention modellen (zoals Qwen3-8B) op benchmarks voor kennis (CMMLU), coderen (HumanEval, MBPP) en wiskunde (AIME). Er is geen significante degradatie in korte-context prestaties.
Lange Context (RULER, MRCR, NoLiMa): MiniCPM-SALA presteert aanzienlijk beter dan andere 8B/9B modellen op lange context benchmarks. Op de RULER benchmark bij 128K tokens scoort het 89.37, terwijl concurrenten vaak sterk dalen.
Ultra-Lange Context: Het model kan succesvol extrapoleren naar 1 miljoen tokens (1M), zelfs met een trainingslengte van slechts 520K. Het behoudt een score van 81.6 op 1M tokens, terwijl full-attention 8B-modellen hierbij vastlopen door OOM-fouten.
Inferentiesnelheid:
- Op een enkele NVIDIA A6000D GPU is MiniCPM-SALA tot 3.5x sneller dan Qwen3-8B bij een sequentielengte van 256K tokens.
- Op een NVIDIA RTX 5090 (consumer GPU) kan MiniCPM-SALA contexten van 1M tokens verwerken, terwijl Qwen3-8B al faalt bij 128K-256K tokens door geheugenbeperkingen.

Betekenis

MiniCPM-SALA biedt een schaalbare en toegankelijke oplossing voor de volgende generatie informatie-intensieve toepassingen. Door de combinatie van hoge efficiëntie en hoge prestaties, democratiseert het model de mogelijkheid om met ultra-lange contexten te werken op hardware die voorheen te beperkt was (zoals consumer GPUs). Het bewijst dat het niet nodig is om enorme parameteraantallen te gebruiken om lange contexten te verwerken; een slimme hybride architectuur en een kostenefficiënte trainingsstrategie volstaan om de beperkingen van de traditionele Transformer te overwinnen.

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

De "Hybride" Oplossing: Twee Gereedschappen in Eén

De Slimme "Renovatie" (Training)

Wat kan het eigenlijk? (De Resultaten)

De Conclusie in Eén Zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis

Meer zoals dit

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá

Enabling Intrinsic Reasoning over Dense Geospatial Embeddings with DFR-Gemma