MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

MiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li, Xin Li, Yaohui Li, Yishan Li, Yuxuan Li, Biyuan Lin, Chuan Liu, Hezi Liu, Siyuan Liu, Hongya Lyu, Yinxu Pan, Shixin Ren, Xingyu Shen, Zhou Su, Haojun Sun, Yangang Sun, Zhen Leng Thai, Xin Tian, Rui Wang, Xiaorong Wang, Yudong Wang, Bo Wu, Xiaoyue Xu, Dong Xu, Shuaikang Xue, Jiawei Yang, Bowen Zhang, Jinqian Zhang, Letian Zhang, Shengnan Zhang, Xinyu Zhang, Xinyuan Zhang, Zhu Zhang, Hengyu Zhao, Jiacheng Zhao, Zhi Zheng, Jie Zhou, Zihan Zhou, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun

Veröffentlicht 2026-03-03

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ansehen auf arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen riesigen Bibliothekskeller, der mit Millionen von Büchern gefüllt ist. Ein herkömmlicher KI-Modell (wie ein normaler Bibliothekar) versucht, jedes Buch zu lesen, um eine Frage zu beantworten. Wenn der Keller klein ist, geht das schnell. Aber wenn der Keller so groß wird wie ein ganzer Kontinent (Millionen von Wörtern), wird dieser Bibliothekar wahnsinnig langsam. Er muss durch jeden einzelnen Gang laufen, um die Informationen zu finden, und er braucht einen riesigen Schreibtisch, um sich alle Notizen gleichzeitig aufzuschreiben. Das kostet enorm viel Zeit und Platz (Rechenleistung und Speicher).

Das ist das Problem, das MiniCPM-SALA lösen soll. Hier ist die einfache Erklärung, wie sie es geschafft haben:

1. Das Problem: Der "Alles-lesen"-Ansatz ist zu teuer

Herkömmliche KIs nutzen eine Technik namens "Full Attention". Das ist wie ein Bibliothekar, der jedes Buch im Keller gleichzeitig aufschlägt, um den Zusammenhang zu verstehen. Bei kurzen Geschichten ist das super. Bei einem Roman mit 1 Million Seiten (oder einem ganzen Code-Projekt) bricht der Bibliothekar unter der Last zusammen. Er braucht einen Schreibtisch, der so groß ist wie ein Fußballfeld, nur um die Notizen zu halten.

2. Die Lösung: Ein hybrides Team (SALA)

Die Forscher von MiniCPM-SALA haben eine clevere Mischung aus zwei verschiedenen Bibliothekstypen erfunden. Sie nennen es SALA (Sparse + Linear Attention).

Stellen Sie sich das Modell als ein Team von zwei Arten von Bibliothekaren vor, die zusammenarbeiten:

Der "Lineare" Bibliothekar (75% des Teams):
Dieser Typ ist extrem effizient. Er liest nicht jedes Buch einzeln. Stattdessen fasst er den Inhalt zusammen, wie ein erfahrener Reporter, der eine ganze Woche Nachrichten in einem einzigen Satz zusammenfasst.
- Vorteil: Er braucht kaum Platz auf dem Schreibtisch und ist blitzschnell, egal wie viele Bücher da sind.
- Nachteil: Er vergisst manchmal kleine Details, weil er zu sehr zusammenfasst.
Der "Spärliche" Bibliothekar (25% des Teams):
Dieser Typ ist ein Detektiv. Er ignoriert den ganzen Lärm und konzentriert sich nur auf die wichtigsten, auffälligsten Stellen in den Büchern (die "wichtigen Sätze").
- Vorteil: Er findet die genauen Details und Zusammenhänge, die der erste Typ vielleicht übersehen hat.
- Nachteil: Er ist etwas langsamer und braucht mehr Platz, aber nur für die wichtigen Teile.

Das Geniale: MiniCPM-SALA mischt diese beiden im Verhältnis 3 zu 1. Der effiziente Typ macht den Großteil der Arbeit, damit das System schnell bleibt. Der Detektiv-Typ springt an, um sicherzustellen, dass keine wichtigen Details verloren gehen. So bekommen Sie die Geschwindigkeit des einen und die Genauigkeit des anderen.

3. Der Trick beim Umbau: "Schulden statt Neubau"

Normalerweise müsste man ein solches System von Grund auf neu lernen lassen (wie einen neuen Bibliothekar ausbilden, der 10 Jahre studiert). Das kostet Unmengen an Geld und Zeit.

MiniCPM-SALA macht etwas Cleveres: Sie nehmen ein bereits fertiges, gut ausgebildetes Modell (MiniCPM-4.0) und schrauben es um.

Die Analogie: Statt ein neues Haus zu bauen, nehmen sie ein bestehendes, stabiles Haus und tauschen die Fenster und Türen gegen eine neue, effizientere Technik aus.
Das Ergebnis: Sie sparen etwa 75% der Kosten und Zeit, weil das Modell sein "Wissen" (die alten Bücher, die es schon kennt) behält, aber lernt, wie man mit dem neuen, effizienteren System arbeitet.

4. Was bringt das in der Praxis?

Die Ergebnisse sind beeindruckend, besonders für normale Computer (wie einen starken Gaming-PC oder eine einzelne Grafikkarte im Rechenzentrum):

Geschwindigkeit: Bei sehr langen Texten (z. B. 256.000 Wörter) ist MiniCPM-SALA bis zu 3,5-mal schneller als herkömmliche Modelle.
Platzsparend: Herkömmliche Modelle crashten (gingen kaputt), wenn sie versuchten, 1 Million Wörter auf einmal zu verarbeiten, weil der "Schreibtisch" (Speicher) voll war. MiniCPM-SALA schafft das mühelos, sogar auf einer einzigen Grafikkarte.
Qualität: Es vergisst nicht, was es gelernt hat. Es kann Mathe lösen, Code schreiben und Fragen beantworten, genau so gut wie die großen, schweren Modelle, aber viel schlanker.

Zusammenfassung

MiniCPM-SALA ist wie ein Super-Bibliothekars-Team, das gelernt hat, wie man in einer riesigen Bibliothek nicht durch jeden Gang rennt, sondern strategisch vorgeht. Es nutzt die Effizienz eines Zusammenfassers und die Präzision eines Detektivs, um auch auf normalen Computern riesige Mengen an Informationen (wie ganze Bücher oder Code-Bibliotheken) in Sekundenbruchteilen zu verstehen.

Das bedeutet für uns: Wir können bald KIs auf unseren eigenen Laptops laufen lassen, die ganze Bücher oder komplexe Projekte auf einmal verstehen, ohne dass der Computer in Rauch aufgeht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Weiterentwicklung von Large Language Models (LLMs) hin zu Anwendungen mit ultra-longen Kontexten (z. B. Analyse ganzer Code-Repositories, technische Handbücher oder mehrstufige Agenten-Interaktionen) stößt auf die fundamentalen Grenzen der klassischen Transformer-Architektur. Diese Architektur leidet unter zwei Hauptengpässen bei der Verarbeitung von Millionen von Tokens:

Rechenkomplexität: Der Standard-Attention-Mechanismus hat eine quadratische Komplexität von $O(N^2)$ , was bei langen Sequenzen zu extrem hohen Latenzzeiten führt.
Speicherbedarf (KV-Cache): Während der auto-regressiven Generierung müssen die Key- und Value-Zustände aller historischen Tokens gespeichert werden. Für Modelle mit ca. 8 Milliarden Parametern kann der KV-Cache bei Millionen von Tokens bereits Dutzende oder sogar Hunderte von Gigabyte an VRAM belegen, was auf handelsüblicher Hardware (und selbst auf High-End-GPUs) oft zu „Out-of-Memory" (OOM) Fehlern führt.

Bestehende Lösungen wie Sparse Attention (sparsame Berechnung, aber dichte Speicherung) oder Linear Attention (lineare Komplexität, aber verlustbehaftete Kompression) bieten jeweils nur Teilösungen und führen oft zu einem Kompromiss zwischen Effizienz und Modellleistung.

2. Methodik: MiniCPM-SALA

Das Paper stellt MiniCPM-SALA vor, ein hybrides 9-Milliarden-Parameter-Modell, das die Stärken von Sparse- und Linear-Attention kombiniert, um sowohl hohe Genauigkeit als auch extreme Effizienz zu erreichen.

Architektur-Hybridisierung

Das Modell nutzt eine spezifische Mischarchitektur im Verhältnis 1:3 (25 % Sparse Attention, 75 % Linear Attention):

Sparse Attention (25 % der Schichten): Es wird InfLLM-V2 verwendet. Dieser Ansatz bietet eine hochgenaue Modellierung von Langzeitabhängigkeiten ohne zusätzliche Parameter. Er ermöglicht den Zugriff auf relevante Informationen über den gesamten Kontext hinweg, behält aber die volle KV-Cache-Integrität für diese Schichten bei.
Linear Attention (75 % der Schichten): Es wird Lightning Attention eingesetzt. Dieser Mechanismus reduziert die Komplexität auf $O(N)$ durch rekursive Formulierungen, was den Speicherbedarf und die Rechenzeit drastisch senkt.
Schichtauswahl: Anstatt die Schichten zufällig zu mischen, wird ein Algorithmus zur Schichtauswahl (basierend auf Chen et al., 2026) verwendet, um die optimale Platzierung der Sparse-Schichten zu bestimmen.
HyPE (Hybrid Positional Encoding): Um die Vorteile beider Mechanismen zu harmonisieren, wird eine hybride Positions-Kodierung verwendet:
- Linear Attention-Schichten nutzen RoPE (Rotary Positional Embedding), um die relative Reihenfolge im globalen Kontext zu bewahren.
- Sparse Attention-Schichten verzichten auf RoPE, um das typische Abklingen (Decay) von Langzeitinformationen zu vermeiden und eine präzisere Abrufbarkeit über sehr große Distanzen zu gewährleisten.
Zusätzliche Verbesserungen: Einführung von QK-Normalisierung zur Stabilisierung der Aktivierungen und von Output Gates nach jedem Attention-Block, um Probleme wie den „Attention Sink" zu mildern.

Trainingsstrategie: Transformer-to-Hybrid

Ein zentraler Beitrag ist die effiziente Trainingsmethode, die ein vortrainiertes Transformer-Modell (MiniCPM-4.0) in ein hybrides Modell umwandelt, anstatt es von Grund auf neu zu trainieren.

Kostenersparnis: Dieser Ansatz reduziert den Trainingsaufwand um ca. 75 % im Vergleich zum Training von Null (nur ca. 25 % des Datenvolumens nötig).
Phasen des Trainings:
1. Architektur-Konversion (HALO): Umwandlung der Softmax-Attention in Linear-Attention bei gefrorenen Parametern (außer den neuen Schichten).
2. Continual Stable-Training: Anpassung der neuen Linear-Schichten an das bestehende Modell (4K Tokens).
3. Kurz-Decay-Training: Ausweitung des Wissens mit hochwertigen Daten (4K Tokens).
4. Lang-Decay-Training: Progressive Erhöhung der Kontextlänge (32K bis 520K Tokens) mit aktivierter Sparse-Attention, um die Synergie zwischen den Mechanismen zu lernen.
5. Supervised Fine-Tuning (SFT): Feinabstimmung auf Aufgaben wie Code, Mathematik und Reasoning mit Kontextlängen bis 140K.

3. Wichtige Ergebnisse

Allgemeine Fähigkeiten

MiniCPM-SALA (9B Parameter) erreicht auf Standard-Benchmarks (Wissen, Code, Mathematik) eine Leistung, die mit modernen Full-Attention-Modellen wie Qwen3-8B vergleichbar ist (durchschnittlicher Score: 76,53). Dies beweist, dass die Integration von Langzeit-Mechanismen die allgemeinen Fähigkeiten nicht beeinträchtigt.

Langkontext-Leistung

Benchmark-Ergebnisse: Auf dem RULER-Benchmark bei 128K Tokens erzielt das Modell 89,37 Punkte, was deutlich über den Ergebnissen anderer 8B/9B-Modelle liegt.
Ultra-Lange Kontexte: Das Modell zeigt eine bemerkenswerte Extrapolationsfähigkeit. Obwohl es nur bis 520K Tokens trainiert wurde, erreicht es bei 2048K (2 Millionen) Tokens noch einen Score von 81,6, ohne zusätzliche Techniken wie YaRN zu benötigen.
Vergleich: Bei 1000K Tokens übertrifft MiniCPM-SALA (9B) sogar das deutlich größere Qwen3-Next-80B-Modell (86,3 vs. 80,3 Punkte).

Inferenzgeschwindigkeit und Speichereffizienz

Die Tests auf einer NVIDIA A6000D und einer RTX 5090 zeigen drastische Vorteile:

Geschwindigkeit: Bei einer Sequenzlänge von 256K Tokens ist MiniCPM-SALA auf der A6000D bis zu 3,5-mal schneller als Qwen3-8B (TTFT: 51,6s vs. 180,8s).
Speicher: Während Qwen3-8B bei 512K Tokens (A6000D) oder bereits bei 128K Tokens (RTX 5090) aufgrund von OOM-Fehlern versagt, verarbeitet MiniCPM-SALA erfolgreich Kontexte von bis zu 1 Million Tokens auf beiden GPUs.
Edge-Computing: Das Modell ermöglicht ultra-lange Kontextverarbeitung auf Consumer-Hardware (RTX 5090), wo Full-Attention-Modelle unbrauchbar sind.

4. Bedeutung und Fazit

MiniCPM-SALA stellt einen Paradigmenwechsel dar, der zeigt, dass hybride Architekturen nicht nur effizienter, sondern auch leistungsfähiger sein können als reine Full-Attention-Modelle für Langkontext-Aufgaben.

Kosteneffizienz: Die „Transformer-to-Hybrid"-Methode macht die Entwicklung solcher Modelle deutlich zugänglicher, da sie nicht den enormen Ressourcenbedarf eines Trainings von Null erfordert.
Skalierbarkeit: Es demonstriert, dass Modelle mit moderater Parameterzahl (9B) durch intelligente Architekturdesigns (Sparse + Linear) Aufgaben bewältigen können, für die bisher massive Modelle (80B+) oder spezialisierte Hardware nötig waren.
Anwendbarkeit: Die Fähigkeit, 1-Million-Token-Kontexte auf einzelnen GPUs zu verarbeiten, öffnet Türen für neue Anwendungen in der Softwareentwicklung, juristischen Analyse und wissenschaftlichen Forschung, die bisher aufgrund von Speicher- und Latenzgrenzen nicht möglich waren.

Zusammenfassend bietet MiniCPM-SALA eine ausgewogene Lösung, die die „Memory Wall" durchbricht, ohne dabei an semantischer Präzision oder genereller Intelligenz einzubüßen.