MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

Das Paper stellt MiniCPM-SALA vor, ein effizientes 9-Milliarden-Parameter-Modell, das durch die Hybridisierung von InfLLM-V2 und Lightning Attention sowie einen kostengünstigen Weitertrainierungsansatz Kontextlängen von bis zu 1 Million Token ermöglicht und dabei die Inferenzgeschwindigkeit im Vergleich zu herkömmlichen Full-Attention-Modellen um das 3,5-fache steigert.

MiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li, Xin Li, Yaohui Li, Yishan Li, Yuxuan Li, Biyuan Lin, Chuan Liu, Hezi Liu, Siyuan Liu, Hongya Lyu, Yinxu Pan, Shixin Ren, Xingyu Shen, Zhou Su, Haojun Sun, Yangang Sun, Zhen Leng Thai, Xin Tian, Rui Wang, Xiaorong Wang, Yudong Wang, Bo Wu, Xiaoyue Xu, Dong Xu, Shuaikang Xue, Jiawei Yang, Bowen Zhang, Jinqian Zhang, Letian Zhang, Shengnan Zhang, Xinyu Zhang, Xinyuan Zhang, Zhu Zhang, Hengyu Zhao, Jiacheng Zhao, Zhi Zheng, Jie Zhou, Zihan Zhou, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen riesigen Bibliothekskeller, der mit Millionen von Büchern gefüllt ist. Ein herkömmlicher KI-Modell (wie ein normaler Bibliothekar) versucht, jedes Buch zu lesen, um eine Frage zu beantworten. Wenn der Keller klein ist, geht das schnell. Aber wenn der Keller so groß wird wie ein ganzer Kontinent (Millionen von Wörtern), wird dieser Bibliothekar wahnsinnig langsam. Er muss durch jeden einzelnen Gang laufen, um die Informationen zu finden, und er braucht einen riesigen Schreibtisch, um sich alle Notizen gleichzeitig aufzuschreiben. Das kostet enorm viel Zeit und Platz (Rechenleistung und Speicher).

Das ist das Problem, das MiniCPM-SALA lösen soll. Hier ist die einfache Erklärung, wie sie es geschafft haben:

1. Das Problem: Der "Alles-lesen"-Ansatz ist zu teuer

Herkömmliche KIs nutzen eine Technik namens "Full Attention". Das ist wie ein Bibliothekar, der jedes Buch im Keller gleichzeitig aufschlägt, um den Zusammenhang zu verstehen. Bei kurzen Geschichten ist das super. Bei einem Roman mit 1 Million Seiten (oder einem ganzen Code-Projekt) bricht der Bibliothekar unter der Last zusammen. Er braucht einen Schreibtisch, der so groß ist wie ein Fußballfeld, nur um die Notizen zu halten.

2. Die Lösung: Ein hybrides Team (SALA)

Die Forscher von MiniCPM-SALA haben eine clevere Mischung aus zwei verschiedenen Bibliothekstypen erfunden. Sie nennen es SALA (Sparse + Linear Attention).

Stellen Sie sich das Modell als ein Team von zwei Arten von Bibliothekaren vor, die zusammenarbeiten:

  • Der "Lineare" Bibliothekar (75% des Teams):
    Dieser Typ ist extrem effizient. Er liest nicht jedes Buch einzeln. Stattdessen fasst er den Inhalt zusammen, wie ein erfahrener Reporter, der eine ganze Woche Nachrichten in einem einzigen Satz zusammenfasst.

    • Vorteil: Er braucht kaum Platz auf dem Schreibtisch und ist blitzschnell, egal wie viele Bücher da sind.
    • Nachteil: Er vergisst manchmal kleine Details, weil er zu sehr zusammenfasst.
  • Der "Spärliche" Bibliothekar (25% des Teams):
    Dieser Typ ist ein Detektiv. Er ignoriert den ganzen Lärm und konzentriert sich nur auf die wichtigsten, auffälligsten Stellen in den Büchern (die "wichtigen Sätze").

    • Vorteil: Er findet die genauen Details und Zusammenhänge, die der erste Typ vielleicht übersehen hat.
    • Nachteil: Er ist etwas langsamer und braucht mehr Platz, aber nur für die wichtigen Teile.

Das Geniale: MiniCPM-SALA mischt diese beiden im Verhältnis 3 zu 1. Der effiziente Typ macht den Großteil der Arbeit, damit das System schnell bleibt. Der Detektiv-Typ springt an, um sicherzustellen, dass keine wichtigen Details verloren gehen. So bekommen Sie die Geschwindigkeit des einen und die Genauigkeit des anderen.

3. Der Trick beim Umbau: "Schulden statt Neubau"

Normalerweise müsste man ein solches System von Grund auf neu lernen lassen (wie einen neuen Bibliothekar ausbilden, der 10 Jahre studiert). Das kostet Unmengen an Geld und Zeit.

MiniCPM-SALA macht etwas Cleveres: Sie nehmen ein bereits fertiges, gut ausgebildetes Modell (MiniCPM-4.0) und schrauben es um.

  • Die Analogie: Statt ein neues Haus zu bauen, nehmen sie ein bestehendes, stabiles Haus und tauschen die Fenster und Türen gegen eine neue, effizientere Technik aus.
  • Das Ergebnis: Sie sparen etwa 75% der Kosten und Zeit, weil das Modell sein "Wissen" (die alten Bücher, die es schon kennt) behält, aber lernt, wie man mit dem neuen, effizienteren System arbeitet.

4. Was bringt das in der Praxis?

Die Ergebnisse sind beeindruckend, besonders für normale Computer (wie einen starken Gaming-PC oder eine einzelne Grafikkarte im Rechenzentrum):

  • Geschwindigkeit: Bei sehr langen Texten (z. B. 256.000 Wörter) ist MiniCPM-SALA bis zu 3,5-mal schneller als herkömmliche Modelle.
  • Platzsparend: Herkömmliche Modelle crashten (gingen kaputt), wenn sie versuchten, 1 Million Wörter auf einmal zu verarbeiten, weil der "Schreibtisch" (Speicher) voll war. MiniCPM-SALA schafft das mühelos, sogar auf einer einzigen Grafikkarte.
  • Qualität: Es vergisst nicht, was es gelernt hat. Es kann Mathe lösen, Code schreiben und Fragen beantworten, genau so gut wie die großen, schweren Modelle, aber viel schlanker.

Zusammenfassung

MiniCPM-SALA ist wie ein Super-Bibliothekars-Team, das gelernt hat, wie man in einer riesigen Bibliothek nicht durch jeden Gang rennt, sondern strategisch vorgeht. Es nutzt die Effizienz eines Zusammenfassers und die Präzision eines Detektivs, um auch auf normalen Computern riesige Mengen an Informationen (wie ganze Bücher oder Code-Bibliotheken) in Sekundenbruchteilen zu verstehen.

Das bedeutet für uns: Wir können bald KIs auf unseren eigenen Laptops laufen lassen, die ganze Bücher oder komplexe Projekte auf einmal verstehen, ohne dass der Computer in Rauch aufgeht.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →