MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

MiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li, Xin Li, Yaohui Li, Yishan Li, Yuxuan Li, Biyuan Lin, Chuan Liu, Hezi Liu, Siyuan Liu, Hongya Lyu, Yinxu Pan, Shixin Ren, Xingyu Shen, Zhou Su, Haojun Sun, Yangang Sun, Zhen Leng Thai, Xin Tian, Rui Wang, Xiaorong Wang, Yudong Wang, Bo Wu, Xiaoyue Xu, Dong Xu, Shuaikang Xue, Jiawei Yang, Bowen Zhang, Jinqian Zhang, Letian Zhang, Shengnan Zhang, Xinyu Zhang, Xinyuan Zhang, Zhu Zhang, Hengyu Zhao, Jiacheng Zhao, Zhi Zheng, Jie Zhou, Zihan Zhou, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun

Publié 2026-03-03

📖 4 min de lecture☕ Lecture pause café

Voir sur arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

🧠 MiniCPM-SALA : Le Super-Héros de la Mémoire à Long Terme

Imaginez que vous essayez de lire un livre de 1 million de pages d'un seul coup, tout en essayant de répondre à des questions précises sur n'importe quelle page, sans jamais oublier le début de l'histoire.

C'est le défi que posent les Intelligences Artificielles (IA) aujourd'hui. Les modèles actuels sont comme des étudiants brillants mais avec une mémoire très courte : ils peuvent lire un chapitre, mais s'ils doivent lire tout un roman, leur cerveau "explose" (trop de calculs) ou ils oublient tout (trop de place nécessaire pour se souvenir de tout).

Le papier présente MiniCPM-SALA, une nouvelle IA de 9 milliards de paramètres (une taille moyenne, pas un géant) qui résout ce problème grâce à une astuce géniale : elle mélange deux types de "mémoire".

🏗️ L'Analogie : Le Bureau de l'Archiviste

Pour comprendre comment ça marche, imaginons un immense bureau d'archives où l'IA travaille.

Le Problème (L'ancien système) :
Avant, l'IA utilisait une méthode appelée "Attention Complète". C'est comme si l'archiviste devait relire chaque page du livre pour chaque nouvelle phrase qu'il écrit.
- Résultat : Pour un livre court, c'est rapide. Mais pour un livre de 1 million de pages, l'archiviste met des jours à lire, et il a besoin d'une bibliothèque entière juste pour ranger ses notes (la mémoire). C'est trop cher et trop lent.
La Solution (Le mélange SALA) :
MiniCPM-SALA a décidé de changer d'organisation en utilisant deux types d'employés dans son équipe :
- Les "Détectives" (Attention Sparse) : Ils sont très précis. Ils se concentrent sur des détails spécifiques et se souviennent de tout ce qui est important, mais ils sont lents et chers à employer.
- Les "Balayeurs" (Attention Linéaire) : Ils sont ultra-rapides et peu coûteux. Ils peuvent parcourir 1 million de pages en une seconde, mais ils sont un peu flous sur les détails précis.
L'astuce de MiniCPM-SALA :
Au lieu de choisir l'un ou l'autre, l'équipe a créé un hybride.
- 25% des employés sont des "Détectives" (pour ne rien oublier d'important).
- 75% des employés sont des "Balayeurs" (pour aller vite et ne pas saturer le bureau).
C'est comme si vous aviez un chef d'orchestre qui utilise 3 violonistes rapides pour la musique de fond et 1 violoniste soliste pour les notes importantes. Le résultat ? Une symphonie parfaite, rapide et qui ne coûte pas cher.

🚀 Les Résultats Magiques

Grâce à ce mélange, l'IA MiniCPM-SALA fait des choses incroyables :

La Vitesse Éclair : Sur un ordinateur standard (comme une carte graphique de gamer), elle est 3,5 fois plus rapide que les meilleures IA actuelles quand on lui donne un texte très long. C'est comme passer d'une voiture de ville à un avion de chasse pour lire un livre.
La Mémoire Infinie : Là où les autres IA s'effondrent (le "crash" de mémoire) quand on leur donne un texte de 500 000 mots, MiniCPM-SALA continue de fonctionner jusqu'à 1 million de mots. Elle peut lire un livre entier, un code informatique géant ou des années de conversations, sans perdre le fil.
Pas de Perte de Qualité : Souvent, quand on rend une IA plus rapide, elle devient plus bête. Ici, non ! Elle reste aussi intelligente pour les maths, le code et le raisonnement que les modèles classiques.

🛠️ Comment l'ont-ils construite ? (L'astuce économique)

D'habitude, pour créer une telle IA, il faut la construire de zéro, ce qui coûte des millions de dollars en électricité et en temps.

L'équipe a utilisé une méthode intelligente : la transformation.
Imaginez que vous avez une voiture classique (un modèle IA existant). Au lieu d'acheter du métal pour en construire une nouvelle, ils ont pris la voiture existante et ont remplacé le moteur par un moteur hybride.

Ils ont pris un modèle déjà entraîné (MiniCPM-4.0).
Ils l'ont "rééduqué" (un entraînement continu) pour qu'il apprenne à utiliser ce nouveau système hybride.
Résultat : Ils ont économisé 75% du coût de construction par rapport à une création depuis zéro.

🌍 Pourquoi c'est important pour nous ?

Cela signifie que dans le futur, vous pourrez avoir une IA très intelligente sur votre propre ordinateur portable (ou même sur un téléphone puissant) capable de :

Analyser tous vos emails d'une année en une seconde.
Comprendre un projet de code informatique de toute une entreprise.
Aider à la recherche médicale en lisant des milliers d'articles scientifiques sans oublier un détail.

En résumé : MiniCPM-SALA est comme un super-lecteur qui a appris à lire vite sans oublier, en mélangeant deux techniques de lecture, le tout construit de manière économique pour que tout le monde puisse en profiter.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'évolution des modèles de langage (LLM) vers des applications nécessitant des contextes ultra-longu (millions de tokens) se heurte à deux goulots d'étranglement majeurs inhérents à l'architecture Transformer standard :

Complexité de calcul quadratique ( $O(N^2)$ ) : Le mécanisme d'attention complet (Full Attention) entraîne une latence d'inférence prohibitivement élevée lorsque la longueur de la séquence augmente.
Bottleneck mémoire (KV-Cache) : Le stockage des états clés et valeurs (KV) pour tous les tokens historiques consomme une mémoire énorme. Pour un modèle de 8 milliards de paramètres, gérer des contextes de plusieurs millions de tokens peut nécessiter des dizaines, voire des centaines de gigaoctets de VRAM, rendant l'inférence impossible sur du matériel standard (ex: échec du modèle Qwen3-8B au-delà de 512K tokens).

Les solutions existantes, comme les mécanismes d'attention parcimonieuse (Sparse) ou linéaire, présentent des compromis : l'attention parcimonieuse réduit le calcul mais conserve un coût mémoire élevé (stockage dense), tandis que l'attention linéaire offre une efficacité mémoire ( $O(N)$ ) mais au prix d'une perte de fidélité dans la modélisation des dépendances à long terme.

2. Méthodologie

MiniCPM-SALA propose une architecture hybride novatrice combinant les forces de l'attention parcimonieuse et de l'attention linéaire pour surmonter ces limites.

Architecture Hybride (Sparse + Linear)

Le modèle, d'une taille de 9 milliards de paramètres, utilise une architecture intercalée avec un ratio 1:3 :

25% des couches utilisent l'attention parcimonieuse (InfLLM-V2) : Cette méthode assure une modélisation haute fidélité des détails locaux et des dépendances à long terme sans ajouter de paramètres supplémentaires. Elle permet de récupérer des informations précises dans le contexte.
75% des couches utilisent l'attention linéaire (Lightning Attention) : Cette méthode offre une complexité computationnelle et mémoire constante ( $O(N)$ ), permettant un traitement global efficace des contextes ultra-longs.
Sélection de couches : Un algorithme de sélection de couches détermine l'emplacement optimal des couches parcimonieuses pour maximiser les performances en aval.
Encodage Positionnel Hybride (HyPE) :
- Les couches linéaires utilisent l'encodage positionnel rotatif (RoPE) pour maintenir la mémoire sensible à la position.
- Les couches parcimonieuses suppriment le RoPE pour éviter la dégradation de l'information à très longue distance, permettant une récupération plus précise sur des contextes étendus.
Portes de sortie (Output Gates) : Intégrées après chaque bloc d'attention pour réguler le flux d'information et atténuer le problème du "sink" (noyau d'attention), améliorant la stabilité.

Stratégie d'Entraînement : Transformer-to-Hybrid

Au lieu d'entraîner le modèle de zéro (coûteux), les auteurs utilisent une approche de transformation par entraînement continu :

Point de départ : Un checkpoint intermédiaire du modèle MiniCPM-4.0 (déjà entraîné sur 7T de tokens).
Conversion (HALO) : Transformation progressive de l'architecture dense en hybride. Seules les couches converties sont entraînées initialement.
Phases d'entraînement continu :
- Stable-Training : Coordination des nouvelles couches linéaires avec le reste du modèle (4K tokens).
- Short-Decay & Long-Decay : Augmentation progressive de la longueur de séquence (de 4K à 520K tokens) avec des données de haute qualité et synthétiques.
- Supervised Fine-Tuning (SFT) : Affinage sur des tâches de raisonnement et de dialogue, avec des contextes allant jusqu'à 140K tokens.

Efficacité : Cette méthode réduit le coût d'entraînement d'environ 75% par rapport à un entraînement de zéro (utilisant ~2T de tokens contre 8T nécessaires pour un entraînement complet).

3. Contributions Clés

Mécanisme d'attention hybride équilibré : Intégration réussie de 25% d'InfLLM-V2 et 75% de Lightning Attention, offrant un compromis optimal entre débit (throughput) et précision sémantique.
Paradigme "Transformer-to-Hybrid" : Démonstration que la conversion d'un modèle pré-entraîné en modèle hybride est une stratégie hautement efficace, réduisant drastiquement le budget de calcul tout en préservant les capacités générales.
Extrapolation de longueur sans techniques auxiliaires : Le modèle atteint une extrapolation fluide jusqu'à 1 million de tokens sans utiliser de techniques complexes comme YaRN, grâce à la configuration sans RoPE dans les couches parcimonieuses.
Accessibilité matérielle : Capacité à faire tourner des contextes de 1M de tokens sur des GPU grand public (ex: NVIDIA RTX 5090) et des cartes prosumer (A6000D), là où les modèles Full-Attention échouent par manque de mémoire (OOM).

4. Résultats Expérimentaux

Les évaluations ont été menées sur une gamme de benchmarks (CMMLU, MMLU-Pro, HumanEval, AIME, RULER, NoLiMa) et comparées à des modèles de référence de taille similaire (Qwen3-8B, Falcon-H1R, etc.).

Capacités Générales : MiniCPM-SALA maintient des performances comparables aux modèles Full-Attention standards.
- Score moyen : 76.53 (vs 73.45 pour Qwen3-8B).
- Raisonnement mathématique (AIME24) : 83.75.
- Codage (HumanEval) : 95.12.
Performance en Contexte Long :
- Sur le benchmark RULER à 128K tokens, le modèle obtient 89.37, surpassant nettement les baselines.
- Sur NoLiMa à 128K, il atteint 23.86, bien au-dessus des autres modèles.
- Extrapolation : Le modèle, entraîné jusqu'à 520K tokens, fonctionne efficacement jusqu'à 2M (2048K) tokens avec un score de 81.6 sur RULER, surpassant même des modèles beaucoup plus grands (Qwen3-Next-80B) sur certains segments de 1M de tokens.
Vitesse et Efficacité Mémoire :
- Sur un GPU NVIDIA A6000D, à 256K tokens, MiniCPM-SALA est 3,5 fois plus rapide que Qwen3-8B (TTFT de 51,6s contre 180,8s).
- Résolution OOM : Alors que Qwen3-8B échoue (OOM) à 512K/1024K tokens sur A6000D et à 128K/256K sur RTX 5090, MiniCPM-SALA traite avec succès des contextes de 1M de tokens sur ces mêmes cartes.

5. Signification et Impact

MiniCPM-SALA représente une avancée majeure pour le déploiement de LLMs dans des applications intensives en information (analyse de dépôts de code entiers, manuels techniques complets, agents autonomes sur de longues périodes).

Démocratisation du contexte long : En permettant l'inférence de contextes d'un million de tokens sur des GPU grand public, le modèle rend ces capacités accessibles sans nécessiter des clusters de calcul massifs.
Efficacité économique : La stratégie de transformation de modèles pré-entraînés offre une voie de développement durable et peu coûteuse pour les architectures hybrides futures.
Équilibre Performance/Coût : Le papier prouve qu'il n'est pas nécessaire de sacrifier la précision des modèles Full-Attention pour obtenir l'efficacité de l'attention linéaire, ouvrant la voie à une nouvelle génération de modèles scalables et performants.

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

🧠 MiniCPM-SALA : Le Super-Héros de la Mémoire à Long Terme

🏗️ L'Analogie : Le Bureau de l'Archiviste

🚀 Les Résultats Magiques

🛠️ Comment l'ont-ils construite ? (L'astuce économique)

🌍 Pourquoi c'est important pour nous ?

1. Problématique

2. Méthodologie

Architecture Hybride (Sparse + Linear)

Stratégie d'Entraînement : Transformer-to-Hybrid

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics