MiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li, Xin Li, Yaohui Li, Yishan Li, Yuxuan Li, Biyuan Lin, Chuan Liu, Hezi Liu, Siyuan Liu, Hongya Lyu, Yinxu Pan, Shixin Ren, Xingyu Shen, Zhou Su, Haojun Sun, Yangang Sun, Zhen Leng Thai, Xin Tian, Rui Wang, Xiaorong Wang, Yudong Wang, Bo Wu, Xiaoyue Xu, Dong Xu, Shuaikang Xue, Jiawei Yang, Bowen Zhang, Jinqian Zhang, Letian Zhang, Shengnan Zhang, Xinyu Zhang, Xinyuan Zhang, Zhu Zhang, Hengyu Zhao, Jiacheng Zhao, Zhi Zheng, Jie Zhou, Zihan Zhou, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun

公開日 2026-03-03

📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

📚 MiniCPM-SALA：超長文書を「一瞬」で読み解く、賢い本の要約者

こんにちは！今日は、AI（人工知能）の世界でとても画期的な新しい技術「MiniCPM-SALA」について、難しい専門用語を使わずに、身近な例え話で解説します。

この技術は、**「何百万文字もの超長文書」**を、普通のパソコンでもサクサク読めるようにする魔法のような仕組みです。

🤔 なぜこれがすごいのか？（従来の問題点）

まず、今の AI が抱えている大きな悩みをお話ししましょう。

🐘 象と小さな部屋

今の主流の AI（Transformer 型）は、**「すべての情報を一度に記憶しようとする」**という性質を持っています。
例えば、100 ページの物語を読ませると、AI は「1 ページ目から 100 ページ目まで、すべての単語を同時に頭の中で結びつけて理解しよう」とします。

短編なら OK：10 ページくらいなら、頭の中でパッと整理できます。
長編だと大惨事：100 万文字（本 10 冊分）になると、頭の中にすべての情報を詰め込もうとして、「脳の容量（メモリ）」がパンクしてしまいます。
- 結果：AI がフリーズしたり、非常に遅くなったり、最悪の場合「メモリ不足」で起動しなくなったりします。
- また、計算量も**「長さの 2 乗」**で増えるため、長文になるほど時間がかかりすぎます。

これを解決するために、これまでの AI は「重要な部分だけ見る（スパース）」か「全体をざっくり要約して記憶する（リニア）」のどちらかを選んでいました。しかし、**「精度を落とさず、かつ速く、かつ安価に」**という「三者三様」のバランスを取ることは難しかったのです。

✨ MiniCPM-SALA の正体：賢い「ハイブリッド」な読み手

MiniCPM-SALA は、この問題を**「2 つの異なる読み方を組み合わせたハイブリッド型」**で解決しました。

🏗️ 建築の例え：「精密な職人」と「素早い運び屋」

この AI は、100 人のチームで構成されていると想像してください。

25% の「精密な職人（スパース注意機構）」
- 役割：重要な部分（キーポイント）を超精密に読み解きます。
- 特徴：「このページのこの行が重要だ！」とピンポイントで記憶します。ただし、すべてのページを同時に見るのは大変なので、少しだけ「記憶の場所」を使います。
75% の「素早い運び屋（リニア注意機構）」
- 役割：文脈の全体像を素早く把握します。
- 特徴：「前は何の話だったかな？」という流れを、メモ帳に書き留めるように非常に軽く処理します。記憶の場所をほとんど使いません。

🎯 組み合わせの妙
この 2 人を**「1 人の職人に対して 3 人の運び屋」**という比率でチーム編成しました。

全体の流れは「運び屋」が軽やかにカバー。
重要な詳細は「職人」がしっかりキャッチ。
結果：「記憶容量は少ないのに、精度は高い」という、夢のようなバランスを実現しました。

🚀 3 つの驚くべき特徴

1. 📉 学習コストが 75% 削減！「リノベーション」作戦

新しい AI をゼロから作る（一から家を建てる）のは、莫大な時間と費用がかかります。
MiniCPM-SALA は、**「すでに完成した高級マンション（既存の AI）を、リノベーションしてハイブリッド型に変える」**という作戦を取りました。

既存の知識を生かす：ゼロから勉強し直す必要がないので、学習にかかるコストと時間が約 75% 削減されました。
効果：「安く、早く、高性能な AI」が完成しました。

2. 📏 100 万文字（1M トークン）を処理可能！

従来の AI：10 万文字を超えると、メモリ不足で「もう読めない！」とエラーを出します。
MiniCPM-SALA：家庭用のゲーミング PC（RTX 5090 など）でも、本 100 冊分（100 万文字）の文書を問題なく読み込めます。
- 例え話：「図書館の全蔵書を、1 人の図書館司書が、机の上に広げずに、頭の中で整理して読める」状態です。

3. ⚡ 驚異的な速度

25 万文字の文書を読ませた場合、従来の AI の3.5 倍の速さで答えを返します。
待ち時間が「180 秒」から「50 秒」に短縮されるようなものです。

🌟 具体的に何ができるの？

この技術があれば、以下のようなことが現実のものになります。

📖 技術マニュアルの完全理解：何千ページもある製品のマニュアルを、AI に丸ごと読ませて、「このエラーの解決策は？」と聞けば、即座に該当ページを指差して答えてくれます。
💻 大規模コードの解析：数万行のプログラミングコード全体を一度に読み込み、「ここを直したらバグが直るよ」と提案してくれます。
🗣️ 長期間の会話記憶：数日間にわたる AI との会話をすべて記憶し、「昨日のあの話、覚えてる？」と聞いても、文脈を完璧に思い出せます。

💡 まとめ

MiniCPM-SALAは、「重くて高価な AI」を、「軽くて安くて、かつ賢い AI」に変えた画期的な技術です。

従来の AI：重い荷物をすべて背負って歩く（メモリ不足で倒れる）。
MiniCPM-SALA：必要なものだけ手に持ち、残りは軽やかに運ぶ（ハイブリッド方式）。

これにより、私たち一般人でも、家庭の PC で「本 100 冊分」の情報を瞬時に処理できる時代が、もうすぐ訪れようとしています。AI がもっと身近で、もっと便利になる、素晴らしい一歩です！

Each language version is independently generated for its own context, not a direct translation.

MiniCPM-SALA: 超長文脈モデリングのための疎・線形ハイブリッド注意機構の技術的概要

本論文は、大規模言語モデル（LLM）の超長文脈処理における計算コストとメモリ制約の課題を解決するため、MiniCPM-SALA（Sparse Attention and Linear Attention）という 90 億パラメータのハイブリッドアーキテクチャを提案するものです。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細にまとめます。

1. 背景と課題 (Problem)

現代の LLM は、単純な Q&A から、技術マニュアルの全体理解、大規模コードリポジトリの解析、複雑なタスクにおける長期的なエージェント動作など、**超長文脈（Ultra-long Context）**の処理が求められるアプリケーションへと進化しています。しかし、基盤となる Transformer アーキテクチャの「全注意機構（Full Attention）」には以下の重大なボトルネックが存在します。

計算量のボトルネック: 標準的な注意機構の計算量はシーケンス長 $N$ に対して二次関数的に増加（ $O(N^2)$ ）します。文脈が数百万トークンに達すると、推論の遅延が劇的に増大します。
メモリのボトルネック（KV-Cache）: 自己回帰生成において、すべての過去のトークンの Key-Value 状態を保持する必要があります。80 億パラメータモデルでも、数百万トークンの文脈を処理するには数十 GB から数百 GB のメモリが必要となり、多くのハードウェアでメモリ不足（OOM）が発生します。

既存の解決策である「疎注意（Sparse Attention）」と「線形注意（Linear Attention）」はそれぞれ長所がありますが、欠点も併せ持っています。

疎注意: 計算量は削減できますが、文脈検索のためにフルな KV-Cache を保持する必要があり、「疎計算・密保存」の制約に陥ります。
線形注意: 計算量を $O(N)$ に削減できますが、情報の損失圧縮により、長距離依存関係の精度が低下する傾向があります。

2. 手法とアーキテクチャ (Methodology)

MiniCPM-SALA は、疎注意の高精度な長文脈モデリング能力と、線形注意のグローバルな計算効率を融合させたハイブリッドアーキテクチャを採用しています。

2.1 ハイブリッド注意機構

モデルは、以下の 2 つのメカニズムを1:3 の比率で層ごとに混合しています。

25%: 疎注意 (InfLLM-V2)
- 局所的な詳細や重要な情報の高精度な抽出を担当します。
- 追加のパラメータを必要とせず、密な重みからスムーズに切り替え可能です。
75%: 線形注意 (Lightning Attention)
- 広範な文脈の効率的な処理を担当し、計算量とメモリ使用量を $O(N)$ に抑えます。
- 標準の Softmax 注意に近い構造を持つため、事前学習済み知識の継承が容易です。

層選択アルゴリズム:
単なる均等な交互配置ではなく、Chen et al. (2026) が提案した層選択アルゴリズムを用いて、どの層に疎注意を配置するかを最適化しています。これにより、下流タスクのパフォーマンスが向上します。

2.2 位置符号 (HyPE)

線形注意層: 回転位置埋め込み（RoPE）を適用し、グローバルな文脈内でのトークンの相対順序を保持します。
疎注意層: RoPE を適用しません。これにより、RoPE に伴う長距離情報の減衰を防ぎ、超長文脈における正確な情報想起を可能にしています。

2.3 効率的なトレーニング戦略 (Transformer-to-Hybrid)

ゼロからモデルを訓練するのではなく、事前学習済みの Transformer モデル（MiniCPM-4.0）をハイブリッドモデルに変換する**継続学習（Continual Training）**アプローチを採用しています。

HALO (Hybrid Attention via Layer Optimization): 最初の段階で Softmax 注意を線形注意に変換し、安定性を確保します。
トレーニングフェーズ:
1. アーキテクチャ変換: 1.3B トークンで線形注意層のみを学習。
2. 安定化トレーニング: 4K 文脈で 3146 億トークン学習。
3. 短縮減衰トレーニング: 高品質データで 1T トークン学習。
4. 長文脈減衰トレーニング: 文脈長を 4K→32K→160K→520K と段階的に延長し、疎注意を有効化して 4 段階で学習。
5. 教師あり微調整 (SFT): 64K/140K 文脈で推論能力を強化。
コスト削減: このアプローチにより、ゼロから同規模モデルを訓練する場合と比較して、トレーニングコストを約75% 削減（必要なデータ量は約 25%）しています。

3. 主要な貢献 (Key Contributions)

疎・線形ハイブリッド注意機構の導入: InfLLM-V2（25%）と Lightning Attention（75%）を組み合わせ、スループットと精度のバランスを最適化しました。
Transformer-to-Hybrid パラダイムの実証: 事前学習済みモデルを効率的に変換する手法により、ハイブリッドモデルの構築コストを劇的に削減し、フル注意モデルと同等の汎用能力を維持することを証明しました。
HyPE (Hybrid Positional Encoding) の適用: 短文脈と超長文脈の両方で高い性能を発揮する位置符号設計を採用しました。
超長文脈処理の実現: 単一 GPU 上で 100 万トークン（1M）の文脈処理を可能にし、従来の 8B モデルがメモリ不足で失敗する領域でも動作することを示しました。

4. 実験結果 (Results)

4.1 汎用能力 (Standard Benchmarks)

性能: 知識 (CMMLU, MMLU-Pro)、コード (HumanEval, MBPP)、数学 (AIME24/25) などの標準ベンチマークにおいて、Qwen3-8B や Falcon-H1R-7B などの同規模フル注意モデルと同等以上の性能を維持しました。
平均スコア: 76.53（同規模モデル間で競争力あり）。
結論: 長文脈メカニズムの導入による汎用能力の低下は確認されませんでした。

4.2 長文脈・超長文脈性能

RULER ベンチマーク: 128K 文脈で 89.37 のスコアを記録し、他のベースラインモデルが性能を大きく低下させる中、高い安定性を示しました。
NoLiMa ベンチマーク: 128K 文脈で 23.86 と、他モデルを大きく上回る結果となりました。
外挿能力 (Extrapolation): 最大 520K トークンで訓練されたモデルが、2048K (2M) トークンの文脈でも 81.6 のスコアを維持しました（追加の位置符号補正技術なし）。
パラメータ効率: 100 万トークン文脈において、800 億パラメータの Qwen3-Next-80B（80.3）を 90 億パラメータの MiniCPM-SALA（86.3）が上回りました。

4.3 推論速度とメモリ効率

NVIDIA A6000D (96GB VRAM):
- 256K トークン文脈において、Qwen3-8B の推論速度の3.5 倍を達成。
- 512K〜1024K トークンでは Qwen3-8B は OOM（メモリ不足）で失敗する一方、MiniCPM-SALA は正常に推論を完了しました。
NVIDIA RTX 5090 (32GB VRAM):
- 消費レベルの GPU であっても、1024K トークンの処理が可能でした。
- Qwen3-8B は 128K（非量子化）または 256K（量子化）で OOM となりましたが、MiniCPM-SALA はメモリ制約なく動作しました。

5. 意義と結論 (Significance)

MiniCPM-SALA は、超長文脈処理における「計算コスト」「メモリ制約」「精度」というトレードオフを解決する画期的なアプローチです。

エッジコンピューティングへの展開: 単一のコンシューマー向け GPU（RTX 5090 など）でも 100 万トークンの処理が可能になるため、情報集約型のアプリケーションをクラウドに依存せず、エッジデバイスで実行できる道を開きました。
トレーニング効率: 既存の Transformer モデルをハイブリッド化するための効率的な変換フレームワークは、大規模モデル開発のコストを大幅に削減し、研究コミュニティへのアクセシビリティを向上させます。
スケーラビリティ: 100 万トークンを超える文脈を安価に処理できる能力は、次世代の AI エージェント、大規模コード解析、複雑なドキュメント理解など、多様な応用分野において重要な基盤技術となります。

本論文は、ハイブリッド注意機構が単なる理論的な提案ではなく、実用的かつ高性能なソリューションとなり得ることを、大規模な実験を通じて実証した点に大きな意義があります。

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling