Each language version is independently generated for its own context, not a direct translation.

この論文は、**「巨大な脳（AI）を、性能を落とさずに、ポケットに入るサイズに小さくする方法」**について書かれたものです。

ポーランド語に特化した AI モデル「Bielik（ビエリク）」の研究者たちが、NVIDIA（グラフィックボードで有名な会社）と協力して、「110 億個の部品を持つ巨大な AI」を「73 億個の部品を持つ、より軽快な AI」に変身させたという成功物語です。

これを、わかりやすい日常の例えを使って説明しましょう。

1. 問題：「巨大な図書館」は重すぎる

元々の AI（Bielik-11B）は、**「110 億冊の本がある巨大な図書館」**のようなものです。

メリット: 何でも知っていて、賢い。
デメリット: 図書館自体が重すぎて、普通の家の車（一般的なパソコンやゲーム機）には積めません。動かすには、巨大な倉庫（高価なサーバー）と、何十人もの搬运工（計算資源）が必要です。

「もっと手軽に、普通の人のパソコンでも動かせるようにしたい！」というのが、この研究の目的でした。

2. 解決策：「剪定（せんてい）」と「師匠からの伝授」

彼らは、最初から小さな AI を作るのではなく、**「巨大な AI を削って小さくし、その知恵を小さな AI に受け継がせる」**という 2 段階の魔法を使いました。

ステップ 1：賢い「剪定（せんてい）」

これは、**「巨大な木を、枯れた枝や不要な葉を切り落とす」**ような作業です。

研究者たちは、AI の頭の中で「あまり使われていない神経（部品）」を特定しました。
例えるなら、**「100 人いるスタッフのうち、毎日何もしないで座っている 30 人を解雇し、残りの 70 人だけで回す」**ようなものです。
結果、AI のサイズは33% 減（110 億→73 億）になりましたが、重要な仕事をするスタッフはそのまま残りました。

ステップ 2：「師匠からの伝授（知識蒸留）」

ただ部品を減らしただけでは、AI はバカになってしまいます。そこで、「師匠（元の巨大 AI）」が「弟子（新しい小さな AI）」に、すべてを教えるという工程を行いました。

通常の勉強: 正解の答えだけを教える（「これは猫です」）。
この研究の勉強: 師匠が「これは猫に見えるけど、実は猫じゃないかもしれないし、犬の匂いがするかも」という**「考え方のプロセスや確率」**まですべて教えます。
これにより、小さな AI は、**「師匠の賢さを 90% 以上引き継い」**だのです。

3. さらに「しごき」をかける（調整工程）

小さくなった AI は、最初は少しぼんやりしていました。そこで、3 つの段階で「しごき（トレーニング）」を行いました。

SFT（指示に従う練習）: 「ポーランド語で丁寧な会話をして」と教える。
DPO（好みを学ぶ）: 「この答えは人間が好む、あの答えは嫌だ」と教える。
GRPO（論理的思考の強化）: 「数学や論理パズルを解く練習」をして、頭を鍛える。

4. 結果：「軽快なスポーツカー」の誕生

最終的に出来上がった「Bielik-Minitron-7B」は、以下のような素晴らしい成果を上げました。

性能: 元の巨大 AI の90% の賢さを維持しました。ポーランド語の複雑な文法や感情の機微も、ほとんど失われていません。
速度: 文章を生成するスピードが約 50% 向上しました。
導入のしやすさ: 以前は巨大なデータセンターが必要だったものが、**「RTX 4090 などの高価な家庭用グラフィックボード」**でも動くようになりました。

5. なぜこれが重要なのか？

この研究は、**「英語以外の言語（ポーランド語など）の AI を作る際、最初から巨大なモデルをゼロから作らなくても、既存の巨大モデルを『手術』して小さくすれば、安く、速く、高性能な AI が作れる」**ことを証明しました。

まとめの比喩：
これは、**「巨大な豪華客船（110 億パラメータ）を、性能を落とさずに、家庭用ヨット（73 億パラメータ）に改造する」**ようなものです。
船のエンジン（計算能力）は小さくなりましたが、航海の技術（言語能力）はそのまま。しかも、以前は港（巨大サーバー）にしか停められなかった船が、今や個人のヨットハーバー（家庭用 PC）にも停められるようになりました。

これにより、ポーランド語圏の人々や、予算の少ない研究者たちでも、世界最高峰の AI を手軽に使えるようになったのです。

Each language version is independently generated for its own context, not a direct translation.

Bielik-Minitron-7B: ポーランド語向け大規模言語モデルの構造化プルーニングと知識蒸留による圧縮

本論文は、ポーランド語および欧州言語に特化した大規模言語モデル（LLM）「Bielik-11B-v3.0」を、NVIDIA の Minitron アプローチを基盤とした構造化プルーニング（Structured Pruning）と知識蒸留（Knowledge Distillation）の組み合わせにより、パラメータ数を 33.4% 削減した 7.35B パラメータモデル「Bielik-Minitron-7B」へ圧縮する手法と結果を報告したものです。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 問題定義

LLM の性能向上に伴いモデルサイズが増大する中、特に欧州言語市場においては、高性能な推論能力とデプロイ効率（VRAM 使用量、推論速度）のバランスが重要課題となっています。

課題: 11B パラメータクラスのモデルは高品質ですが、推論コストが高く、消費電力や GPU メモリ要件が厳しく、ローカル環境やリソース制約のある環境での展開が困難です。
既存手法の限界: 0 から小さいモデルを学習させる（Training from Scratch）方法は、計算コストと環境負荷（カーボンフットプリント）が膨大です。また、単純なプルーニングだけでは性能が著しく低下する傾向があります。
目的: 11B モデルの性能を維持しつつ、推論速度を向上させ、消費メモリを削減できる 7B 規模のモデルを、効率的な圧縮技術を用いて構築すること。

2. 手法 (Methodology)

本研究は、NVIDIA の Minitron 手法に着想を得た「2 段階の圧縮戦略」と、その後の「多段階アライメントパイプライン」を採用しています。

第 1 段階：構造化プルーニング (Structured Pruning)

モデルのアーキテクチャ自体を圧縮する段階です。NVIDIA Model Optimizer を使用し、活性化ベースの重要度評価（Activation-based Importance Estimation）に基づいて冗長な部分を除去しました。

ハイブリッド・マルチ軸プルーニング: 単一の次元（深さのみ、または幅のみ）ではなく、以下の 4 つの軸を同時に最適化しました。
1. Depth（深さ）: トランスフォーマー層の数を削減（50 層 → 40 層）。
2. Width（幅）: 中間次元（FFN の中間次元）を削減（14,336 → 11,264）。
3. Attention: アテンションヘッド数の削減（今回は実施せず、将来の課題）。
4. Embedding: 埋め込み次元の削減（今回は維持）。
重要度評価: 勾配計算を不要とする前方伝播（Forward Pass）のみを用い、各ニューロンや層の活性化の大きさに基づいて重要度をスコア化。活性化が小さい冗長なコンポーネントを特定・除去しました。
最適構成の選択: 10 種類の圧縮候補（EXP_001〜EXP_010）を評価し、性能と安定性のバランスが最も良かった「EXP_010」構成（7.35B パラメータ）を選択しました。

第 2 段階：知識蒸留 (Knowledge Distillation)

プルーニングによる性能低下を回復させる段階です。NVIDIA NeMo Framework を使用し、教師モデル（Bielik-11B-v3.0）から学生モデル（Bielik-Minitron-7B）へ知識を転移しました。

Logit-only Distillation: 正解ラベルとの交差エントロピー損失ではなく、教師と学生の出力分布（Logits）間の KL ダイバージェンスを最小化します。これにより、モデルは「暗黙の知識（Dark Knowledge）」や確率分布の微妙なニュアンスを学習できます。
温度スケーリング: 温度パラメータ $T$ を用いて分布を平滑化し、低確率トークンからの信号も学習できるようにしました。
データ効率: 元の事前学習データの 3% 未満のデータ量で、高品質な回復を実現しました。

第 3 段階：アライメントパイプライン (Alignment Pipeline)

蒸留後のベースモデルを実用的なアシスタントにするための微調整プロセスです。

**SFT **(Supervised Fine-Tuning): 高品質なポーランド語・英語の指示追従データで 3 エポック学習。
**DPO-P **(Direct Preference Optimization): 人間の好みに基づく選好データ（11.4 万サンプル）で学習し、安全性と指示追従精度を向上。
**GRPO **(Group Relative Policy Optimization): 推論タスク（STEM、数学、論理）における報酬関数を用いた強化学習により、推論能力をさらに強化。

3. 主要な貢献 (Key Contributions)

ポーランド語特化モデルの圧縮成功: 欧州言語（特にポーランド語）の複雑な形態論・構文を維持しつつ、11B モデルを 7.35B モデルへ圧縮するパイプラインを実証しました。
Minitron アプローチの欧州言語への適用: NVIDIA との連携により、Minitron 手法をポーランド語モデルに適用し、33.4% のパラメータ削減で 90% 以上の性能回復を達成する「Golden Ratio」構成を特定しました。
効率的な開発プロセスの確立: 0 から学習するのではなく、既存の高性能モデルを圧縮・蒸留することで、開発コストと環境負荷を大幅に削減する再現可能なブループリントを提供しました。
ローカルデプロイの実現: 14GB (FP16) 程度のメモリで動作し、RTX 4090/5090 などのコンシューマー向け GPU でも高性能に動作するモデルを公開しました。

4. 結果 (Results)

Bielik-Minitron-7B は、教師モデルの性能を平均して**90.1%回復し、推論速度は50%**向上しました。

ベンチマーク性能:
- Open PL LLM Leaderboard: 7.35B モデルは 62.46 点（教師モデル 65.93 点の 94.7%）を記録。Qwen2.5-7B や Mistral-7B を大幅に上回り、14B モデル（phi-4）と同等の性能を示しました。
- **ポーランド語理解 **(CPTUB, EQ-Bench): 言語理解、感情分析、医療知識（Polish Medical Leaderboard）など、ポーランド語特有のタスクで高い性能を維持。特に医療分野では、11B モデルの v2.x 世代を上回る結果となりました。
- 多言語能力: Belebele（読解）や FLORES（翻訳）でも、12B モデル（Mistral-Nemo）を上回るスコアを記録しました。
推論パフォーマンス:
- スループット: 11B モデルに対し、7.35B モデルは**49.6%**のトークン生成速度向上（54.42 tok/s → 81.41 tok/s）を達成。
- レイテンシ: 1 トークンあたりの生成時間（TPOT）が 18.28ms から 12.32ms へ約 32.6% 改善されました。
量子化耐性:
- 4 ビット量子化（Q4_K_M）でも、元のモデルの 99% の性能を維持し、ローカル環境での展開に極めて有利です。

5. 意義 (Significance)

少代表言語へのアクセス民主化: 計算リソースが限られる欧州言語（ポーランド語、チェコ語、ハンガリー語など）において、最先端の NLP 能力を、数百万ドルの事前学習コストなしに実現する道筋を示しました。
環境・経済的持続可能性: 事前学習の計算コストを大幅に削減し、モデル開発の環境負荷（カーボンフットプリント）を低減する実用的な手法を提示しました。
ローカル AI の促進: 高価なデータセンター級 GPU がなくても、一般的なゲーミング GPU で高性能なポーランド語 LLM を動作可能にするため、研究者や開発者コミュニティへの技術普及を加速させます。

本論文は、構造化プルーニングと知識蒸留を組み合わせることで、モデルサイズを縮小しつつ高品質な言語モデルを維持できることを実証し、特にリソース制約のある言語圏における LLM 開発の新しいパラダイムを示唆しています。

Bielik-Minitron-7B: Compressing Large Language Models via Structured Pruning and Knowledge Distillation for the Polish Language