Each language version is independently generated for its own context, not a direct translation.

論文の解説：HEAPr（ヒーパ）

～巨大な「専門家チーム」を、痛むことなく賢く整理する新しい方法～

こんにちは！今日は、最新の AI 研究（ICLR 2026 で発表予定）について、難しい数式を使わずに、わかりやすくお話しします。

この論文は、**「HEAPr（ヒーパ）」**という新しい技術を紹介しています。これは、巨大な AI モデル（特に「MoE」と呼ばれるタイプ）を、性能をほとんど落とさずに、小さく軽くする（圧縮する）方法です。

1. 背景：巨大な「専門家チーム」の悩み

まず、現代の AI（大規模言語モデル）には、**「MoE（ミクスチャー・オブ・エキスパート）」**という仕組みが使われています。

イメージ： 巨大な AI は、1 人の天才が全てをやるのではなく、**「数百人の専門家チーム」**で構成されています。
仕組み： 質問が来ると、AI は「この質問には A 専門家が得意だ」「B 専門家は数学が得意だ」と判断し、必要な専門家だけを選んで回答を作ります。
メリット： 計算コストが安く、賢い回答ができます。
デメリット： メモリ（記憶容量）の壁です。
- 例え「1 回の会話で 37 人しか使わない」チームでも、「全員 671 人分の名簿と履歴」を常に持っておかなければなりません。
- これだと、スマホや普通の PC には収まりきらず、運用コストが青天井になってしまいます。

そこで、「使っていない専門家」を切って、チームを小さくしようという「剪定（せんてい）」の研究が進んでいましたが、これまでの方法には大きな問題がありました。

2. 従来の問題点：「丸ごと切る」か「無理やり混ぜる」か

これまでの方法は、大きく分けて 2 つのやり方でした。

丸ごと切る（Expert Dropping）：
- 「この専門家はあまり使わないから、チームからクビにする！」
- 問題： 専門家は「丸ごと」なので、少しのミスでもチーム全体の能力がガクンと落ちます。
無理やり混ぜる（Expert Merging）：
- 「似ている専門家 2 人を合体させて、1 人の新しい専門家にする！」
- 問題： 性格や得意分野が違う 2 人を無理やり混ぜると、**「パラメータの衝突」**が起き、AI が混乱して性能が低下します。

3. HEAPr の解決策：「原子（アトミック）専門家」への分解

HEAPr のすごいところは、「専門家」をさらに小さく分解するという発想にあります。

新しい考え方：
- 従来の「専門家」は、実は**「小さな原子（Atomic Expert）」**という最小単位で構成されていました。
- 例えるなら、**「料理人（専門家）」が、「包丁さばき」「味付け」「盛り付け」**という「原子」の集合体だと考えます。
- HEAPr は、「料理人全体」をクビにするのではなく、「盛り付けが苦手な原子」だけを取り除くことができます。

【アナロジー：オーケストラ】

従来の方法： 「ヴァイオリンの奏者（専門家）が不要だから、全員退場！」→ 音楽が壊れる。
HEAPr の方法： 「ヴァイオリン奏者の中でも、特定の音域（原子）が少しだけ不要だから、その音域だけ調整する」→ 音楽はそのまま美しく、人数は減る。

これにより、**「細かく、柔軟に」**不要な部分だけを削ぎ落とせるようになりました。

4. 技術の核心：「痛みの予測」をする天才医師

では、**「どの原子を切っても大丈夫か」**をどうやって見極めるのでしょうか？

HEAPr は、**「Optimal Brain Surgeon（最適な脳外科医）」**という古典的な理論を応用しています。

イメージ：
- AI の学習は、すでに完璧な状態（収束）にあります。
- ここで「もしこの原子を切ったら、AI の性能（損失）がどれだけ悪くなるか？」を計算する必要があります。
- これを計算するには、**「2 次微分（ヘッセ行列）」**という非常に複雑な数学が必要で、通常は計算しすぎてメモリが爆発してしまいます。
HEAPr の工夫：
- 「原子」ごとに計算する： 原子同士は独立しているため、複雑な計算を単純化できます。
- 「パラメータ」から「出力」へ視点を変える：
  - 従来の方法：「重み（パラメータ）の値」を計算して、どれが重要か見る（計算量が膨大）。
  - HEAPr の方法：「その原子が出力した結果（出力）」が、最終的な答えにどれくらい影響するかを見る。
- 結果： 計算量が**「4 乗」から「2 乗」に劇的に減り、「2 回の前向き計算（フォワードパス）と 1 回の後ろ向き計算（バックワードパス）」**だけで、どの原子を切るべきかがわかります。

5. 実験結果：驚異的な「痛みなし」圧縮

この HEAPr を、最新の AI モデル（DeepSeek や Qwen など）で試した結果は驚くべきものでした。

20%〜25% 削減：
- 専門家の 2 割〜2 割 5 分を削除しても、性能はほとんど変わらない（ほぼロスなし）。
- 計算量（FLOPs）も 20% 減り、AI がより速く、安く動くようになりました。
40% 削減：
- 4 割を削っても、性能の低下はわずかで、他の最新の方法よりもはるかに優秀でした。
比較：
- 従来の「丸ごと切る」方法や「混ぜる」方法よりも、はるかに精度が高く、安定していました。

まとめ：なぜ HEAPr は画期的なのか？

HEAPr は、**「巨大な AI モデルを、痛むことなく、細かく、賢く整理する」**新しい技術です。

従来の方法： 「大きなブロックを削る」→ 性能が落ちる。
HEAPr： 「最小単位（原子）を、痛みの少ない順に削る」→ 性能は保ったまま、サイズとコストを大幅に削減。

これにより、高性能な AI を、私たちが普段使うスマホや PC でも動かせる未来が、ぐっと近づいたと言えます。まるで、**「巨大な図書館から、誰も読まない本だけを、ページ単位で丁寧に抜き取って、本棚を軽くする」**ような、究極の整理術なのです。

Each language version is independently generated for its own context, not a direct translation.

論文概要：HEAPr

タイトル: HEAPr: HESSIAN-BASED EFFICIENT ATOMIC EXPERT PRUNING IN OUTPUT SPACE
著者: Ke Li, Zheng Yang, Zhongbin Zhou, Feng Xue, Zhonglin Jiang, Wenxiao Wang
所属: 浙江大学、FABU Inc.、杭州快遞科技、吉利汽車研究院など

1. 背景と課題 (Problem)

大規模言語モデル（LLM）において、Mixture-of-Experts（MoE）アーキテクチャは、推論コストを削減しつつ高い性能を発揮する有望な手法です。しかし、MoE モデルは膨大なパラメータ数を持つため、GPU メモリへの展開に際して「メモリ要件」が大きなボトルネックとなっています。

既存の課題: 従来のモデル圧縮手法は、主に「Expert レベル（ Experts 全体を削除または統合）」のプルーニングに焦点を当てていました。
- Expert Dropping（削除）: 重要度の低い Expert 全体を削除するが、粒度が粗いため精度の低下が顕著になりやすい。
- Expert Merging（統合）: 類似した Expert を統合するが、クラスタリングの不安定性やパラメータの競合により、最適化が困難で精度低下を招く。
- 分解ベースの手法: 既存の分解手法は計算コストが高く、依然として精度損失を伴う。
核心となる問題: より柔軟で微細な粒度でのプルーニングを実現しつつ、第二階微分情報（Hessian 行列）に基づく高精度な重要度評価を、計算・記憶コストを抑えて行う方法が求められていた。

2. 提案手法 (Methodology)

著者らは、HEAPr（Hessian-based Efficient Atomic Expert Pruning in Output Space）という新しいプルーニングアルゴリズムを提案しました。この手法は、Expert をさらに小さな「Atomic Expert（原子 Expert）」に分解し、それらの重要度を出力空間で効率的に評価します。

2.1 Atomic Expert の定義
MoE の Expert 層は、通常 $W_{up}, W_{gate}, W_{down}$ の行列で構成されます。HEAPr は、これらの行列の特定の列・行の組み合わせを「Atomic Expert」として定義します。

1 つの Expert の出力は、複数の Atomic Expert の出力の和として表現されます。
プルーニング単位を Expert 全体から Atomic Expert に変更することで、より柔軟な圧縮と、残存コンポーネントへの干渉回避が可能になります。

2.2 重要度評価の理論的基盤 (OBS 理論の応用)
Optimal Brain Surgeon (OBS) 理論に基づき、損失関数の 2 次展開を用いてパラメータ削除による損失増加を最小化します。

課題: 従来の OBS 適用では、Expert 全体のパラメータ空間での Hessian 行列推定が必要であり、空間計算量が $O((3d_{model} \cdot d_{inter})^2)$ と膨大になります。
解決策 1（パラメータ空間の分解）: 異なる Atomic Expert のパラメータ間には勾配が独立（交差項が 0）であることを利用し、Hessian 行列を Atomic Expert ごとに分解します。これにより空間計算量を $O((3d_{model})^2 \cdot d_{inter})$ に削減。
解決策 2（出力空間への変換）: さらに、パラメータ空間ではなく「Atomic Expert の出力空間」で制約条件を再定式化します。
- 出力空間では、Fisher 情報行列（期待 Hessian に等価）を用いることで計算を効率化できます。
- 同じ Expert 内の Atomic Expert は、損失関数に対する勾配（Gradient）が同一であるという性質を利用します。
- これにより、各 Atomic Expert の重要度 $s$ を以下の式で推定できます：
  $s \approx \mathbb{E}_{x \sim D} \left[ \frac{1}{2} e_P(x)^\top \mathbb{E}[g_P g_P^\top] e_P(x) \right]$
  ここで、 $e_P(x)$ は Atomic Expert の出力、 $g_P$ は損失の勾配です。
- 結果: 空間計算量が $O(d_{model}^2)$ に劇的に削減され、大規模モデルでも実用的になりました。

2.3 アルゴリズムのフロー

勾配共分散行列の推定: 少量の校正データ（Calibration Set）を用いて、Expert 全体に対する出力勾配の共分散行列を 1 回のバックワードパスで計算（共有）。
重要度の計算: フォワードパスで各 Atomic Expert の出力を計算し、上記の行列と内積を取ることで重要度スコアを算出。
グローバルランキング: モデル全体（全レイヤー）の Atomic Expert に対して重要度でソートし、下位 $r\%$ を削除。

計算コスト: 校正データに対して「フォワードパス 2 回、バックワードパス 1 回」のみで完了。

3. 主要な貢献 (Key Contributions)

Atomic Expert レベルのプルーニング: Expert 全体ではなく、より微細な Atomic Expert 単位でのプルーニングを可能にし、精度低下を抑えつつ高い圧縮率を実現。
効率的な第二階微分情報推定: 第二階微分情報を Expert パラメータから Atomic パラメータへ、さらに出力空間へ変換する新しい近似手法を提案。空間計算量を $O(d^4)$ から $O(d^2)$ に削減。
高効率な実装: 追加の微調整（Fine-tuning）や大規模な分解演算を必要とせず、最小限の計算パス（2 回 Fwd, 1 回 Bwd）で重要度を算出可能。
広範な実験検証: 複数の最新 MoE モデル（DeepSeek, Qwen シリーズ）および多様なベンチマークでの有効性を証明。

4. 実験結果 (Results)

DeepSeekMoE-16B-Base, Qwen1.5-MoE-A2.7B-Chat, Qwen2-57B-A14B, Qwen3-30B-A3B などのモデルで評価されました。

性能維持:
- 20%〜25% プルーニング: DeepSeekMoE-16B や Qwen1.5-MoE において、ほぼ損失なし（Lossless）の圧縮を達成。元のモデルと同等の精度を維持。
- 40% プルーニング: Qwen2-57B-A14B でも、元のモデルとほぼ同等の性能を維持。
- Qwen3-30B-A3B: 25% プルーニング時、平均精度の低下はわずか 0.03（0.62 → 0.59）。
効率性:
- ほぼ 20% の FLOPs 削減を実現。
- 既存の Expert レベルのプルーニング手法（NAEE, MoE-I2, Sub-MoE など）や、同時発表の手法（CAMERA-P）と比較して、広範なプルーニング比率およびベンチマークで SOTA（State-of-the-Art）性能を記録。
アブレーション研究:
- グローバル vs レイヤー内: モデル全体で重要度をランキングする「グローバルプルーニング」が、レイヤー内で個別にランキングする手法よりも優れていることを確認。
- 粒度の比較: Expert レベルのプルーニングは計算速度向上（FLOPs 削減）に寄与しないのに対し、Atomic Expert レベルは実際に計算量を削減できることを実証。
- 校正データ: WikiText-2 や C4 などの異なるデータセット、およびサンプル数（128〜256 程度）に対してロバストであることを確認。

5. 意義と結論 (Significance)

HEAPr は、MoE モデルの展開における「メモリボトルネック」と「精度低下」のトレードオフを打破する画期的な手法です。

理論的革新: 第二階微分情報に基づく最適化を、大規模モデルでも実用的な計算コストで実行可能にするための「出力空間近似」という新しい視点を提供しました。
実用性: 追加の学習なしで、既存の MoE モデルを即座に軽量化できるため、リソース制約のある環境（エッジデバイスや大規模並列推論）での MoE モデルの普及に大きく貢献します。
将来展望: 本手法は MoE 構造の理解を深めるだけでなく、将来的なパラメータ補償手法や、より大規模なモデルへの適用可能性を示唆しています。

この論文は、MoE モデルの圧縮において、単なる「Expert の削除」から「Atomic な構成要素の最適化」へとパラダイムシフトを起こす重要な研究と言えます。

HEAPr: Hessian-based Efficient Atomic Expert Pruning in Output Space

論文の解説：HEAPr（ヒーパ）

1. 背景：巨大な「専門家チーム」の悩み

2. 従来の問題点：「丸ごと切る」か「無理やり混ぜる」か

3. HEAPr の解決策：「原子（アトミック）専門家」への分解

4. 技術の核心：「痛みの予測」をする天才医師

5. 実験結果：驚異的な「痛みなし」圧縮

まとめ：なぜ HEAPr は画期的なのか？

論文概要：HEAPr

1. 背景と課題 (Problem)

2. 提案手法 (Methodology)

3. 主要な貢献 (Key Contributions)

4. 実験結果 (Results)

5. 意義と結論 (Significance)

関連論文

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Operational Noncommutativity in Sequential Metacognitive Judgments

Proximity Measure of Information Object Features for Solving the Problem of Their Identification in Information Systems

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback

Algebraic Structure Discovery for Real World Combinatorial Optimisation Problems: A General Framework from Abstract Algebra to Quotient Space Learning