Each language version is independently generated for its own context, not a direct translation.

この論文「OptMerge」は、人工知能（AI）の世界で起こっている「賢いモデルの合体」について書かれた、とても面白い研究です。専門用語を抜きにして、わかりやすい例え話で解説しましょう。

🌟 全体のストーリー：「料理のレシピ」を合体させる話

想像してください。
ある村には、**「料理の天才」**がたくさんいます。

A さんは「寿司」が絶品ですが、パスタは苦手。
B さんは「パスタ」が絶品ですが、寿司は苦手。
C さんは「ケーキ」が絶品ですが、他の料理は苦手。

通常、これら 3 人の味をすべて兼ね備えた「万能シェフ」を作るには、3 人全員を雇って、一緒に何年も修行させる（＝大量のデータで AI を再学習させる）必要があります。これは時間もお金もかかりすぎます。

そこでこの論文は、**「新しいシェフを雇わずに、既存の天才たちの『レシピノート』を合体させて、一人の万能シェフを作ろう！」というアイデアを提案しています。これを「モデルマージ（モデルの融合）」**と呼びます。

🧩 1. 問題点：単純な足し算ではダメだった

これまでの研究では、A さんのレシピと B さんのレシピを「足し算」して混ぜるだけでした。
しかし、これには問題がありました。

ノイズ（不要な情報）： A さんが「寿司の握り方」を教えるために書き足したメモの中に、実は「パスタの作り方」とは関係ない「自分の気分」のようなノイズが混じっていることがあります。
衝突： A さんの「寿司の握り方」と B さんの「パスタの混ぜ方」が、レシピノート上でぶつかり合って、どちらもうまくいかなくなることがあります。

単純に混ぜると、「寿司もパスタも、どちらも中途半端な味」になってしまうのです。

🛠️ 2. 解決策：OptMerge（賢いフィルター）

この論文の主人公である**「OptMerge」は、ただ混ぜるのではなく、「賢いフィルター」**を使ってレシピを整理する新しい方法です。

① ノイズを取り除く（SVD という魔法のフィルター）

OptMerge は、各シェフのレシピノートを読み込み、「本当に必要な核心部分（寿司の握り方、パスタの混ぜ方）」だけを取り出し、不要なノイズ（気分や余計なメモ）を捨てます。

例え： 料理のレシピ本から、必要な「材料と手順」だけを抜き出して、新しい本に書き写すイメージです。

② 衝突を避ける（方向を調整する）

A さんの「寿司」の方向と B さんの「パスタ」の方向がぶつからないよう、優しく調整します。

例え： 2 人が同じテーブルで料理をするとき、肘が当たらないように座席を少しずらして、お互いが自由に動けるようにする感じです。

③ 結果：「超シェフ」の誕生

この方法で作られた新しいモデル（OptMerge）は、「寿司もパスタもケーキも、すべてが本職レベル」の味を出すようになりました。
しかも、「新しい食材（学習データ）」を一切使わず、既存のレシピノートだけで作れたので、コストはほぼゼロです！

🎨 3. さらにすごいこと：「五感」を合体させる

この研究のもう一つのすごい点は、「異なる感覚を持つモデル」を合体させたことです。

目（Vision）： 画像を見るのが得意なモデル
耳（Audio）： 音を聞くのが得意なモデル
動画（Video）： 動きを捉えるのが得意なモデル

これらは通常、それぞれ別の「脳」を持っていますが、OptMerge を使うと、**「目・耳・動き」をすべて理解できる「オムニ（万能）モデル」**を作ることができます。

例え： 目が見える人、耳が聞こえる人、動きがわかる人が、一人の「超感覚的な探偵」に合体したようなものです。これにより、映像と音と動きをセットで理解する能力が、単独のモデルよりも格段に上がりました。

📊 4. 実験結果：なぜこれが重要なのか？

研究者たちは、この方法をテストするために、**「AI 融合のテストベンチマーク（評価基準）」**を初めて作りました。

結果： OptMerge は、既存のどんな方法よりも優れていました。
コスト： 新しい AI を作るのに何週間もかかる学習を、OptMerge なら数時間で完了させました。
データ： 学習データ（食材）を一切使わずに、既存のモデル（レシピ）だけで成功しました。

💡 まとめ：この研究がもたらす未来

この論文が伝えていることはシンプルです。

「AI をもっと賢くするには、ゼロから作り直す必要はありません。既存の『得意分野』を持つ AI たちを、ノイズを取り除いて上手に組み合わせれば、もっと安く、速く、素晴らしい『万能 AI』が作れる！」

これにより、個人開発者や小さな会社でも、大企業のような高性能な AI を、低コストで手に入れる道が開かれました。まるで、世界中の料理人のレシピを一つの本にまとめて、誰でも「万能シェフ」を使えるようになるような、夢のような技術なのです。

Each language version is independently generated for its own context, not a direct translation.

OptMerge: マルチモーダル LLM の能力とモダリティをモデルマージで統合する技術的概要

本論文は、ICLR 2026 にて発表された「OptMerge: UNIFYING MULTIMODAL LLM CAPABILITIES AND MODALITIES VIA MODEL MERGING」に関する技術的サマリーです。この研究は、リソース集約的な再学習なしに、既存の専門特化型マルチモーダル大規模言語モデル（MLLM）を統合し、汎用的かつ高性能な「Omni モデル」を構築するための新しいアプローチを提案しています。

1. 背景と課題 (Problem)

基盤モデルの更新遅延とドメイン特化モデルの急速な進化: 基盤モデルのトレーニングには膨大なリソースが必要であり更新が遅い一方、特定のドメイン（視覚、数学、OCR など）に特化したモデルはオープンソースコミュニティで急速に進化しています。
既存のモデルマージ研究の限界: 従来のモデルマージ研究は、主に画像分類モデルやコード・数学タスクに特化した LLM への適用に焦点が当てられていました。
MLLM におけるベンチマークの欠如: マルチモーダル LLM（MLLM）のトレーニングと評価を明確に区別したモデルマージ用のベンチマークが存在しませんでした。また、既存手法（例：AdaMMS, UQ-Merge）は、2 モデル間のみのマージに限定されていたり、テストデータの存在を前提としていたり、ハイパーパラメータ探索に時間がかかったりする問題がありました。
データ不足とコスト: 異なるモダリティ（画像、音声、動画）を統合する「Omni モデル」をゼロから学習させるには、高品質なマルチモーダル指示データが必要であり、その作成は極めてコストがかかります。

2. 提案手法 (Methodology)

著者らは、以下の 3 つの主要な柱からなるアプローチを提案しています。

A. MLLM 向けモデルマージベンチマークの構築

タスクの細分化: VQA（視覚質問応答）、幾何学推論、チャート理解、OCR、グロウンディング（対象物の位置特定）の 5 つの専門タスクに分類し、各タスクに 10 万件以上のサンプルを含む大規模な公開データセットを収集しました。
モデルの多様性: InternVL2.5（フルファインチューニング）と Qwen2-VL（LoRA によるファインチューニング）の 2 種類の基盤モデルを使用し、両方のトレーニング戦略に対応するチェックポイントを公開しました。
モダリティ統合の評価: 視覚言語、音声言語、動画言語モデルをマージし、単一モデルとして動作する「Omni モデル」を構築する実験を行いました。

B. OptMerge 手法の提案

既存のタスクベクトル（ファインチューニングモデルと基盤モデルの重みの差分）を最適化する際の問題（ノイズ、干渉、不安定さ）を解決するため、OptMergeを提案しました。

タスクベクトルのノイズ除去と低ランク近似:
- 特異値分解（SVD）を適用し、タスクベクトルから冗長なノイズ（上位・下位の特異値）を除去します。
- 主要な特異値成分（ $U_{1:k}, \Sigma_{1:k}, V_{1:k}^\top$ ）のみを保持し、タスクベクトルを低ランク近似することで、タスク間の干渉を低減します。
- 従来の手法（WUDI Merging など）が転置行列を直接入力として用いていたのに対し、OptMerge は SVD による部分空間の抽出を行い、より正確な入力空間推定を実現します。
ロバストな最適化戦略:
- LoRA 適応モデルへの対応: LoRA は低ランク構造を持つため、最適化時に勾配がゼロ空間（null space）で消失しやすくなります。これを解決するため、Adam 最適化器の代わりにSGDを使用し、局所最適解からの脱出と安定性を向上させます。
- 初期化と正規化: マージされたベクトルをタスクベクトルの平均で初期化し、最適化過程でのベクトルノルムの急激な増大（言語能力の崩壊を招く）を防ぎます。
- 損失関数: タスクベクトル間の相互作用に基づいた損失関数を定義し、マージベクトルが各タスクの性能を維持しつつ干渉を最小化するよう最適化します。

C. データフリーなアプローチ

学習データ（トレーニングデータ）を一切使用せず、既存のチェックポイントと基盤モデルのみからマージモデルを生成します。これにより、プライバシー保護と計算コストの大幅な削減を実現します。

3. 主要な貢献 (Key Contributions)

初の MLLM 向けモデルマージベンチマーク: MLLM の能力を細粒度に分類し、モダリティ統合の評価も可能にした最初のベンチマークを提供。
OptMerge 手法の提案: タスクベクトルからノイズを除去し、低ランク近似と SGD を用いてマージのロバスト性を向上させる新しい手法。アブレーション研究により平均 2.48% の性能向上を確認。
データフリーな Omni モデル構築の実証: 学習データなしで複数の専門モデルを統合し、個々の専門モデルや混合データでの学習（Mixture Training）を上回る性能を達成することを実証。

4. 実験結果 (Results)

能力統合（Capability Merging）:
- InternVL2.5 と Qwen2-VL において、OptMerge は個別の専門家モデル（Expert Models）や、全データを混合して学習させたモデル（Mixture Training）を上回る平均性能を示しました。
- 例：Qwen2-VL において、幾何学タスクで 51.05、チャートタスクで 79.76 のスコアを達成し、個々のモデル（それぞれ 42.50, 61.08 など）を凌駕しました。
- 既存の SOTA マージ手法（TIES-Merging, WUDI Merging など）と比較しても、OptMerge が最も高い平均スコアを記録しました。
モダリティ統合（Modality Merging）:
- 視覚、音声、動画の 3 つのモダリティモデルをマージした結果、単一モダリティで学習したモデルや、オンラインでアクティベーションを合成する手法（NaiveMC, DAMC）よりも優れた性能を示しました。
- これは、異なるモダリティ情報が相互補完的であることを示しています。
計算効率:
- 混合データ学習（Mixture Training）と比較して、OptMerge はGPU メモリ使用量が 1/100 以下、解決時間が 1/10 以下で済みます（例：Qwen2-VL-7B で 24 時間 vs 3.78 時間）。
実用性:
- Hugging Face から収集した実際のファインチューニング済みチェックポイント（ポケモン特化、PDF 変換、数学推論など）に対しても有効であり、OptMerge がマージ後のモデルの性能を向上させることを確認しました。

5. 意義と結論 (Significance)

Omni モデルへの道筋: 学習データなしで、異なるモダリティやタスクに特化したモデルを統合し、汎用的な「Omni モデル」を構築する現実的なパスを提供しました。
分散開発の促進: 開発者が個別にモデルをトレーニングし、後でマージすることで、中央集権的な大規模トレーニングの必要性を減らし、分散型 AI 開発を可能にします。
コスト削減とプライバシー: データを再利用せずにモデルを統合できるため、データプライバシーの懸念を回避しつつ、ストレージと推論コストを削減できます。
理論的洞察: 微調整のステップ数や学習率がマージ性能に与える影響を理論的に分析し、過学習（パラメータの過度なドリフト）がマージの失敗要因となることを示しました。

総じて、OptMerge は、MLLM の開発において計算リソースと時間を大幅に節約しつつ、高性能な統合モデルを構築するための画期的かつ実用的なソリューションです。

OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging