Each language version is independently generated for its own context, not a direct translation.

MERGETUNE：AI の「忘れ癖」を治す魔法のレシピ

この論文は、最新の「視覚と言語を学ぶ AI（VLM）」が抱えるある大きな悩みと、それを解決する新しい方法について書かれています。

🧠 問題：AI は「勉強」すると「昔の知識」を忘れてしまう

まず、背景を簡単に説明しましょう。

CLIP（クリップ）という天才：
世の中には「CLIP」という、インターネット上の何億枚もの画像と文章で勉強した天才 AI がいます。この AI は、どんな新しい写真を見ても「これは猫だ」「これは車だ」と、特別な勉強をしなくても（ゼロショット学習）見分けられるすごい能力を持っています。
細心の調整（ファインチューニング）の副作用：
しかし、この天才 AI を特定の任務（例えば「犬の品種を識別する」など）に特化させるために、さらに追加の勉強（ファインチューニング）させると、「昔の広範な知識」を忘れてしまうという悲劇が起きます。これを「忘却（フォーギング）」と呼びます。
- 例え話： 世界中の料理を知り尽くしたシェフが、特定の「ラーメン屋」に就職して修行を積んだ結果、「寿司の作り方を完全に忘れてしまった」ような状態です。

これまでの研究は「忘れないように勉強しよう」という努力が中心でしたが、完全に忘れるのを防ぐのはとても難しいことでした。

💡 解決策：MERGETUNE（マージチューン）

この論文の著者たちは、**「勉強が終わった後で、忘れ去られた知識を取り戻す」という新しいアプローチを提案しました。名前は「MERGETUNE（マージチューン）」**です。

🎨 創造的な比喩：2 つの地図を繋ぐ「新しい道」

この仕組みを理解するために、以下の比喩を使ってみましょう。

2 つの場所（2 つのモデル）：
- 場所 A（ゼロショットモデル）： 広大な世界を熟知している「元の天才シェフ」。
- 場所 B（ファインチューンモデル）： 特定のラーメン屋に特化した「特化シェフ」。
- 問題点は、この 2 つのシェフは性格も知識も全く違うため、**「A から B へ、あるいは B から A へ直接移動しようとすると、険しい山や深い谷（性能が落ちる場所）がある」**ことです。単純に 2 人を混ぜ合わせると、どちらもダメなシェフになってしまいます。
MERGETUNE の魔法：
MERGETUNE は、この 2 つの場所の間に**「滑らかで安全な新しい道」**を作ります。
- この新しい道（新しいモデル）を歩くことで、**「元の天才シェフの広範な知識」と「特化シェフの専門知識」**の両方を、同時に持っている状態になります。
- 重要なのは、この道は**「損失（エラー）が低い」**つまり、どちらの知識も失わずに繋がっていることです。

🔧 仕組み：どうやって道を作るのか？

MERGETUNE は、以下の 2 つのルールを守りながら、AI のパラメータ（重み）を微調整します。

元の天才に近づく： 「元のシェフ（CLIP）」から遠ざかりすぎないよう、距離を縮めるように調整します。
特化シェフと繋がる： 「特化シェフ」との間に、スムーズな道（直線的な接続）があることを確認します。

これにより、AI は**「ラーメン屋の専門家でありながら、世界中の料理も忘れない」**という、最強のハイブリッドシェフになります。

🚀 すごい成果

実験の結果、MERGETUNE は以下のような素晴らしい成果を上げました。

知識の回復： 忘れた知識が驚くほど回復し、新しいデータ（未知の犬の品種など）に対する正解率が大幅に向上しました。
コストなし： 特別な新しい部品を追加したり、AI の構造を変えたりする必要はありません。既存のモデルに後から適用できる「魔法の薬」のようなものです。
既存の手法より強い： 従来の「2 つのモデルを単純に混ぜる」方法や、「 ensemble（アンサンブル：複数のモデルを同時に使う）」方法よりも、計算コストが安く、かつ性能が高いことが証明されました。

🌟 まとめ

この論文が伝えているのは、**「AI が特定の任務に特化して知識を失っても、後から『元の知識』と『新しい知識』を滑らかに繋ぐ道を作れば、両方の能力を復活させられる」**という希望です。

MERGETUNE は、AI の「学習と忘却」のジレンマを、**「地理的な道作り」**という視点で解決した、非常にシンプルで強力な新しい技術なのです。

Each language version is independently generated for its own context, not a direct translation.

MERGETUNE: 視覚言語モデルの継続的微調整に関する技術的概要

本論文は、ICLR 2026 にて発表された「MERGETUNE: CONTINUED FINE-TUNING OF VISION-LANGUAGE MODELS」です。視覚言語モデル（VLM）の微調整における「忘却（Forgetting）」の問題を解決し、事前学習された知識を回復させるための新しいパラダイムと手法を提案しています。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細にまとめます。

1. 問題定義 (Problem)

視覚言語モデル（CLIP など）は、大規模な画像 - テキストペアの事前学習により強力なゼロショット汎化性能を持っていますが、特定のタスクに適応させるために微調整（Fine-tuning）を行うと、**カタストロフィック・フォージティング（Catastrophic Forgetting）**が発生し、事前学習で獲得した汎用的な知識が失われるという課題があります。

既存の解決策には以下の限界がありました：

パラメータ効率型微調整（PEFT）: プロンプト学習やアダプタなどの軽量モジュールのみを更新する方法ですが、これらは事前学習知識の保持が不完全であり、特にクロスドメインやクロスデータセットでの汎化性能が CLIP 自体を下回るケースが多発しています。
モデルアンサンブル（Ensembling）: 微調整済みモデルとゼロショットモデルを重み空間や予測空間で組み合わせる手法（例：Wise-FT, VRF）は、ある程度機能しますが、重み空間での距離が離れすぎている場合、単純な線形補間では低損失経路（Low-loss path）が確保できず、不安定な性能や過剰な推論コスト（複数のモデルを保持・実行する必要がある）を招きます。

核心的な課題: 微調整が完了した後に、失われた事前学習知識を回復し、かつ下流タスクの性能を維持・向上させる方法の欠如。

2. 手法 (Methodology)

著者は、微調整後のモデルに対して適用可能な新しいパラダイム**「継続的微調整（Continued Fine-Tuning: CFT）」を提案し、その具体的な実装としてMERGETUNE**を開発しました。

2.1 基本的なアイデア

MERGETUNE は、既存の微調整済みモデル（例：CoOp）とゼロショットモデル（例：CLIP）の両方に対して**線形モード接続（Linear Mode Connectivity: LMC）**が成立するよう、モデルをさらに微調整（継続的学習）します。

目標: 微調整済みモデルとゼロショットモデルの両方から、損失が低い滑らかな経路（Low-loss paths）で接続される新しいモデル（Continued Model）を探索すること。
効果: これにより、失われた事前学習知識を暗黙的に「マージ（統合）」し、両方の利点を兼ね備えたモデルを構築します。

2.2 最適化目標と第二高次代理損失

従来の LMC 制約を実装するには、ゼロショットモデルの事前学習データ（Web スケールのコーパス）をリプレイ（再学習）する必要がありますが、これは現実的ではありません（データ非公開、計算コスト高）。これを解決するため、MERGETUNE は以下の工夫を行います。

タスク 1（事前学習タスク）の代理損失（Surrogate Loss）:
- 事前学習データへの依存を排除するため、ゼロショットモデル $\hat{w}_1$ に対する損失 $L_1$ を第二高次テ일러展開で近似します。
- $\hat{w}_1$ が局所最適解にあると仮定し、ヘッシアン行列を等方性（ $\mu I$ ）と仮定することで、複雑なデータリプレイなしに以下のような正則化項として近似します：
  $R_{Task1} = \lambda \| w - \hat{w}_1 \|^2$
- これにより、微調整モデル $w$ がゼロショットモデル $\hat{w}_1$ に近づくよう強制します。
タスク 2（下流タスク）の LMC 損失:
- 微調整済みモデル $\hat{w}_2$ と新しいモデル $w$ の間の線形補間経路上での損失を最小化します。
- 期待値計算は計算的に困難なため、いくつかの離散点 $\alpha$ での損失を平均化して近似します。
最終的な損失関数:
$\mathcal{L}(w) = L_2(w) + \lambda \| w - \hat{w}_1 \|^2 + \beta \mathbb{E}_{\alpha} [L_2(\hat{w}_2 + \alpha(w - \hat{w}_2))]$
- 第 1 項：下流タスクの直接損失。
- 第 2 項：ゼロショットモデルへの近接性を保つ代理正則化（忘却防止）。
- 第 3 項：微調整済みモデルとの LMC 制約（知識統合）。

2.3 特徴

モデル非依存（Model-agnostic）: 微調整に用いたパラメータ（プロンプト、アダプタ、線形ヘッドなど）が何であれ適用可能。
事後適用（Post-hoc）: 既存の微調整済みモデルに対して、アーキテクチャ変更なしに追加学習として適用可能。

3. 主要な貢献 (Key Contributions)

継続的微調整（CFT）という新しいパラダイムの提案:
- 微調整中の忘却防止ではなく、微調整完了後の知識回復に焦点を当てた新しいアプローチを確立しました。
MERGETUNE の開発:
- LMC を目的関数として活用し、ゼロショットモデルと微調整モデルを統合する学習ベースのマージ手法を提案しました。
- 大規模な事前学習データのリプレイを不要とする「第二高次代理損失」を導入し、実用性を高めました。
広範な実験による有効性の立証:
- 既存の PEFT 手法（CoOp, KgCoOp, MMA, PromptKD など）およびロバスト微調整手法に対して適用し、一貫して性能向上を示しました。

4. 実験結果 (Results)

11 のデータセットおよび複数の評価プロトコル（Few-shot, Many-shot, Cross-dataset, Domain Generalization）で評価されました。

Base-to-Novel 汎化性能:
- CoOp ベースラインに対して、パラメータ追加なしで調和平均（HM）を +5.6% 向上させました。
- 既存のトレーニングフリーなマージ手法（TIES, DARE）は多くの場合性能を低下させましたが、MERGETUNE はすべてのベースラインで改善をもたらしました。
クロスデータセット汎化:
- ImageNet で学習し、他の 10 のデータセットで直接評価するタスクにおいて、MERGETUNE はすべてのベースラインで平均 HM を向上させました（CoOp で +1.92%）。
- 特に FGVC Aircraft や DTD などの困難なデータセットで顕著な改善が見られました。
ドメイン汎化（Domain Generalization）:
- ImageNet のドメインシフト（Sketch, Adversarial など）に対する頑健性において、MERGETUNE はベースラインを凌駕し、TIES や DARE が性能を低下させたのに対し、安定したプラスの改善（+0.30% 〜 +0.87%）を示しました。
ロバスト微調整（Robust Fine-tuning）:
- 分布内（ID）および分布外（OOD）の両方で、アンサンブルベースの SOTA 手法（VRF など）を上回る性能を達成しました。
- MERGETUNE 単体で推論コストが低く、さらにゼロショットモデルとの単純なアンサンブルを行うことで、さらに性能が向上し、すべてのケースで CLIP を上回る SOTA 結果を達成しました。

5. 意義と結論 (Significance)

MERGETUNE は、VLM の適応プロセスにおける「忘却」という根本的な課題に対し、単なる抑制ではなく、**「回復（Recovery）」**という新しい視点を提供しています。

実用性: 既存のモデルを破棄することなく、追加の学習ステップとして知識を回復・強化できるため、実システムへの導入コストが低いです。
理論的洞察: 重み空間における「モード接続性」を学習目標として明示的に利用することで、異なるタスク（ゼロショットと微調整）の知識を安定して統合できることを実証しました。
汎用性: 特定のアーキテクチャや微調整手法に依存せず、広く適用可能なフレームワークです。

本論文は、VLM の適応技術において、事前学習知識の保持と下流タスクの性能向上を両立させるための強力な基盤を築き、今後の研究と応用において重要な指針となるものです。

MERGETUNE: Continued Fine-Tuning of Vision-Language Models